大型语言模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

超越ZIP的无损压缩来了！华盛顿大学让大模型成为无损文本压缩器

超越ZIP的无损压缩来了！华盛顿大学让大模型成为无损文本压缩器当大语言模型生成海量数据时，存储问题愈发突出。为此，华盛顿大学SyFI实验室提出了一种创新方案：LLMc，利用大型语言模型（LLM）实现无损文本压缩。基准测试显示，LLMc在维基百科、小说、科学摘要等数据集上的压缩率优于传统工具（如ZI...

原文链接

智能维度跳跃

10-11 15:28:38

LLMC

大型语言模型

无损压缩

分享至

打开微信扫一扫

内容投诉

生成图片

苹果新研究：不微调、不重训，如何让AI提问效率暴增6.5倍？

2025年9月，苹果与牛津大学和香港城市大学联合发布了一项名为BED-LLM的研究成果。该方法无需微调或重训模型，通过引入贝叶斯实验设计框架，显著提升了大型语言模型（LLM）的提问效率。其核心是让AI学会动态调整问题，以最大化信息增益，并解决多轮对话中的“遗忘症”问题。实验表明，BED-LLM在猜谜游戏和电影推荐任务中将成功率从14%提升至91%，并在跨模型对话中表现出色。这一突破展示了AI从被动问答向主动信息收集的转变，为未来智慧对话提供了新方向。

原文链接

Nebula

09-03 18:49:23

BED-LLM

信息增益

大型语言模型

分享至

打开微信扫一扫

内容投诉

生成图片

研究显示：AI 解 6x6 数独都费劲，解释决策时还答非所问

8月7日，科罗拉多大学博尔德分校研究人员发布论文指出，大型语言模型（LLM）在解决6×6数独时表现不佳，尤其在解释决策过程时存在明显不足。研究发现，LLM因依赖训练数据模式逐个填充空缺，难以应对数独的复杂逻辑，甚至出现答非所问的情况，例如谈论无关话题。计算机科学教授阿舒托什・特里维迪强调，AI工具若无法透明解释其决策原因，将带来潜在风险。此外，LLM在国际象棋、汉诺塔等逻辑游戏中也暴露出类似问题，如违反规则或缺乏前瞻性规划。随着AI在驾驶、税务处理等领域的应用增加，其解释能力的重要性愈发凸显，研究人员警告应警惕AI解释可能带来的操纵风险。

原文链接

AI奇点纪元

08-07 10:46:45

大型语言模型

数独问题

解释能力

分享至

打开微信扫一扫

内容投诉

生成图片

ChatGPT 在航天器自主控制模拟竞赛中获佳绩，展现大语言模型新潜力

7月7日，一项研究显示，ChatGPT在航天器自主控制模拟竞赛中表现优异，获得第二名。该竞赛基于游戏《坎巴拉太空计划》，测试大型语言模型（LLM）在航天任务中的应用潜力。研究人员通过将航天器状态和目标转化为文本描述，使ChatGPT生成操控建议，并通过转换层实现功能代码输出。此方法展现了LLM在减少训练优化需求上的优势，尽管仍面临“幻觉”问题的挑战。研究结果表明，现成的LLM也能为航天领域提供创新解决方案，未来或助力解决手动控制卫星和深空探测延迟等问题。相关论文即将发表于《空间研究进展》杂志。

原文链接

AI奇点纪元

07-07 22:36:28

ChatGPT

大型语言模型

航天器自主控制

分享至

打开微信扫一扫

内容投诉

生成图片

英伟达发布新 RL 范式：受 DeepSeek-R1 启发，重塑 AI 模型外部工具能力

5月13日，英伟达联合宾夕法尼亚州立大学和华盛顿大学发布Nemotron-Research-Tool-N1系列模型，该系列基于DeepSeek-R1启发，提出一种新型强化学习（RL）范式，旨在提升AI模型的外部工具使用能力。当前大型语言模型(LLMs)通过外部工具如搜索引擎、计算器等增强性能，但现有...

原文链接

DreamCoder

05-14 15:16:49

外部工具

大型语言模型

强化学习

分享至

打开微信扫一扫

内容投诉

生成图片

英伟达发布 Llama-3.1-Nemotron-Ultra-253B-v1 模型，推动 AI 高效部署

4月11日，英伟达发布大型语言模型Llama-3.1-Nemotron-Ultra-253B-v1（简称Nemotron Ultra），该模型拥有2530亿参数，在推理能力、架构效率及生产准备度方面取得重大进展。作为Meta Llama-3.1-405B-Instruct架构的升级版，Nemotron Ultra专为企业和开发者设计，支持复杂指令执行及多轮对话。该模型采用创新的跳跃注意力机制，部分层省略或替换注意力模块，并通过前馈网络融合技术提升效率，上下文窗口可达128K token，适合长文本处理。在部署方面，Nemotron Ultra可在单个8xH100节点上高效运行，大幅降低数据中心成本。此外，英伟达通过多阶段后训练优化，包括监督微调和强化学习（RL），使其在多项基准测试中表现优异。

原文链接

未来笔触

04-12 14:49:27

AI部署

Nemotron Ultra

大型语言模型

分享至

打开微信扫一扫

内容投诉

生成图片

投入数亿美元的大模型“对齐”，脆弱得像饺子皮

标题：大模型“对齐”脆弱得像饺子皮在大模型迈向通用人工智能（AGI）的过程中，“AI对齐”被认为是守护人类的最后一道防线。图灵奖得主约书亚·本吉奥指出，AI对齐不仅是技术问题，更是伦理和社会问题。AI对齐的核心目标是通过微调、强化学习等手段，确保大模型始终忠于人类价值并拒绝有害行为。大模型公...

原文链接

DreamCoder

03-16 10:44:00

AI对齐

大型语言模型

道德崩溃

分享至

打开微信扫一扫

内容投诉

生成图片

o3来了，通用人工智能真的触手可及吗？

OpenAI近期发布了代号为O3的新型人工智能系统，被认为是“通用人工智能（AGI）前奏”。O3在技术路线上更接近人类认知方式，展示了突破性进展。AGI若实现，将带来巨大突破，但也可能引发不确定性。尽管LLM如O1在多项测试中表现出色，但仍存在局限性。专家们对AGI的实现时间持不同观点，从几年到十年以上不等。实现AGI面临数据需求、自主性等挑战，但理论障碍不大。

原文链接

代码编织者

01-07 09:58:26

Transformer

大型语言模型

通用人工智能

分享至

打开微信扫一扫

内容投诉

生成图片

26 年前的古董 Win98 电脑成功运行大语言模型：搭载奔腾 II 处理器、128MB 内存

IT之家报道，EXO Labs展示了一台26年前的奔腾II电脑（128MB内存，Windows 98系统）成功运行大型语言模型（LLM）。这台350MHz的Elonex电脑通过FTP传输文件后，运行了基于Andrej Karpathy的Llama2.c开发的纯C推理引擎，生成了关于'Sleepy Joe'的故事。EXO Labs由牛津大学研究人员组成，旨在普及AI。尽管26万参数的LLM规模较小，但在Windows 98上的生成速度达每秒35.9个token。EXO Labs还提出BitNet架构，目标是实现AI的普及。

原文链接

数字墨迹

12-30 09:11:33

EXO Labs

Windows 98

大型语言模型

分享至

打开微信扫一扫

内容投诉

生成图片

Omdia：预计 2029 年生成式 AI 市场规模达 728 亿美元

Omdia预测，全球生成式AI市场规模将在2029年达到728亿美元，较2024年的146亿美元增长五倍。生成式AI已广泛应用于消费、企业服务、零售、媒体娱乐及医疗保健等领域。多模态生成式AI技术因其多样化功能，正推动客户服务、企业知识管理、3D数字分身和制造业等行业的应用。尽管基于大型语言模型（LLM）的应用日益普及，但LLM仅能处理文本和语音数据，无法实现多模态学习。据中国互联网络信息中心数据，截至2024年6月，我国生成式AI产品用户规模已达2.3亿人，占总人口的16.4%。

原文链接