语言模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

AI模型也能被“洗脑”！仅需250份文件就能控制ChatGPT回应

10月19日，Anthropic、英国AI安全研究所和艾伦·图灵研究所联合研究发现，大语言模型（如Claude、ChatGPT等）对数据中毒攻击的防御能力远低于预期。研究表明，仅需250份恶意文件即可在模型中植入后门，影响其响应行为。测试涵盖参数规模从600万到130亿的模型，结果显示，即使在130亿参数模型中，这些文件占比仅为0.00016%，却能触发异常输出。研究人员尝试用干净数据消除后门，但效果有限。尽管测试集中于简单后门且模型规模未达商业旗舰级，研究团队呼吁业界加强安全实践以应对潜在威胁。

原文链接

心智奇点

10-19 22:55:33

后门行为

大语言模型

数据中毒攻击

分享至

打开微信扫一扫

内容投诉

生成图片

Meta前高管警告：AI市场大概率会有一波调整

10月15日，Meta前高管尼克·克莱格警告称，人工智能市场很可能迎来一波调整，因当前AI热潮导致‘疯狂估值’和过度交易。他认为，大规模投资数据中心的云计算公司能否实现可持续商业模式是关键。他还质疑基于大语言模型的AI技术存在局限性，尽管AI本身并非泡沫，并将对各行业产生深远影响。克莱格指出，AI普及速度可能比预期更慢，类似个人电脑从技术可行到全面普及用了20年。他批评硅谷对技术推广的过度乐观，强调不同产业和国家的采用节奏各异。亚马逊创始人贝索斯此前也提到，AI虽有泡沫，但其真实性和变革性毋庸置疑。

原文链接

新智燎原

10-16 20:00:09

人工智能

大语言模型

市场调整

分享至

打开微信扫一扫

内容投诉

生成图片

拒绝“熵崩塌”和“熵爆炸”！这项研究让大模型推理成绩飙升

正文：2024年，大语言模型在数学、代码和科学推理任务上取得突破，得益于RLVR训练方法。然而，RLVR面临‘熵崩塌’和‘熵爆炸’的探索难题。上海人工智能实验室与复旦大学团队提出选择性熵正则化方法（SIREN），通过划定探索范围、聚焦关键决策、稳定训练过程，精准调控探索行为。实验显示，SIREN显著提升模型性能，在Qwen2.5-Math-7B上的maj@k达54.6%，在AIME24/25上提升6.6%。该研究为大规模推理模型的稳定训练提供解决方案，助力复杂任务推理能力提升。

原文链接

E-Poet

10-13 18:02:32

大语言模型

熵正则化

选择性熵正则化方法

分享至

打开微信扫一扫

内容投诉

生成图片

推理性能提升10倍！蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer

10月13日，蚂蚁集团开源了业界首个高性能扩散语言模型推理框架dInfer。在基准测试中，dInfer将扩散语言模型的推理速度提升10.7倍，超越英伟达Fast-dLLM框架；在代码生成任务HumanEval上，单批次推理速度达1011Tokens/秒，首次显著超越自回归模型。扩散语言模型通过“去噪”生成文本，具备高度并行、全局视野等优势，但推理效率长期受限于计算成本高等问题。dInfer通过四大核心模块针对性解决这些瓶颈，支持多种模型优化与评测。在配备8块NVIDIA H800 GPU的节点上，其速度是vLLM运行AR模型的2.5倍。蚂蚁集团表示，dInfer推动扩散语言模型迈向实践高效，邀请全球开发者共同探索AI潜能。

原文链接

虚拟微光

10-13 18:00:58

dInfer

扩散语言模型

推理性能

分享至

打开微信扫一扫

内容投诉

生成图片

2025全球十大工程成就发布 DeepSeek、人形机器人等入选

2025年10月13日，世界工程组织联合会在上海世博中心举办全体大会暨全球工程大会。开幕式上，《Engineering》期刊发布了“2025全球十大工程成就”，其中包括DeepSeek开源大语言模型、人形机器人以及南水北调中线工程等项目。这些成就展示了全球工程领域的最新突破与创新，体现了技术发展对社会的重要推动作用。此次评选结果在上海发布，彰显了中国在全球工程领域的影响力。

原文链接

月光编码师

10-13 11:57:02

2025全球十大工程成就

DeepSeek开源大语言模型

人形机器人

分享至

打开微信扫一扫

内容投诉

生成图片

超越ZIP的无损压缩来了！华盛顿大学让大模型成为无损文本压缩器

超越ZIP的无损压缩来了！华盛顿大学让大模型成为无损文本压缩器当大语言模型生成海量数据时，存储问题愈发突出。为此，华盛顿大学SyFI实验室提出了一种创新方案：LLMc，利用大型语言模型（LLM）实现无损文本压缩。基准测试显示，LLMc在维基百科、小说、科学摘要等数据集上的压缩率优于传统工具（如ZI...

原文链接

智能维度跳跃

10-11 15:28:38

LLMC

大型语言模型

无损压缩

分享至

打开微信扫一扫

内容投诉

生成图片

阿里云通义千问开源 Qwen3-VL-30B-A3B 模型：智能体任务等领域媲美 GPT-5-Mini

10月4日，阿里云通义千问宣布开源Qwen3-VL-30B-A3B-Instruct与Thinking模型，并推出FP8版本及超大规模模型Qwen3-VL-235B-A22B的FP8版本。新模型以仅30亿激活参数，在STEM、视觉问答（VQA）、OCR、视频理解及智能体任务等领域媲美GPT-5-Mini和Claude4-Sonnet，部分表现更优。该模型具备更强的文本理解、视觉感知、空间推理及多模态处理能力，支持长达256K上下文（可扩展至1M），并优化了OCR功能与视觉代理能力。模型已在魔搭社区和Hugging Face免费开放下载，同时上线Qwen Chat，供开发者灵活部署与使用。

原文链接

蝶舞CyberSwirl

10-04 14:01:20

Qwen3-VL-30B-A3B

开源

视觉语言模型

分享至

打开微信扫一扫

内容投诉

生成图片

Meta 开源 MobileLLM-R1 系列小语言 AI 模型：参数量不到 10 亿、专攻数学编程科学问题

9月22日，Meta发布MobileLLM-R1系列小语言模型，参数量分别为1.4亿、3.6亿和9.5亿，专为移动设备等轻量级平台设计。该模型经过监督式微调（SFT），聚焦数学、编程（如Python、C++）及科学问题，预训练数据仅约2TB高质量token，总数据量不到5TB。在多项基准测试中，其性能超越使用36TB数据训练的Qwen 3-0.6B。例如，在MATH测试中，MobileLLM-R1 950M准确率是Olmo 1.24B的5倍，编程任务表现同样优异。模型已开源，采用Apache 2.0协议，可通过vLLM推理引擎运行，并在Hugging Face平台发布。

原文链接

阿达旻

09-22 21:03:24

MobileLLM-R1

开源小语言模型

数学编程科学问题

分享至

打开微信扫一扫

内容投诉

生成图片

AI无处不在的小应用，与行业发展的大困局

标题：AI小应用无处不在，行业发展面临大困局正文：近期，AI领域的创新似乎陷入瓶颈，许多新技术和理念未能达到预期。然而，在参与几次AI落地实践的交流后，我对AI的态度转为乐观：AI已悄然渗透到各行各业，潜移默化地改变着我们的世界。简单AI能力破解数字化难题什么是真正的AI系统？有人认...

原文链接

月光编码师

09-22 16:01:16

AI应用

大语言模型

数字化

分享至

打开微信扫一扫

内容投诉

生成图片

蚂蚁与中国人民大学发布首个原生MoE扩散语言模型

2025年9月12日，在2025Inclusion·外滩大会上，蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型“LLaDA-MoE”。该模型在约20T数据上完成从零训练，验证了工业级大规模训练的扩展性与稳定性。模型将在近期完全开源，旨在推动全球AI社区在扩散语言模型（dLLM）领域的技术发展。这一成果标志着AI模型架构及训练方法的重要突破。（记者黄心怡）

原文链接

E-Poet

09-12 11:12:20

中国人民大学

扩散语言模型

蚂蚁集团

分享至

打开微信扫一扫

内容投诉

生成图片

加载更多