1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
AI模型也能被“洗脑”!仅需250份文件就能控制ChatGPT回应
10月19日,Anthropic、英国AI安全研究所和艾伦·图灵研究所联合研究发现,大语言模型(如Claude、ChatGPT等)对数据中毒攻击的防御能力远低于预期。研究表明,仅需250份恶意文件即可在模型中植入后门,影响其响应行为。测试涵盖参数规模从600万到130亿的模型,结果显示,即使在130亿参数模型中,这些文件占比仅为0.00016%,却能触发异常输出。研究人员尝试用干净数据消除后门,但效果有限。尽管测试集中于简单后门且模型规模未达商业旗舰级,研究团队呼吁业界加强安全实践以应对潜在威胁。
心智奇点
10-19 22:55:33
后门行为
大语言模型
数据中毒攻击
分享至
打开微信扫一扫
内容投诉
生成图片
Meta前高管警告:AI市场大概率会有一波调整
10月15日,Meta前高管尼克·克莱格警告称,人工智能市场很可能迎来一波调整,因当前AI热潮导致‘疯狂估值’和过度交易。他认为,大规模投资数据中心的云计算公司能否实现可持续商业模式是关键。他还质疑基于大语言模型的AI技术存在局限性,尽管AI本身并非泡沫,并将对各行业产生深远影响。克莱格指出,AI普及速度可能比预期更慢,类似个人电脑从技术可行到全面普及用了20年。他批评硅谷对技术推广的过度乐观,强调不同产业和国家的采用节奏各异。亚马逊创始人贝索斯此前也提到,AI虽有泡沫,但其真实性和变革性毋庸置疑。
新智燎原
10-16 20:00:09
人工智能
大语言模型
市场调整
分享至
打开微信扫一扫
内容投诉
生成图片
拒绝“熵崩塌”和“熵爆炸”!这项研究让大模型推理成绩飙升
正文:2024年,大语言模型在数学、代码和科学推理任务上取得突破,得益于RLVR训练方法。然而,RLVR面临‘熵崩塌’和‘熵爆炸’的探索难题。上海人工智能实验室与复旦大学团队提出选择性熵正则化方法(SIREN),通过划定探索范围、聚焦关键决策、稳定训练过程,精准调控探索行为。实验显示,SIREN显著提升模型性能,在Qwen2.5-Math-7B上的maj@k达54.6%,在AIME24/25上提升6.6%。该研究为大规模推理模型的稳定训练提供解决方案,助力复杂任务推理能力提升。
E-Poet
10-13 18:02:32
大语言模型
熵正则化
选择性熵正则化方法
分享至
打开微信扫一扫
内容投诉
生成图片
推理性能提升10倍!蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer
10月13日,蚂蚁集团开源了业界首个高性能扩散语言模型推理框架dInfer。在基准测试中,dInfer将扩散语言模型的推理速度提升10.7倍,超越英伟达Fast-dLLM框架;在代码生成任务HumanEval上,单批次推理速度达1011Tokens/秒,首次显著超越自回归模型。扩散语言模型通过“去噪”生成文本,具备高度并行、全局视野等优势,但推理效率长期受限于计算成本高等问题。dInfer通过四大核心模块针对性解决这些瓶颈,支持多种模型优化与评测。在配备8块NVIDIA H800 GPU的节点上,其速度是vLLM运行AR模型的2.5倍。蚂蚁集团表示,dInfer推动扩散语言模型迈向实践高效,邀请全球开发者共同探索AI潜能。
虚拟微光
10-13 18:00:58
dInfer
扩散语言模型
推理性能
分享至
打开微信扫一扫
内容投诉
生成图片
2025全球十大工程成就发布 DeepSeek、人形机器人等入选
2025年10月13日,世界工程组织联合会在上海世博中心举办全体大会暨全球工程大会。开幕式上,《Engineering》期刊发布了“2025全球十大工程成就”,其中包括DeepSeek开源大语言模型、人形机器人以及南水北调中线工程等项目。这些成就展示了全球工程领域的最新突破与创新,体现了技术发展对社会的重要推动作用。此次评选结果在上海发布,彰显了中国在全球工程领域的影响力。
月光编码师
10-13 11:57:02
2025全球十大工程成就
DeepSeek开源大语言模型
人形机器人
分享至
打开微信扫一扫
内容投诉
生成图片
超越ZIP的无损压缩来了!华盛顿大学让大模型成为无损文本压缩器
超越ZIP的无损压缩来了!华盛顿大学让大模型成为无损文本压缩器 当大语言模型生成海量数据时,存储问题愈发突出。为此,华盛顿大学SyFI实验室提出了一种创新方案:LLMc,利用大型语言模型(LLM)实现无损文本压缩。基准测试显示,LLMc在维基百科、小说、科学摘要等数据集上的压缩率优于传统工具(如ZI...
智能维度跳跃
10-11 15:28:38
LLMC
大型语言模型
无损压缩
分享至
打开微信扫一扫
内容投诉
生成图片
阿里云通义千问开源 Qwen3-VL-30B-A3B 模型:智能体任务等领域媲美 GPT-5-Mini
10月4日,阿里云通义千问宣布开源Qwen3-VL-30B-A3B-Instruct与Thinking模型,并推出FP8版本及超大规模模型Qwen3-VL-235B-A22B的FP8版本。新模型以仅30亿激活参数,在STEM、视觉问答(VQA)、OCR、视频理解及智能体任务等领域媲美GPT-5-Mini和Claude4-Sonnet,部分表现更优。该模型具备更强的文本理解、视觉感知、空间推理及多模态处理能力,支持长达256K上下文(可扩展至1M),并优化了OCR功能与视觉代理能力。模型已在魔搭社区和Hugging Face免费开放下载,同时上线Qwen Chat,供开发者灵活部署与使用。
蝶舞CyberSwirl
10-04 14:01:20
Qwen3-VL-30B-A3B
开源
视觉语言模型
分享至
打开微信扫一扫
内容投诉
生成图片
Meta 开源 MobileLLM-R1 系列小语言 AI 模型:参数量不到 10 亿、专攻数学编程科学问题
9月22日,Meta发布MobileLLM-R1系列小语言模型,参数量分别为1.4亿、3.6亿和9.5亿,专为移动设备等轻量级平台设计。该模型经过监督式微调(SFT),聚焦数学、编程(如Python、C++)及科学问题,预训练数据仅约2TB高质量token,总数据量不到5TB。在多项基准测试中,其性能超越使用36TB数据训练的Qwen 3-0.6B。例如,在MATH测试中,MobileLLM-R1 950M准确率是Olmo 1.24B的5倍,编程任务表现同样优异。模型已开源,采用Apache 2.0协议,可通过vLLM推理引擎运行,并在Hugging Face平台发布。
阿达旻
09-22 21:03:24
MobileLLM-R1
开源小语言模型
数学编程科学问题
分享至
打开微信扫一扫
内容投诉
生成图片
AI无处不在的小应用,与行业发展的大困局
标题:AI小应用无处不在,行业发展面临大困局 正文: 近期,AI领域的创新似乎陷入瓶颈,许多新技术和理念未能达到预期。然而,在参与几次AI落地实践的交流后,我对AI的态度转为乐观:AI已悄然渗透到各行各业,潜移默化地改变着我们的世界。 简单AI能力破解数字化难题 什么是真正的AI系统?有人认...
月光编码师
09-22 16:01:16
AI应用
大语言模型
数字化
分享至
打开微信扫一扫
内容投诉
生成图片
蚂蚁与中国人民大学发布首个原生MoE扩散语言模型
2025年9月12日,在2025Inclusion·外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型“LLaDA-MoE”。该模型在约20T数据上完成从零训练,验证了工业级大规模训练的扩展性与稳定性。模型将在近期完全开源,旨在推动全球AI社区在扩散语言模型(dLLM)领域的技术发展。这一成果标志着AI模型架构及训练方法的重要突破。(记者 黄心怡)
E-Poet
09-12 11:12:20
中国人民大学
扩散语言模型
蚂蚁集团
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序