
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
正文:2025年10月,苹果研究团队发布论文《To Infinity and Beyond》,提出基于SSM架构的Mamba模型在Agent任务中表现优于Transformer。研究表明,Mamba通过内部状态更新机制,计算量随序列长度线性增长,支持流式处理且内存占用稳定,适合长任务和多交互场景。然而,Mamba对早期信息保留能力较弱,但通过引入外部工具(如指针、文件查看工具等),其性能显著提升。例如,在多位数加法和代码调试任务中,配备工具的Mamba准确率接近100%,远超Transformer。研究认为,‘Mamba+工具’组合将在Agent场景中展现更大潜力。
原文链接
正文:2025年10月16-17日,全球机器学习技术大会将在北京威斯汀酒店举行。大会由CSDN与奇点智能研究院联合主办,汇聚50余位顶尖专家,探讨AI技术趋势与产业落地。OpenAI资深科学家、GPT-5与Transformer共同发明人Lukasz Kaiser将发表《推理模型的历史、现在与未来》主题演讲。奇点智能研究院院长李建忠也将分享大模型技术与产业范式洞察。会议涵盖大语言模型、多模态技术、AI基础设施等专题,并邀请来自微软、百度、阿里、字节跳动等行业领军者参与。
原文链接
2025年9月,Transformer发明者Ashish Vaswani公开批评闭源AI公司如OpenAI阻碍科学探索,认为商业化压力使其偏离基础研究。Vaswani经历从Google到Adept再到Essential AI的三次创业后,决定All in开源基础研究,并将Essential AI转型为专注于教育、医疗等领域的开源模型开发。2025年4月,团队发表论文提出在预训练阶段提升模型反思能力的技术突破。Vaswani希望通过交叉补贴模式实现开源可持续发展,即通过售卖训练数据支持开源社区。他认为,开源才能真正推动AI普惠化,而闭源公司因商业利益难以专注创新。此外,Vaswani的学术背景也揭示了华人导师对其早期研究的重要影响。
原文链接
9月8日,中国科学院自动化研究所李国齐、徐波团队成功研发出类脑脉冲大模型“瞬悉1.0”(SpikingBrain-1.0)。该模型借鉴大脑神经元工作机制,仅需主流模型2%的数据量,即可在多项语言理解和推理任务中媲美主流性能。这是我国首次提出大规模类脑线性基础模型架构,并在国产GPU算力集群上完成训练和推理框架构建。其超长序列处理能力在法律、医学文档分析及高能物理实验等领域展现出显著效率优势,为新一代人工智能发展提供了非Transformer架构的技术路线,启迪低功耗神经形态计算理论与芯片设计。(财联社、央视新闻)
原文链接
OpenAI的前世今生
OpenAI自2015年成立以来,从一家非营利机构发展为全球AI领域的领军企业,其估值呈指数级增长。本文将简要回顾其发展历程、技术突破及未来展望。
1. 前OpenAI时期(2015年之前)
OpenAI的诞生得益于三个关键因素:深度学习的兴起、谷歌和Meta在AI领域的...
原文链接
标题:Hinton与姚期智对谈:认为人类的意识特殊,那是危险的无稽之谈
在WAIC的一场对话中,图灵奖得主Geoffery Hinton与上海期智研究院院长姚期智围绕AI与人类意识展开讨论。Hinton指出,将人类意识视为独特且不可复制的观点不仅错误,还可能带来危险的自满情绪。他认为,AI的发展...
原文链接
2025年7月,在上海WAIC展会上,一家名为RockAI的公司展示了基于非Transformer架构的Yan 2.0 Preview大模型。该模型具备原生记忆能力与离线智能,可在端侧设备上实现边用边学、多模态理解和自主进化。展会现场,机器狗在完全离线状态下学会新动作,灵巧手通过本地视觉能力流畅玩游戏。RockAI成立于2022年,专注于为端侧设备开发高效AI模型,突破了Transformer架构的高算力需求限制。其技术已在树莓派、骁龙芯片等设备上落地,并与某出海品牌合作推出AI PC,预计下半年量产。RockAI认为,群体智能是迈向AGI的关键路径,未来或将通过设备间协作构建智能群落。
原文链接
标题:离线智能,什么时候迎来DeepSeek时刻?
过去两年,AI的发展主要围绕云端和端侧展开。理想中,轻量化模型将让AI摆脱云端束缚,实现设备上的贴身智能。然而现实是,无论是AI玩具还是AI眼镜,其核心交互依然依赖云端,真正实现离线AI的设备凤毛麟角。
技术演示中,端侧模型看似无所不能,但实际落地...
原文链接
正文:2025年7月19日,KAIST、谷歌DeepMind等机构联合发布了一种全新LLM架构——Mixture-of-Recursions(MoR),被业界称为潜在的“Transformer终结者”。MoR通过动态路由和递归机制,在推理速度上提升2倍,内存占用减半,并在135M到1.7B参数规模下划出新的帕累托前沿,全面超越传统Transformer。其核心创新包括小型路由器为token打分以减少冗余计算,以及KV缓存策略优化内存效率。实验表明,MoR在相同训练FLOPs下实现更低困惑度和更高小样本准确率,推理吞吐量提升超2倍。研究团队认为,MoR展现了高可扩展性和参数效率,或成为下一代LLM架构的标杆。
原文链接
2025年7月,谷歌发布全新底层架构Mixture-of-Recursions(MoR),被称作“Transformer Killer”。该架构通过统一参数共享、自适应递归深度和高效KV缓存策略,实现内存减半、推理速度翻倍,并首次在单一框架内动态分配计算资源。相比Transformer,MoR在相同FLOPs预算下减少50%参数量,提升少样本准确率至43.1%,训练时间缩短19%,峰值内存降低25%。谷歌DeepMind联合KAIST AI与Mila团队完成这一创新,或将颠覆AI计算范式。未来效果尚需时间验证。
原文链接
加载更多

暂无内容