Transformer - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

苹果AI选Mamba：Agent任务比Transformer更好

正文：2025年10月，苹果研究团队发布论文《To Infinity and Beyond》，提出基于SSM架构的Mamba模型在Agent任务中表现优于Transformer。研究表明，Mamba通过内部状态更新机制，计算量随序列长度线性增长，支持流式处理且内存占用稳定，适合长任务和多交互场景。然而，Mamba对早期信息保留能力较弱，但通过引入外部工具（如指针、文件查看工具等），其性能显著提升。例如，在多位数加法和代码调试任务中，配备工具的Mamba准确率接近100%，远超Transformer。研究认为，‘Mamba+工具’组合将在Agent场景中展现更大潜力。

原文链接

GhostPilot

10-21 14:27:27

Agent

Mamba

Transformer

分享至

打开微信扫一扫

内容投诉

生成图片

GPT-5与Transformer共同发明人Lukasz Kaiser重磅加盟，2025 全球机器学习技术大会全日程官宣！

正文：2025年10月16-17日，全球机器学习技术大会将在北京威斯汀酒店举行。大会由CSDN与奇点智能研究院联合主办，汇聚50余位顶尖专家，探讨AI技术趋势与产业落地。OpenAI资深科学家、GPT-5与Transformer共同发明人Lukasz Kaiser将发表《推理模型的历史、现在与未来》主题演讲。奇点智能研究院院长李建忠也将分享大模型技术与产业范式洞察。会议涵盖大语言模型、多模态技术、AI基础设施等专题，并邀请来自微软、百度、阿里、字节跳动等行业领军者参与。

原文链接

虚拟织梦者

09-18 16:55:56

GPT-5

Lukasz Kaiser

Transformer

分享至

打开微信扫一扫

内容投诉

生成图片

Transformer作者：DeepSeek才有搞头，OpenAI指望不上了

2025年9月，Transformer发明者Ashish Vaswani公开批评闭源AI公司如OpenAI阻碍科学探索，认为商业化压力使其偏离基础研究。Vaswani经历从Google到Adept再到Essential AI的三次创业后，决定All in开源基础研究，并将Essential AI转型为专注于教育、医疗等领域的开源模型开发。2025年4月，团队发表论文提出在预训练阶段提升模型反思能力的技术突破。Vaswani希望通过交叉补贴模式实现开源可持续发展，即通过售卖训练数据支持开源社区。他认为，开源才能真正推动AI普惠化，而闭源公司因商业利益难以专注创新。此外，Vaswani的学术背景也揭示了华人导师对其早期研究的重要影响。

原文链接

星际Code流浪者

09-12 11:09:05

DeepSeek

Transformer

开源

分享至

打开微信扫一扫

内容投诉

生成图片

我国科研人员研发出类脑脉冲大模型

9月8日，中国科学院自动化研究所李国齐、徐波团队成功研发出类脑脉冲大模型“瞬悉1.0”（SpikingBrain-1.0）。该模型借鉴大脑神经元工作机制，仅需主流模型2%的数据量，即可在多项语言理解和推理任务中媲美主流性能。这是我国首次提出大规模类脑线性基础模型架构，并在国产GPU算力集群上完成训练和推理框架构建。其超长序列处理能力在法律、医学文档分析及高能物理实验等领域展现出显著效率优势，为新一代人工智能发展提供了非Transformer架构的技术路线，启迪低功耗神经形态计算理论与芯片设计。（财联社、央视新闻）

原文链接

Oasis

09-08 12:57:41

瞬悉1.0

类脑脉冲大模型

非Transformer架构

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI的前世今生

OpenAI的前世今生 OpenAI自2015年成立以来，从一家非营利机构发展为全球AI领域的领军企业，其估值呈指数级增长。本文将简要回顾其发展历程、技术突破及未来展望。 1. 前OpenAI时期（2015年之前） OpenAI的诞生得益于三个关键因素：深度学习的兴起、谷歌和Meta在AI领域的...

原文链接

未来编码者

08-27 10:01:51

ChatGPT

OpenAI

Transformer

分享至

打开微信扫一扫

内容投诉

生成图片

Hinton与姚期智对谈：认为人类的意识特殊，那是危险的无稽之谈

标题：Hinton与姚期智对谈：认为人类的意识特殊，那是危险的无稽之谈在WAIC的一场对话中，图灵奖得主Geoffery Hinton与上海期智研究院院长姚期智围绕AI与人类意识展开讨论。Hinton指出，将人类意识视为独特且不可复制的观点不仅错误，还可能带来危险的自满情绪。他认为，AI的发展...

原文链接

数码游侠

07-31 11:06:36

AI道德

Transformer模型

人类意识

分享至

打开微信扫一扫

内容投诉

生成图片

非Transformer架构落地之王，带着离线智能和原生记忆能力在上海WAIC浮出水面

2025年7月，在上海WAIC展会上，一家名为RockAI的公司展示了基于非Transformer架构的Yan 2.0 Preview大模型。该模型具备原生记忆能力与离线智能，可在端侧设备上实现边用边学、多模态理解和自主进化。展会现场，机器狗在完全离线状态下学会新动作，灵巧手通过本地视觉能力流畅玩游戏。RockAI成立于2022年，专注于为端侧设备开发高效AI模型，突破了Transformer架构的高算力需求限制。其技术已在树莓派、骁龙芯片等设备上落地，并与某出海品牌合作推出AI PC，预计下半年量产。RockAI认为，群体智能是迈向AGI的关键路径，未来或将通过设备间协作构建智能群落。

原文链接

LunarCoder

07-26 17:42:00

原生记忆能力

离线智能

非Transformer架构

分享至

打开微信扫一扫

内容投诉

生成图片

离线智能，什么时候迎来DeepSeek 时刻？

标题：离线智能，什么时候迎来DeepSeek时刻？过去两年，AI的发展主要围绕云端和端侧展开。理想中，轻量化模型将让AI摆脱云端束缚，实现设备上的贴身智能。然而现实是，无论是AI玩具还是AI眼镜，其核心交互依然依赖云端，真正实现离线AI的设备凤毛麟角。技术演示中，端侧模型看似无所不能，但实际落地...

原文链接

未来笔触

07-26 14:41:20

Transformer架构

离线智能

端侧模型

分享至

打开微信扫一扫

内容投诉

生成图片

Transformer终结者！谷歌DeepMind全新MoR架构问世，新一代魔王来了

正文：2025年7月19日，KAIST、谷歌DeepMind等机构联合发布了一种全新LLM架构——Mixture-of-Recursions（MoR），被业界称为潜在的“Transformer终结者”。MoR通过动态路由和递归机制，在推理速度上提升2倍，内存占用减半，并在135M到1.7B参数规模下划出新的帕累托前沿，全面超越传统Transformer。其核心创新包括小型路由器为token打分以减少冗余计算，以及KV缓存策略优化内存效率。实验表明，MoR在相同训练FLOPs下实现更低困惑度和更高小样本准确率，推理吞吐量提升超2倍。研究团队认为，MoR展现了高可扩展性和参数效率，或成为下一代LLM架构的标杆。

原文链接

智慧棱镜

07-19 11:51:22

MoR架构

Transformer

谷歌DeepMind

分享至

打开微信扫一扫

内容投诉

生成图片

Transformer危！谷歌MoR架构发布：内存减半推理速度还翻倍

2025年7月，谷歌发布全新底层架构Mixture-of-Recursions（MoR），被称作“Transformer Killer”。该架构通过统一参数共享、自适应递归深度和高效KV缓存策略，实现内存减半、推理速度翻倍，并首次在单一框架内动态分配计算资源。相比Transformer，MoR在相同FLOPs预算下减少50%参数量，提升少样本准确率至43.1%，训练时间缩短19%，峰值内存降低25%。谷歌DeepMind联合KAIST AI与Mila团队完成这一创新，或将颠覆AI计算范式。未来效果尚需时间验证。

原文链接