Transformer架构 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

我国科研人员研发出类脑脉冲大模型

9月8日，中国科学院自动化研究所李国齐、徐波团队成功研发出类脑脉冲大模型“瞬悉1.0”（SpikingBrain-1.0）。该模型借鉴大脑神经元工作机制，仅需主流模型2%的数据量，即可在多项语言理解和推理任务中媲美主流性能。这是我国首次提出大规模类脑线性基础模型架构，并在国产GPU算力集群上完成训练和推理框架构建。其超长序列处理能力在法律、医学文档分析及高能物理实验等领域展现出显著效率优势，为新一代人工智能发展提供了非Transformer架构的技术路线，启迪低功耗神经形态计算理论与芯片设计。（财联社、央视新闻）

原文链接

Oasis

09-08 12:57:41

瞬悉1.0

类脑脉冲大模型

非Transformer架构

分享至

打开微信扫一扫

内容投诉

生成图片

非Transformer架构落地之王，带着离线智能和原生记忆能力在上海WAIC浮出水面

2025年7月，在上海WAIC展会上，一家名为RockAI的公司展示了基于非Transformer架构的Yan 2.0 Preview大模型。该模型具备原生记忆能力与离线智能，可在端侧设备上实现边用边学、多模态理解和自主进化。展会现场，机器狗在完全离线状态下学会新动作，灵巧手通过本地视觉能力流畅玩游戏。RockAI成立于2022年，专注于为端侧设备开发高效AI模型，突破了Transformer架构的高算力需求限制。其技术已在树莓派、骁龙芯片等设备上落地，并与某出海品牌合作推出AI PC，预计下半年量产。RockAI认为，群体智能是迈向AGI的关键路径，未来或将通过设备间协作构建智能群落。

原文链接

LunarCoder

07-26 17:42:00

原生记忆能力

离线智能

非Transformer架构

分享至

打开微信扫一扫

内容投诉

生成图片

离线智能，什么时候迎来DeepSeek 时刻？

标题：离线智能，什么时候迎来DeepSeek时刻？过去两年，AI的发展主要围绕云端和端侧展开。理想中，轻量化模型将让AI摆脱云端束缚，实现设备上的贴身智能。然而现实是，无论是AI玩具还是AI眼镜，其核心交互依然依赖云端，真正实现离线AI的设备凤毛麟角。技术演示中，端侧模型看似无所不能，但实际落地...

原文链接

未来笔触

07-26 14:41:20

Transformer架构

离线智能

端侧模型

分享至

打开微信扫一扫

内容投诉

生成图片

基于能量的Transformer横空出世！全面超越主流模型35%

基于能量的Transformer全面超越主流模型35% 弗吉尼亚大学团队提出了一种全新架构——EBT（Energy-Based Transformers），通过能量最小化机制，首次在跨模态及多项关键指标上全面超越基于Llama 2优化的Transformer++模型。实验表明，EBT在数据量、参...

原文链接

Journeyman

07-08 17:50:48

Transformer架构

系统2思维

能量基模型

分享至

打开微信扫一扫

内容投诉

生成图片

树莓派上流畅运行大模型！让终端具备自主学习与记忆能力｜对话RockAI CEO刘凡平

标题：树莓派上流畅运行大模型！让终端具备自主学习与记忆能力｜对话RockAI CEO刘凡平 2022年初，彼时OpenAI还未发布ChatGPT，RockAI已选择押注非Transformer路线。这一选择如今显现出前瞻性。他们打造的端侧大模型可在树莓派等微型设备上流畅运行，首批搭载Yan架构大...

原文链接

AI奇点纪元

04-27 16:19:13

RockAI

端侧大模型

非Transformer架构

分享至

打开微信扫一扫

内容投诉

生成图片

MiniMax刘华：构建多模态开源生态，研发不再围绕稠密架构

2月21-23日，2025全球开发者先锋大会在上海召开。MiniMax副总裁刘华分享了多模态大模型发展的见解。他指出，尽管Transformer架构推动了大语言模型的发展，但处理长文本时算力消耗呈平方关系增长。未来，MiniMax将转向稀疏架构和非Transformer架构的研究，以降低算力消耗。2024年OpenAI推出的Sora和GPT4o展示了视频、语音模型的新能力，大模型在未来两到三年内仍有重大突破可能。MiniMax将致力于构建多模态开源生态，以精细研发团队提升技术上限。

原文链接

AI思维矩阵

02-23 16:00:51

Transformer架构

多模态大模型

稀疏架构

分享至

打开微信扫一扫

内容投诉

生成图片

MiniMax震撼开源，突破传统Transformer架构，4560亿参数，支持400万长上下文

MiniMax于2025年初开源了最新的基础语言模型MiniMax-Text-01和视觉多模态模型MiniMax-VL-01，该模型拥有4560亿参数，支持400万token长上下文。MiniMax-Text-01通过新型线性注意力机制和混合专家架构，显著提高了长上下文处理能力。在基准测试中，MiniMax-Text-01表现出色，尤其是在长上下文理解和推理任务上。MiniMax-VL-01则结合了图像编码器，增强了多模态处理能力。这些模型有望推动AI Agent在2025年的广泛应用。

原文链接

智能维度跳跃

01-16 10:52:27

MiniMax

Transformer架构

长上下文

分享至

打开微信扫一扫

内容投诉

生成图片

大模型的效率腾飞，彩云科技做对了什么？

彩云科技通过优化Transformer架构，开发出DCFormer新模型架构，大幅提升大模型效率。该架构于2024年5月在AI顶会ICML2024上发表，并被评为优秀论文。DCFormer通过动态组合多头注意力机制，提高了模型的灵活性、表达能力和计算效率，有望使大模型成本进一步降低。彩云科技的AI应用，如彩云小梦和彩云天气，已受益于DCFormer架构，未来将实现更精准的天气预报及更高质量的AI写作。该公司成功结合技术信仰与商业化策略，成为国内少数实现盈利的AI企业之一，展示了技术和商业平衡的典范。摘要保留了关键信息，包括时间、技术细节、应用案例和商业表现，符合新闻三要素。

原文链接

AGI探路者

11-18 11:20:45

Transformer架构

商业化

大模型

分享至

打开微信扫一扫

内容投诉

生成图片

前谷歌 AI 研究员：ChatGPT 原本可以更早出现的

2017年，谷歌团队发表了《注意力就是你所需要的一切》论文，提出Transformer架构，成为现代AI模型的核心基础。在近期TED AI大会中，前谷歌研究员雅各布·乌斯克尔特表示，尽管他们对Transformer技术寄予厚望，但并未预见到它会在ChatGPT等产品中发挥关键作用。乌斯克尔特指出，虽然Transformer架构在技术上已具备潜力，但当时谷歌对大规模产品开发持保守态度，未将其直接转化为市场产品。乌斯克尔特于2017年离开谷歌，创立Inceptive公司，致力于将深度学习技术引入生物化学领域，设计可编程高效药物。乌斯克尔特强调，用户创造性使用技术的方式常常超出预期，而谷歌当时可能缺乏承担足够风险的意愿。

原文链接

星际Code流浪者

11-18 10:21:49

Transformer架构

注意力机制

生成式人工智能

分享至

打开微信扫一扫

内容投诉

生成图片

非 Transformer 架构 AI 模型 Liquid 问世，号称性能“凌驾 Meta Llama / 微软 Phi”

【液态AI发布非Transformer架构AI模型LFM，性能超越MetaLlama及微软Phi】液态AI公司于9月30日推出三款液态基础模型（LFM），包括LFM-1.3B、LFM-3.1B和LFM-40.3B，采用非Transformer架构设计。LFM在基准测试中表现出色，宣称在同等规模下优于...

原文链接