综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年尾声,谷歌DeepMind CEO Hassabis预测未来12个月AI关键趋势,包括多模态融合、类人视觉智能、语言+视频深度融合等五大核心点。他强调需加速扩展现有AI系统,可能成为AGI的关键部件。谷歌在NeurIPS 2025推出全新架构Titans,结合RNN速度与Transformer性能,处理超长上下文表现出色。Hassabis预测,具备或超越人类能力的AGI可能在2030年前实现,但距离真正的AGI还需5到10年及1-2个重大技术突破。此外,Gemini模型展现了‘元认知’能力,Titans+MIRAS架构补上了记忆与持续学习短板,AGI正加速到来。
原文链接
2025年12月,谷歌在NeurIPS 2025上发布两项突破性研究,解决了Transformer处理超长上下文的瓶颈。新架构Titans结合RNN速度与Transformer性能,通过动态更新的记忆模块将上下文扩展至200万token,同时引入“惊喜指标”优化记忆存储。其理论框架MIRAS提出序列建模的统一方法,涵盖内存架构、注意力偏差等关键设计,并开发出YAAD、MONETA、MEMORA等无注意力模型。实验表明,该架构性能优于现有大规模模型如GPT-4。面对Hinton关于是否后悔公开Transformer的提问,Jeff Dean回应称其对世界产生了巨大积极影响。
原文链接
标题:KTransformers 成主流大模型推理引擎,单卡跑万亿模型
正文:
趋境科技与清华联合开源的高性能异构推理框架 KTransformers,已成为 Qwen、Kimi、智谱 AI 等主流大模型的推荐推理引擎,并被多家硬件厂商采纳。其技术实力获国际认可,论文入选“计算机系统领域奥斯卡”...
原文链接
2025年11月,日本AI初创公司Sakana AI创下非上市企业估值新高,达4000亿日元(约26.35亿美元)。由Transformer论文八子之一Llion Jones与前谷歌科学家David Ha于2023年联合创立,该公司获英伟达、Khosla Ventures等顶级投资方支持。Sakana AI专注开发基于自然启发的AI模型,降低计算成本并提升性能。其代表性成果包括‘史上首个AI科学家’系统The AI Scientist,可自动生成学术论文并通过顶会评审。公司以‘一月一发’节奏推出多项创新研究,如Text-to-LoRA和ShinkaEvolve框架。尽管创始人无意复制OpenAI模式,Sakana AI已成为‘日本版OpenAI’的代表,引发全球关注。
原文链接
谢赛宁盛赞字节Seed新研究!单Transformer搞定任意视图3D重建
闻乐 发自 凹非寺
量子位 | 公众号 QbitAI
字节跳动Seed团队推出全新研究成果——Depth Anything 3(简称DA3),仅用一个Transformer模型即可实现从单张图片、多视角照片甚至视频中完成...
原文链接
正文:2025年11月,趋境科技联合清华大学和北航开源了KTransformers与LLaMA-Factory两大项目,大幅降低大模型微调门槛。仅需2-4张消费级显卡(如4090),即可在本地微调参数量达万亿的模型(如Kimi K2 1TB)。传统方法需数千GB显存,而新技术将显存需求压缩至90GB左右。KTransformers通过GPU+CPU异构计算优化性能,LLaMA-Factory提供易用的微调框架。二者结合支持个性化定制AI模型,适用于专业领域(如医疗、法律)及创意应用(如虚拟角色生成)。此技术为学术界、企业和个人开发者提供了低成本高效率的大模型解决方案,推动AI创新落地。
原文链接
2017年,Google Brain团队发表Transformer论文,奠定了AI革命基础,催生了OpenAI的ChatGPT等技术。然而,Google面临创新者困境:尽管拥有强大资源如Gemini模型、TPU芯片和500亿美元年收入的云服务,却因变现难题和人才流失(如Ilya Sutskever、Dario Amodei等出走)而陷入竞争劣势。2022年底,ChatGPT发布后迅速达到1亿用户,对Google构成存在威胁,迫使其推出Bard但表现不佳。2023年起,Google通过整合DeepMind与Brain团队、加速Gemini研发应对挑战,但仍需解决搜索广告业务与AI转型的冲突。未来几年,Google能否成功平衡保护现金牛与拥抱AI时代,将成商业史经典案例。
原文链接
2025年10月,月之暗面开源全新Kimi Linear架构,首次在相同训练条件下超越传统全注意力模型。该架构通过创新的Kimi Delta Attention(KDA)机制,在长上下文任务中减少75%的KV缓存需求,推理速度提升6倍,同时保持高精度。KDA引入细粒度遗忘门控与改进的增量学习规则,确保超长序列中的稳定性和泛化能力。模型采用3:1混合层设计,结合工程优化,无缝兼容现有Transformer系统。实验表明,Kimi Linear在多项基准测试中全面领先,并在数学推理、代码生成等任务中表现优异。这一突破或预示AI架构正迈向多元创新时代。技术报告已发布于Hugging Face平台。
原文链接
2025年10月31日,意大利罗马第一大学GLADIA Research Lab发布论文《Language Models are Injective and Hence Invertible》,揭示Transformer语言模型在信息处理中几乎不丢失输入内容,具备可逆性。研究通过对GPT-2、LLaMA-3.1等六种主流模型进行超50亿次对比测试,验证其单射性,并提出SIPIT算法,以100%准确率从隐藏状态重建原始输入。研究表明,模型的隐藏状态并非语义压缩,而是精确重编码,挑战了传统认知。这一发现引发隐私与安全讨论,提示需谨慎处理模型中间层输出。GLADIA团队专注于AI系统结构创新,近期在ICML、CVPR等会议展示多项成果,目标将模型开发周期从数月缩短至几秒。
原文链接
2025年10月,Meta推出名为“自由Transformer”(Free Transformer)的新模型,在AI架构领域引发热议。这一技术首次打破自2017年以来GPT模型逐token生成的核心规则,通过引入潜在随机变量Z,让模型在生成前能“预先思考”,相当于增加了一层“潜意识”。此创新仅增加约3%的计算开销,却显著提升模型推理与结构化生成能力,在GSM8K、MMLU、HumanEval等测试中表现超越更大规模模型。研究团队来自Meta FAIR实验室,由François Fleuret主导,其成果被认为是迈向‘后自回归时代’的重要节点,或改写AI底层规则。
原文链接
加载更多
暂无内容