
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
基于能量的Transformer全面超越主流模型35%
弗吉尼亚大学团队提出了一种全新架构——EBT(Energy-Based Transformers),通过能量最小化机制,首次在跨模态及多项关键指标上全面超越基于Llama 2优化的Transformer++模型。实验表明,EBT在数据量、参...
原文链接
标题:树莓派上流畅运行大模型!让终端具备自主学习与记忆能力|对话RockAI CEO刘凡平
2022年初,彼时OpenAI还未发布ChatGPT,RockAI已选择押注非Transformer路线。这一选择如今显现出前瞻性。他们打造的端侧大模型可在树莓派等微型设备上流畅运行,首批搭载Yan架构大...
原文链接
2月21-23日,2025全球开发者先锋大会在上海召开。MiniMax副总裁刘华分享了多模态大模型发展的见解。他指出,尽管Transformer架构推动了大语言模型的发展,但处理长文本时算力消耗呈平方关系增长。未来,MiniMax将转向稀疏架构和非Transformer架构的研究,以降低算力消耗。2024年OpenAI推出的Sora和GPT4o展示了视频、语音模型的新能力,大模型在未来两到三年内仍有重大突破可能。MiniMax将致力于构建多模态开源生态,以精细研发团队提升技术上限。
原文链接
MiniMax于2025年初开源了最新的基础语言模型MiniMax-Text-01和视觉多模态模型MiniMax-VL-01,该模型拥有4560亿参数,支持400万token长上下文。MiniMax-Text-01通过新型线性注意力机制和混合专家架构,显著提高了长上下文处理能力。在基准测试中,MiniMax-Text-01表现出色,尤其是在长上下文理解和推理任务上。MiniMax-VL-01则结合了图像编码器,增强了多模态处理能力。这些模型有望推动AI Agent在2025年的广泛应用。
原文链接
彩云科技通过优化Transformer架构,开发出DCFormer新模型架构,大幅提升大模型效率。该架构于2024年5月在AI顶会ICML2024上发表,并被评为优秀论文。DCFormer通过动态组合多头注意力机制,提高了模型的灵活性、表达能力和计算效率,有望使大模型成本进一步降低。彩云科技的AI应用,如彩云小梦和彩云天气,已受益于DCFormer架构,未来将实现更精准的天气预报及更高质量的AI写作。该公司成功结合技术信仰与商业化策略,成为国内少数实现盈利的AI企业之一,展示了技术和商业平衡的典范。
摘要保留了关键信息,包括时间、技术细节、应用案例和商业表现,符合新闻三要素。
原文链接
2017年,谷歌团队发表了《注意力就是你所需要的一切》论文,提出Transformer架构,成为现代AI模型的核心基础。在近期TED AI大会中,前谷歌研究员雅各布·乌斯克尔特表示,尽管他们对Transformer技术寄予厚望,但并未预见到它会在ChatGPT等产品中发挥关键作用。乌斯克尔特指出,虽然Transformer架构在技术上已具备潜力,但当时谷歌对大规模产品开发持保守态度,未将其直接转化为市场产品。乌斯克尔特于2017年离开谷歌,创立Inceptive公司,致力于将深度学习技术引入生物化学领域,设计可编程高效药物。乌斯克尔特强调,用户创造性使用技术的方式常常超出预期,而谷歌当时可能缺乏承担足够风险的意愿。
原文链接
【液态AI发布非Transformer架构AI模型LFM,性能超越MetaLlama及微软Phi】液态AI公司于9月30日推出三款液态基础模型(LFM),包括LFM-1.3B、LFM-3.1B和LFM-40.3B,采用非Transformer架构设计。LFM在基准测试中表现出色,宣称在同等规模下优于...
原文链接
【7B开源模型Falcon Mamba登顶】
阿联酋阿布扎比技术创新研究所(TII)近日宣布,其开发的全新7B参数量级开源模型Falcon Mamba在性能上全面超越同级别模型,包括Llama-3.1(8B)、Mistral(7B)以及Falcon-2(11B),成为当前性能最优秀的开源模型。Fal...
原文链接
【AI情报速递】史上最快AI芯片Sohu获1.2亿美元融资,Etched估值25亿美元;Bright Machines、EvolutionaryScale等公司分别完成数千万至亿美元级融资。国内,钉钉开放AI生态接入7家大模型厂商,华为发布AI入网计划,荣耀AI反诈技术发布。陈丹琦团队打造AI版权护...
原文链接
6月12日,初创公司Luma AI发布了视频生成模型Dream Machine,因其在社交网络上的迅速走红而备受瞩目。尽管官方宣称能生成120秒视频,但实际支持只有5秒,且需排队。模型在画面质量和一致性上表现出色,如光影变化和场景连贯,但官方样片可能经过精挑细选。普通用户的作品中存在一些错误,如渲染问题和风格不一致。尽管如此,「造梦机器」因其可用性和每月30次的免费生成机会受到创作者欢迎,提供不同付费选项。AI视频生成领域正经历大模型竞争,Transformer架构的引入显著提升视频时长和物理规则模拟。
原文链接
加载更多

暂无内容