
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
5月14日,Meta AI旗下FAIR团队与佐治亚理工学院合作推出CATransformers框架,旨在将碳排放纳入AI模型设计的核心考量。该框架通过多目标贝叶斯优化,平衡模型架构、硬件性能与碳足迹之间的关系。研究显示,传统方法仅优化运营效率忽视硬件全生命周期碳排放,而CATransformers可使碳排放降低17%-3%,同时保持低延迟(10-15毫秒)。例如,CarbonCLIP-S与TinyCLIP-39M精度相当,但碳排放减少17%;CarbonCLIP-XS精度提升8%,碳排放减少3%。此框架为AI可持续发展提供新路径,尤其适用于边缘设备推理场景。
原文链接
清华大学KVCache.AI团队与趋境科技联合发布的KTransformers开源项目取得重大进展,成功在RTX 4090单卡上实现DeepSeek-R1满血运行,解决了大模型本地部署难题。该项目于2月10日成功运行DeepSeek-R1、V3的671B满血版,速度提高3~28倍。KTransformers不仅支持DeepSeek模型,还兼容各类MoE模型,预处理速度最高达286 tokens/s,推理生成速度达14 tokens/s。此技术有望降低AI大模型的运行成本,使其更加普及。
原文链接
标题:4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破大模型推理门槛
DeepSeek-R1广受关注,但推理服务器常宕机,专享版高昂成本让中小团队望而却步。市面上的“本地部署”方案多为参数量缩水90%的蒸馏版,因671B参数的MoE架构对显存要求极高,即便用8卡A100也难负荷。近期...
原文链接
标题:“通用大脑”来了!MIT何恺明用大模型思维玩出机器人预训练新花样
在机器人领域,“通用智能”的探索正在火热进行。MIT的何恺明和Lirui Wang等人最近在“通用数据”上取得进展,使机器人离“通用大脑”的目标更近一步。
以往,训练机器人需要针对每种任务和环境单独采集数据,导致数据难以通用,训...
原文链接
TTT模型可能引领生成式AI新潮流。当前的Transformer架构,如Sora、Claude和GPT-4等,面临计算效率和资源消耗的问题。斯坦福等大学的研究团队开发出TTT,它在处理更多数据时更节能。不同于Transformer的隐藏状态,TTT采用机器学习模型,将数据编码为固定大小的权重,从而避免了重复计算。TTT有潜力处理海量数据,如长视频,且性能不受数据量影响。尽管如此,TTT是否能取代Transformer尚不确定,因其目前仅在小型模型上测试,大型模型的对比还需更多实证。TTT被视作一项创新,但其优势还需更多数据支持和实际应用验证。
原文链接
加载更多

暂无内容