
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
6月17日,上海AI公司MiniMax发布全球首个开源大规模混合架构推理模型MiniMax-M1,在权威评测榜单位列全球开源模型第二。M1支持100万token上下文输入,输出长度达8万token,性能和性价比均表现突出。此后4个工作日,MiniMax接连推出视频生成模型Hailuo 02、智能体产品及音色设计工具。Hailuo 02在物理世界规律理解方面表现出色,生成的“猫跳水”视频动作逻辑清晰,已在Instagram获3亿流量。MiniMax坚持基座模型研发,采用MoE架构、线性注意力机制及CISPO强化学习方法,实现高效能低成本突破。作为大模型‘上海队’一员,MiniMax与商汤、阶跃星辰等共同推动AI产业发展。
原文链接
2025年6月27日,腾讯正式发布并开源混元-A13B大模型,该模型基于专家混合(MoE)架构,总参数800亿、激活参数130亿,在数学推理和逻辑任务上表现优异,甚至在极端条件下仅需1张中低端GPU即可部署。用户可通过Github、HuggingFace等平台下载使用。模型支持快慢两种思考模式,兼顾效率与准确性,适用于智能体应用及复杂指令响应,预训练数据达20万亿词元,优化了计算资源分配,为个人开发者和中小企业提供高效解决方案。
原文链接
2023年6月27日,腾讯混元大模型家族发布新成员——混元-A13B模型并开源。该模型是业界首个13B级别的MoE混合推理开源模型,总参数达800亿,激活参数130亿,可在极端条件下仅用1张中低端GPU卡部署。模型通过MoE架构提升推理效率与计算性能,支持快慢两种思考模式,适用于不同任务需求。同时,腾讯开源了两个新数据集ArtifactsBench和C3-Bench,用于代码评估和Agent场景测试。在数学、科学和逻辑推理任务中表现优异,已在GitHub和腾讯云上线。
原文链接
标题:Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B
刚刚,Kimi团队发布全新开源轻量级视觉语言模型Kimi-VL及其推理版Kimi-VL-Thinking,兼具多模态和推理能力。该模型基于MoE架构,总参数16B,但推理时仅激活2.8B。
与Qwen2...
原文链接
Llama 4发布:拥抱新架构与多模态融合
Meta发布了Llama 4系列,没有再强调参数量的绝对优势,而是推出了三款针对性的模型:Scout、Maverick和Behemoth。Scout(109B参数)适合单卡部署,支持长上下文任务;Maverick(400B参数)性能媲美GPT-4o,推...
原文链接
3月10日,字节跳动豆包大模型团队宣布开源一项针对MoE架构的优化技术COMET,该技术可将大模型训练效率提升1.7倍,成本节省40%。COMET已应用于字节的万卡集群训练,累计节省数百万GPU小时。此前,豆包团队发布的UltraMem稀疏架构已大幅降低模型推理成本。目前,COMET的核心代码已开源,并计划兼容Triton等编译生态。
原文链接
标题:4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破大模型推理门槛
DeepSeek-R1广受关注,但推理服务器常宕机,专享版高昂成本让中小团队望而却步。市面上的“本地部署”方案多为参数量缩水90%的蒸馏版,因671B参数的MoE架构对显存要求极高,即便用8卡A100也难负荷。近期...
原文链接
标题:DeepSeek的四点值得称赞
技术:采用非主流的MoE架构,展现独立思考能力。开源及时且全面,不藏私。
定价:大幅降低中国AI服务费用,减轻用户负担。
营销:策略巧妙,类似华为的操盘手法。
运营:资金来自炒股收入,未进行融资。
原文链接
标题:豆包1.5 Pro重磅更新!7倍MoE性能杠杆,“不使用任何其他模型数据”
正文:
春节前,字节推出了全新基础模型——Doubao-1.5-pro,具备“演技精湛”的真人级语音对话功能。该模型基于MoE架构,仅用较小激活参数就能达到世界一流模型性能,性能杠杆达7倍。数据生产体系高度自主,不依赖...
原文链接
法国国家高等教育计算中心与巴黎萨克雷大学的研究人员共同开源了专用于法律领域的大型模型SaulLM,该模型分为540亿参数和1410亿参数两种版本,以及基础模型和指令微调两种类型。SaulLM的独特之处在于其利用5400亿token的专业法律数据进行了预训练,涵盖了美国、欧洲及澳大利亚等地的法律文本,...
原文链接
加载更多

暂无内容