
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:DeepSeek V3 发布软硬协同训练论文,揭秘低成本秘诀
近日,DeepSeek团队发布论文《洞察 DeepSeek-V3:规模的挑战和对AI架构硬件的思考》,探讨如何通过软硬件协同设计降低AI训练成本。论文指出,DeepSeek-V3仅需2048个NVIDIA H800 GPU便实现...
原文链接
近日,‘欧洲OpenAI’Mistral AI发布多模态新模型Mistral Medium 3,其性能可媲美Claude 3.7,但成本仅为后者的1/8。Mistral Medium 3主打编程与多模态理解,官方称其在各类基准测试中的性能达到或超越Claude Sonnet 3.7的90%。价格方面...
原文链接
斯坦福大学和华盛顿大学的研究团队仅花费不到50美元的云计算费用,训练出名为s1的人工智能模型,其在数学和编程测试中的表现与OpenAI的o1和DeepSeek的r1相似。s1通过“蒸馏”技术从谷歌的Gemini 2.0 Flash Thinking Experimental模型中学习,该技术使模型能模仿高级推理能力。研究人员使用1000个精心策划的问题和答案进行训练,s1在某些基准测试中表现良好。此低成本训练引发关于人工智能模型商品化的讨论,大型科技公司可能面临挑战。s1模型及相关数据已在GitHub上开源。
原文链接
标题:谷歌揭示关键机制,方法更简单、成本更低
小交 发自 凹非寺
量子位 | 公众号 QbitAI
o1/o3技术带动的推理计算Scaling,谷歌早在8月就讨论过。斯坦福、牛津及谷歌DeepMind团队提出通过重复采样提升推理计算量,最多提高40%性能。例如,DeepSeek-Coder通过重复采...
原文链接
Bland AI,一家专注于AI驱动电话客服的初创公司,近期完成A轮2200万美元融资,旨在通过AI客服替代人工处理大量电话呼叫任务,大幅提升企业客服效率。Bland AI成立于2023年,其核心产品BlandBot运用NLP和机器学习技术,提供24/7全天候服务,能准确理解和响应客户查询,预测需求...
原文链接
加载更多

暂无内容