综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
财联社1月21日电,阿里千问系列模型在Hugging Face开源社区取得新突破:衍生模型数超20万个,成为全球首个达成此目标的开源大模型;同时,千问系列模型下载量突破10亿次,日均下载达110万次,超越美国Llama,稳居全球第一。这一成绩彰显中国AI技术的国际领先地位,展现强大的开源影响力。
原文链接
2026年1月,陈天桥与代季峰携手发布开源大模型MiroThinker 1.5,参数仅30B却跑出媲美1T性能,成为智能体模型领域新标杆。在多项基准测试中,其表现超越GPT-5-High、Gemini-3-Pro等顶尖模型,尤其BrowseComp测试刷新全球纪录。相比Kimi-K2-Thinkin...
原文链接
12月15日,AI技术领域权威人士Nathan Lambert与Florian Brand博士联合发布2025年开源AI大模型榜单。该榜单评估了35家机构的开源模型,基于影响力和代表性进行排名。结果显示,中国企业在开源AI领域占据主导地位,DeepSeek、Qwen及Kimi三大模型并列第一档“先锋”级别,成为行业焦点。Qwen系列衍生出数百个模型,覆盖多领域;DeepSeek年初推出的DS R1曾震撼业界,性能超越多个顶级闭源模型;Kimi则发布了首个万亿参数开源模型。第二档包括智谱和MiniMax,同样来自中国。相比之下,美国开源模型表现疲软,最佳仅位列第三档,OpenAI开源模型仅居第四档。而去年表现出色的Meta跌至末档,Llama3失去竞争力,其高额投入未见显著成果。
原文链接
新浪微博于11月13日发布其首个开源大模型VibeThinker-1.5B,参数量仅15亿,却通过创新的“频谱到信号原理”(SSP)训练方法,在多个高难度测试集中表现优异。该模型在数学和编程算法测试中超越参数量远超自身的巨量模型,如DeepSeek-R1-0120(6710亿参数),并接近4560亿参数的MiniMax-M1。其训练成本不足8000美元,远低于行业水平,降低了几十倍。VibeThinker-1.5B的开源旨在为资源有限的企业与高校提供高性价比研发路径,推动技术普惠。项目已上线GitHub、HuggingFace等平台。
原文链接
2025年8月5日,OpenAI发布两款开源大模型GPT-OSS 120B和GPT-OSS-20B,可在Hugging Face平台下载并用于商业应用。这是自2019年11月以来OpenAI首次开源大模型,标志着其重返开源赛道。开源大模型允许本地部署,提升数据安全性与定制化能力,尤其吸引对数据隐私敏感的行业客户。尽管开源版本性能接近GPT-4o3,但训练数据截至2024年6月,技术领先优势有限。OpenAI此举或因市场竞争压力,意在争夺对闭源模型持保留态度的企业与政府客户。目前,全球主流大模型开发商中仅剩Anthropic和字节跳动未发布开源版本。
原文链接
2025年7月,Qwen3迎来重要升级,参数量235B但性能超越Kimi K2(1T规模)。新版本增强对256K长上下文的理解能力,改进逻辑推理、多语言支持及文本生成质量,并在基准测试中表现优异。Qwen官方宣布放弃混合思维模式,分别训练Instruct和Thinking模型,当前发布版本仅支持非思考模式。网页版已上线,通义APP尚未更新。此次更新引发热议,被赞为中等规模模型中的领先者。与此同时,开源大模型竞争愈发激烈,NVIDIA近期发布的OpenReasoning-Nemotron实际基于Qwen-2.5微调。随着Llama转向闭源,开源领域正进入‘中国时间’,王座争夺战愈演愈烈。
原文链接
2025年7月,MoonShot发布开源大模型K2,参数规模达万亿级别(1T),成为当前开源模型中最大。K2在多项基准测试中表现优异,性价比高,支持上下文长度达128K,迅速登上HuggingFace热度榜首,并获硅谷开发者青睐。相比DeepSeek的R1和Meta的Llama4,K2以更低训练成本和技术优势引发关注,其架构优化及自研技术(如MuonClip优化器和QK-Clip)进一步提升效率。与此同时,MoonShot与MiniMax等中国AI企业正主导全球开源模型创新趋势,展现底层研发能力。K2的多智能体协作能力或成商业市场关键,MoonShot未来可能迈向上市。
原文链接
7月10日,中兴努比亚宣布接入百度文心4.5系列开源大模型,基于“AI Together”理念优化多专家模型架构,提供情感化对话和高效文本处理能力。百度于6月30日开源文心4.5系列,包括47B、3B参数的混合专家模型及0.3B参数的稠密型模型,并开放预训练权重与推理代码。该系列模型已可在飞桨星河社区、HuggingFace等平台下载部署,同时支持百度智能云千帆平台API服务。文心4.5模型最早于今年3月发布,此次合作将进一步推动AI技术应用与普及。
原文链接
据《科创板日报》27日消息,印度公司Sarvam AI日前发布的主权基础大模型Sarvam-M上线仅两天下载量仅为334次,目前总下载量为718次,引发业内关注。Sarvam-M基于Mistral Small构建,参数规模达240亿且权重开放,旨在打造混合语言模型。然而,其低迷的下载数据受到质疑,风投公司Menlo Ventures投资人Deedy Das批评称这一成绩‘令人尴尬’,认为其缺乏实际受众。作为印度‘IndiaAI Mission’项目的一部分,Sarvam AI肩负构建国家主权大模型的重要任务,但当前表现或对其目标造成一定影响。
原文链接
5月1日,《科创板日报》报道,阿里巴巴开源了新一代通义千问模型Qwen3,包含8个版本,首次推出混合推理模型,融合“快、慢思考”。Qwen3系列累计下载已达3亿次,衍生模型超10万个。小参数模型表现亮眼,32B模型性价比高,4B模型在数学能力上令人惊喜。尽管235B版本在部分测评中接近或略优于DeepSeek R1,但未达全面碾压效果。Qwen3发布后,多家芯片厂商如英伟达、英特尔、AMD等迅速适配,国产芯片海光信息已完成全部8款模型的适配优化。阿里云预计,千问3将助力智能体Agent和大模型应用爆发,今年或成AI应用元年。通用Agent在工程和技术上仍有挑战,阿里云CTO周靖人表示,未来将在类人思考、多模态及云体系结合上持续优化。
原文链接
加载更多
暂无内容