综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
4月2日,智谱发布首个多模态Coding基座模型GLM-5V-Turbo。该模型深度融合视觉与编程能力,可原生处理文本、图片、视频等多模态信息,擅长编程、长程规划及操作执行等复杂任务。GLM-5V-Turbo赋予OpenClaw龙虾真正的视觉能力,使其能看懂屏幕信息。目前,该模型已通过智谱MaaS平台开放接入,为开发者提供更强大的技术支持。(记者 李明明)
原文链接
2026年3月19日,天工AI发布全新视频模型SkyReels-V4,直接登顶Artificial Analysis文转视频全球榜,超越Veo 3.1、Sora 2等强劲对手。相比一个月前Preview版本的全球第2名,此次升级实现了显著的能力跃升,特别是在全模态强化学习体系和新增关键帧参考与网格参考功能上的突破。SkyReels-V4能够生成逻辑连贯、画质达1080p、时长15秒的高质量视频,并支持复杂剧情与音画同步创作。该模型还被应用于天工AI旗下短剧平台DramaWave,后者月活已突破8000万,标志着AI视频生成迈向工业化生产阶段。据悉,SkyReels-V4将在月底中关村论坛年会正式发布,其多模态融合技术或为未来内容生态奠定基础。
原文链接
2026年3月,商汤科技联合南洋理工大学发布全新多模态模型架构NEO-unify。该架构突破性地砍掉视觉编码器(VE)和变分自编码器(VAE),采用近似无损的像素与文字作为原生输入,实现‘原生、统一、端到端’的多模态处理。通过创新的混合变换器(MoT)架构,打通视觉与语言的‘理解+生成’双向能力,显著提升数据与算力利用效率。实验表明,NEO-unify在图像重建与编辑任务中表现出色,初步训练后即取得优异指标,并展现更高数据训练效率。这一成果标志着多模态AI从‘模态连接’向‘原生统一智能体’迈进,为跨模态认知与生成一体化奠定基础。相关研发正持续迭代,未来将陆续开源。
原文链接
3月3日,国产AI大模型MiniMax 3预计将在上半年发布,性能有望匹敌全球顶级模型,并支持多模态理解。稀宇科技此前于2月13日推出MiniMax M2.5,称其为全球首个为智能体场景原生设计的生产级旗舰模型,发布仅七天调用量突破3.07T tokens,成为开发者首选。在OpenRouter统计中,M2.5位列API调用量第一,国产模型占据前三,超越美国公司。稀宇科技2月ARR收入达1.5亿美元,提前完成目标。官方表示,M3将解决知识容量限制问题,并引入更多预训练与结构创新,进一步提升效率与实践能力。
原文链接
2026年除夕,阿里发布开源大模型Qwen3.5-Plus,参数达3970亿,性能媲美Gemini-3-Pro和GPT-5.2,多项基准测试领先。其部署成本降低60%,推理效率提升19倍,百万Tokens输入低至0.8元,支持201种语言,覆盖多模态任务如视频处理、视觉推理等。千问3.5通过架构创新实现高效能与低成本,采用混合注意力机制、稀疏MoE架构等技术,训练成本减少90%。此外,阿里已累计开源400多个模型,全球下载量超10亿次,开发者衍生模型超20万个,进一步推动开源生态发展。旗舰版Qwen3.5-Max预计年后发布,更多模型将在春节期间陆续推出。
原文链接
1月27日,国内人工智能公司月之暗面Kimi发布新一代开源模型Kimi K2.5。该模型在HLE、BrowseComp、DeepSearchQA等多项评测中取得全球开源模型最佳成绩。Kimi K2.5基于原生多模态架构设计,支持视觉与文本输入,集成了视觉理解、推理、编程及Agent能力。创始人兼CEO杨植麟表示,团队重构了强化学习基建并优化训练算法,以实现极致效率和性能。这一全面升级的多模态模型展现了强大的综合能力,为行业带来全新解决方案。
原文链接
1月15日,谷歌发布基于Gemma 3架构的开放翻译模型系列TranslateGemma,提供4B、12B和27B三种参数规模,支持55种核心语言及多模态图像翻译,已在Kaggle和Hugging Face开放下载。性能测试显示,12B版本超越参数量更大的27B基线模型,4B版本适合移动端,性能接近12B基线。TranslateGemma采用两阶段微调工艺,结合监督微调和强化学习技术,优化翻译质量,并覆盖近500种语言,为濒危语言研究提供支持。该模型还具备多模态能力,无需额外视觉任务微调即可提升图像内文字翻译效果。三种尺寸分别适配手机、笔记本电脑及云端高性能场景,开发者可通过Vertex AI等平台部署。
原文链接
2025年12月17日,在量子位主办的MEET2026智能未来大会上,围绕AI Agent的革新进程展开圆桌讨论。联汇科技赵天成、小宿科技杜知恒、蚂蚁集团徐达峰三位嘉宾分享了各自在AI Agent领域的前沿实践与思考。赵天成强调多模态与执行能力的重要性,指出‘多模态+执行’是智能体发展的关键方向;杜知恒认为负毛利问题是行业普遍挑战,需解决商业模式可持续性;徐达峰则提出可控性、可解释性和稳定性是衡量优秀Agent的核心指标。嘉宾们一致认为,AI Agent进入新发展阶段的标志是其成为高频使用的日常工具,并广泛渗透至三四线城市及非技术人群。本次大会线下观众近1500人,线上直播观众超350万,引发广泛关注。
原文链接
12月8日,智谱AI发布并开源GLM-4.6V系列多模态大模型,包括基础版GLM-4.6V(106B-A12B)和轻量版GLM-4.6V-Flash(9B)。新模型上下文窗口提升至128k tokens,视觉理解精度达同参数规模SOTA,并首次原生融入Function Call能力,打通从感知到执行的链路。API调用价格降价50%,输入1元/百万tokens,输出3元/百万tokens,GLM-4.6V-Flash免费开放使用。该系列在30+主流评测基准中表现显著提升,9B版本超越Qwen3-VL-8B,106B版本比肩Qwen3-VL-235B。模型支持多模态工具调用,减少信息损耗,适用于复杂视觉任务。代码与权重已在GitHub、Hugging Face和魔搭社区开源。
原文链接
视频理解霸榜!快手Keye-VL旗舰模型重磅开源,多模态视频感知领头羊
快手新一代旗舰多模态大语言模型Keye-VL-671B-A37B正式发布!在保持基础模型强大通用能力的同时,该模型在视觉感知、跨模态对齐和复杂推理链路上进行了系统升级,实现了更精准的“看”、“想”、“答”。
图像语义理解更可靠
...
原文链接
加载更多
暂无内容