多模态AI - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

所有顶级AI模型准确率都突破不了70%？Google揭示行业真相

2025年12月，Google联合Kaggle发布FACTS基准测试套件，首次系统评估AI模型的事实准确性。结果显示，包括GPT-5、Gemini 3 Pro、Claude 4.5 Opus在内的主流AI模型准确率均未突破70%，意味着每3次输出可能有1次错误。测试涵盖四大维度：内部知识、搜索能力、多模态解读和上下文忠实度。其中，多模态任务表现最差，领头模型Gemini 2.5 Pro仅达46.9%。研究强调，AI在关键场景中需人工审核，尤其在法律、金融、医疗等领域。FACTS测试或将成为企业采购参考标准，提示技术领导者根据具体需求选择模型，同时揭示AI仍处'信任但验证'阶段。

原文链接

AI奇点纪元

12-12 16:59:23

FACTS测试

事实准确性

多模态AI

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌新版Nano Banana上线

11月20日，谷歌发布新一代多模态AI模型Nano Banana（代号Gemini 3 Pro Image）预览版。与传统图像模型不同，该模型在生成图像前会进行内部推理，显著提升图像质量、准确性和多语言长文本渲染能力，专为解决复杂图像生成任务设计。新模型已在Vertex AI平台上线，并可通过Google的Gen AI SDK在Google AI Studio中使用，支持Python和Go接口。这一更新标志着AI图像生成技术迈向更高水平。

原文链接

AI奇点纪元

11-20 21:46:39

Nano Banana

多模态AI模型

谷歌

分享至

打开微信扫一扫

内容投诉

生成图片

小度AI眼镜Pro 2299元起售：这次把“超能小度”塞进了39g的眼镜里

2025年11月，百度发布全新AI智能眼镜——小度AI眼镜Pro，售价2299元起。这款仅重39g的眼镜搭载多模态AI助手“超能小度”，支持翻译、识物、拍照及生成备忘录等功能。其AI翻译可在3秒内完成实时播报，新增声音复刻功能提升沉浸感；与网易云音乐合作推出“氛围歌单”，根据场景推荐应景音乐。办公方面新增会议智能洞察功能，预计12月上线。外观提供波士顿款和猫眼款两种设计，并支持光致变色和近视镜片定制。眼镜续航约7.5小时，搭配充电盒可达68小时，影像硬件采用索尼1200万像素传感器，支持4K拍照和防抖视频拍摄。波士顿墨镜款已上市，其他款式将于12月发售。

原文链接

代码编织者Nexus

11-16 12:32:41

多模态AI智能助手

小度AI眼镜Pro

超能小度

分享至

打开微信扫一扫

内容投诉

生成图片

百度旗下小度科技发布多模态 AI 助手“超能小度”，数千万台设备免费升级

11月13日，百度旗下小度科技在百度世界大会上发布全新多模态AI助手“超能小度”，并宣布全系设备免费升级。超能小度具备视觉理解、推理思考等能力，支持声音、视觉和空间环境信息交互，大幅提升响应速度。新功能包括AI识物、AI翻译、会议纪要生成及家庭看护提醒等，覆盖智能音箱、智能摄像机和小度AI眼镜Pro等新品。数千万台已售设备将陆续完成升级，用户可通过小度App开启焕新体验。搭载超能小度的小度AI眼镜Pro新增“氛围歌单”和“AI随心看护”功能，可记录场景、生成备忘，甚至主动干预家庭场景事件。

原文链接

镜像现实MirageX

11-13 23:24:31

免费升级

多模态AI

超能小度

分享至

打开微信扫一扫

内容投诉

生成图片

苹果探索自研多模态 AI 模型 Manzano：兼具理解与生成能力，不弱于 OpenAI GPT-4o 和谷歌 Nano Banana

苹果正研发名为Manzano的多模态AI模型，具备图像理解与生成能力，旨在解决开源模型在综合表现上的不足。据9月27日消息，该模型性能不逊于OpenAI GPT-4o和谷歌Nano Banana。Manzano采用混合图像分词器，通过共享编码器减少任务冲突，并分为混合分词器、统一语言模型和独立解码器三部分，参数规模最高达35.2亿。训练数据包括23亿图像-文本对，总计处理1.6万亿标记。内部测试显示，其在文字密集型任务中表现优异，扩展性良好。尽管如此，苹果基础模型仍落后行业领先者，未来或继续依赖外部模型如GPT-5，但Manzano模块化设计为多模态AI发展提供了潜力。

原文链接

代码编织者

09-27 21:45:24

Manzano

图像理解与生成

多模态AI

分享至

打开微信扫一扫

内容投诉

生成图片

阿里通义深夜炸场：全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源，文本、图像、音视频全统一

9月23日，阿里云发布并开源全球首个端到端全模态AI模型Qwen3-Omni，支持文本、图像、音频和视频的统一处理。该模型在36项音视频基准测试中，22项达最新水平，支持119种文本语言及多语言语音输入输出，创新采用MoE架构与AuT预训练技术。同时推出Qwen3-TTS文本转语音工具，支持17种音色和10种语言，并优化延迟与音质表现。此外，Qwen-Image-Edit-2509升级版提升图像编辑一致性，新增多图像编辑功能。相关模型已在GitHub、Hugging Face等平台开源。

原文链接

数码游侠

09-23 10:12:45

Qwen3-Omni

多模态AI模型

开源

分享至

打开微信扫一扫

内容投诉

生成图片

AI 的终点不是对话框，这家公司想让真实世界成为AI 的提示词

标题：AI 的未来不只是对话框，这家公司让真实世界成为AI的提示词正文：过去两年，人们对AI的印象大多停留在对话框中：输入问题，获得答案。虽然实用，但显得单调。AI难道只能困在虚拟世界里吗？最近发布的Looki L1或许给出了新答案。这款设备让我第一次感受到AI可以真正走进生活，理解我...

原文链接

代码编织者Nexus

08-20 10:12:38

AI硬件

多模态AI

生活记录

分享至

打开微信扫一扫

内容投诉

生成图片

一周六连发！昆仑万维将多模态AI卷到了新高度

8月11日至15日，昆仑万维在技术周上连续发布六款多模态AI模型，覆盖视频生成、世界模型、统一多模态、智能体及AI音乐创作等核心领域，且大部分已开源。其中包括数字人直播带货模型SkyReels-A3、对标谷歌Genie 3的Matrix-Game 2.0、统一多模态框架Skywork UniPic 2.0、智能体引擎Skywork Deep Research Agent v2，以及音乐模型Mureka V7.5和角色语音合成框架MoE-TTS。这些模型在性能和应用场景上均取得突破，刷新多项SOTA纪录。昆仑万维凭借“All in AGI与AIGC”战略，持续加大研发投入，2024年研发费用达15.4亿元，占总营收27%以上，并通过开源推动行业生态发展，入选“中国AI开源16强”。此次技术周标志着其在垂直领域深耕和高频应用场景落地的新起点。

原文链接

Nebula

08-17 18:38:51

多模态AI

开源模型

昆仑万维

分享至

打开微信扫一扫

内容投诉

生成图片

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源，基于 DeepSeek V3 LLM

正文：8月6日，小红书hi lab正式发布并开源首个多模态AI大模型dots.vlm1。该模型基于DeepSeek V3 LLM构建，配备从零训练的12亿参数视觉编码器NaViT，并支持动态分辨率和多种感知能力优化。通过引入多样化合成数据及图文交错网页数据重写，dots.vlm1在视觉感知与推理方面接近SOTA水平，在MMMU、MathVision等基准测试中表现优异，同时具备一定的文本推理能力。尽管部分细分任务仍有提升空间，其综合性能为开源多模态模型树立了新标杆。项目已开源。

原文链接

智能维度跳跃

08-06 19:35:57

dots.vlm1

多模态AI模型

小红书

分享至

打开微信扫一扫

内容投诉

生成图片

WAIC现场最“聪明”展台！AI对话眼睛耳朵能力全打开

2025年7月28日，WAIC现场展出一款备受关注的‘最聪明展台’，展示了多款搭载实时对话功能的AI产品。这些产品依托声网升级版对话式AI引擎，具备选择性注意力锁定、视觉理解及数字人无缝集成能力，可在嘈杂环境中精准识别语音、实时看图识物，并实现情感化交互。例如，AI毛球‘芙崽’和智能家庭陪伴机器人EBO Air 2 Plus均基于该技术支持，展现了强大的多模态交互能力。声网凭借其RTE技术基因，为教育、娱乐等领域提供低延迟、高稳定性的解决方案，推动多模态AI应用普及。此次升级标志着单一模态AI向多模态交互迈进的重要一步。

原文链接