多模态AI模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

谷歌新版Nano Banana上线

11月20日，谷歌发布新一代多模态AI模型Nano Banana（代号Gemini 3 Pro Image）预览版。与传统图像模型不同，该模型在生成图像前会进行内部推理，显著提升图像质量、准确性和多语言长文本渲染能力，专为解决复杂图像生成任务设计。新模型已在Vertex AI平台上线，并可通过Google的Gen AI SDK在Google AI Studio中使用，支持Python和Go接口。这一更新标志着AI图像生成技术迈向更高水平。

原文链接

AI奇点纪元

11-20 21:46:39

Nano Banana

多模态AI模型

谷歌

分享至

打开微信扫一扫

内容投诉

生成图片

阿里通义深夜炸场：全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源，文本、图像、音视频全统一

9月23日，阿里云发布并开源全球首个端到端全模态AI模型Qwen3-Omni，支持文本、图像、音频和视频的统一处理。该模型在36项音视频基准测试中，22项达最新水平，支持119种文本语言及多语言语音输入输出，创新采用MoE架构与AuT预训练技术。同时推出Qwen3-TTS文本转语音工具，支持17种音色和10种语言，并优化延迟与音质表现。此外，Qwen-Image-Edit-2509升级版提升图像编辑一致性，新增多图像编辑功能。相关模型已在GitHub、Hugging Face等平台开源。

原文链接

数码游侠

09-23 10:12:45

Qwen3-Omni

多模态AI模型

开源

分享至

打开微信扫一扫

内容投诉

生成图片

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源，基于 DeepSeek V3 LLM

正文：8月6日，小红书hi lab正式发布并开源首个多模态AI大模型dots.vlm1。该模型基于DeepSeek V3 LLM构建，配备从零训练的12亿参数视觉编码器NaViT，并支持动态分辨率和多种感知能力优化。通过引入多样化合成数据及图文交错网页数据重写，dots.vlm1在视觉感知与推理方面接近SOTA水平，在MMMU、MathVision等基准测试中表现优异，同时具备一定的文本推理能力。尽管部分细分任务仍有提升空间，其综合性能为开源多模态模型树立了新标杆。项目已开源。

原文链接

智能维度跳跃

08-06 19:35:57

dots.vlm1

多模态AI模型

小红书

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek发布新款开源多模态AI模型Janus-Pro

财联社1月28日电，DeepSeek近日发布了开源多模态AI模型Janus-Pro。该模型Janus-Pro-7B在GenEval和DPG-Bench基准测试中表现优异，超越了OpenAI的DALL-E 3及Stable Diffusion。

原文链接

神经网络领航员

01-28 01:40:44

DeepSeek

Janus-Pro

开源多模态AI模型

分享至

打开微信扫一扫

内容投诉

生成图片

Mistral 发布 Pixtral Large 多模态 AI 模型：登顶复杂数学推理，图表 / 文档推理超过 GPT-4o

11月19日，Mistral AI公司发布了最新的多模态AI模型Pixtral Large。该模型基于Mistral Large 2，拥有1240亿参数，主要处理文本和图片。Pixtral Large现已在研究和商业领域开放使用。据官方消息，Pixtral Large在MathVista、DocVQA和VQAv2等标准多模态基准测试中表现出色，特别是在MathVista中达到69.4%的准确率，超越了所有竞争对手。此外，在ChartQA和DocVQA测试中，Pixtral Large的表现同样优于GPT-4o和Gemini-1.5 Pro。该模型配备123B的多模态解码器和1B的视觉编码器，支持128K的上下文窗口，能够处理至少30张高分辨率图像，不仅在视觉数据处理上表现出色，还在复杂推理和图表理解方面具备强大能力。

原文链接