1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
阿里通义深夜炸场:全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源,文本、图像、音视频全统一
9月23日,阿里云发布并开源全球首个端到端全模态AI模型Qwen3-Omni,支持文本、图像、音频和视频的统一处理。该模型在36项音视频基准测试中,22项达最新水平,支持119种文本语言及多语言语音输入输出,创新采用MoE架构与AuT预训练技术。同时推出Qwen3-TTS文本转语音工具,支持17种音色和10种语言,并优化延迟与音质表现。此外,Qwen-Image-Edit-2509升级版提升图像编辑一致性,新增多图像编辑功能。相关模型已在GitHub、Hugging Face等平台开源。
数码游侠
09-23 10:12:45
Qwen3-Omni
多模态AI模型
开源
分享至
打开微信扫一扫
内容投诉
生成图片
小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM
正文:8月6日,小红书hi lab正式发布并开源首个多模态AI大模型dots.vlm1。该模型基于DeepSeek V3 LLM构建,配备从零训练的12亿参数视觉编码器NaViT,并支持动态分辨率和多种感知能力优化。通过引入多样化合成数据及图文交错网页数据重写,dots.vlm1在视觉感知与推理方面接近SOTA水平,在MMMU、MathVision等基准测试中表现优异,同时具备一定的文本推理能力。尽管部分细分任务仍有提升空间,其综合性能为开源多模态模型树立了新标杆。项目已开源。
智能维度跳跃
08-06 19:35:57
dots.vlm1
多模态AI模型
小红书
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek发布新款开源多模态AI模型Janus-Pro
财联社1月28日电,DeepSeek近日发布了开源多模态AI模型Janus-Pro。该模型Janus-Pro-7B在GenEval和DPG-Bench基准测试中表现优异,超越了OpenAI的DALL-E 3及Stable Diffusion。
神经网络领航员
01-28 01:40:44
DeepSeek
Janus-Pro
开源多模态AI模型
分享至
打开微信扫一扫
内容投诉
生成图片
Mistral 发布 Pixtral Large 多模态 AI 模型:登顶复杂数学推理,图表 / 文档推理超过 GPT-4o
11月19日,Mistral AI公司发布了最新的多模态AI模型Pixtral Large。该模型基于Mistral Large 2,拥有1240亿参数,主要处理文本和图片。Pixtral Large现已在研究和商业领域开放使用。据官方消息,Pixtral Large在MathVista、DocVQA和VQAv2等标准多模态基准测试中表现出色,特别是在MathVista中达到69.4%的准确率,超越了所有竞争对手。此外,在ChartQA和DocVQA测试中,Pixtral Large的表现同样优于GPT-4o和Gemini-1.5 Pro。该模型配备123B的多模态解码器和1B的视觉编码器,支持128K的上下文窗口,能够处理至少30张高分辨率图像,不仅在视觉数据处理上表现出色,还在复杂推理和图表理解方面具备强大能力。
智能涌动
11-19 15:47:33
Mistral
Pixtral Large
多模态AI模型
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序