
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
9月23日,阿里云发布并开源全球首个端到端全模态AI模型Qwen3-Omni,支持文本、图像、音频和视频的统一处理。该模型在36项音视频基准测试中,22项达最新水平,支持119种文本语言及多语言语音输入输出,创新采用MoE架构与AuT预训练技术。同时推出Qwen3-TTS文本转语音工具,支持17种音色和10种语言,并优化延迟与音质表现。此外,Qwen-Image-Edit-2509升级版提升图像编辑一致性,新增多图像编辑功能。相关模型已在GitHub、Hugging Face等平台开源。
原文链接
正文:8月6日,小红书hi lab正式发布并开源首个多模态AI大模型dots.vlm1。该模型基于DeepSeek V3 LLM构建,配备从零训练的12亿参数视觉编码器NaViT,并支持动态分辨率和多种感知能力优化。通过引入多样化合成数据及图文交错网页数据重写,dots.vlm1在视觉感知与推理方面接近SOTA水平,在MMMU、MathVision等基准测试中表现优异,同时具备一定的文本推理能力。尽管部分细分任务仍有提升空间,其综合性能为开源多模态模型树立了新标杆。项目已开源。
原文链接
财联社1月28日电,DeepSeek近日发布了开源多模态AI模型Janus-Pro。该模型Janus-Pro-7B在GenEval和DPG-Bench基准测试中表现优异,超越了OpenAI的DALL-E 3及Stable Diffusion。
原文链接
11月19日,Mistral AI公司发布了最新的多模态AI模型Pixtral Large。该模型基于Mistral Large 2,拥有1240亿参数,主要处理文本和图片。Pixtral Large现已在研究和商业领域开放使用。据官方消息,Pixtral Large在MathVista、DocVQA和VQAv2等标准多模态基准测试中表现出色,特别是在MathVista中达到69.4%的准确率,超越了所有竞争对手。此外,在ChartQA和DocVQA测试中,Pixtral Large的表现同样优于GPT-4o和Gemini-1.5 Pro。该模型配备123B的多模态解码器和1B的视觉编码器,支持128K的上下文窗口,能够处理至少30张高分辨率图像,不仅在视觉数据处理上表现出色,还在复杂推理和图表理解方面具备强大能力。
原文链接
加载更多

暂无内容