
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
vivo发布端侧多模态模型,仅3B参数实现GUI理解,20项评测表现优异
vivo AI Lab推出了面向端侧设计的多模态模型BlueLM-2.5-3B,具备紧凑高效的特点,并能直接理解GUI界面。该模型融合了文本与图文理解能力,支持长短思考模式切换和思考预算控制机制(thinking token ...
原文链接
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
字节跳动与南洋理工大学(NTU)联合推出MMSearch-R1项目,通过强化学习训练多模态模型自主执行智能搜索。该研究首次尝试基于端到端强化学习的多模态模型训练,使模型能够判断何时搜索、搜索什么以及如何处...
原文链接
标题:拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩
昨夜,阿里推出全新多模态模型Qwen-VLo,引发网友热议。该模型在图像生成和编辑方面表现出色,具备三大亮点:增强的细节捕捉能力、一句话即可完成图像编辑(如风格替换、素材增删、添加文字),以及支持中英等多语言。同时,Qwen-...
原文链接
2025年6月27日,阿里云通义千问宣布推出多模态模型Qwen VLo,实现从感知到生成的跨越。该模型支持动态分辨率生成,可灵活应对不同场景的图像需求,并通过从左到右、从上到下的渐进式生成方式提升创作体验。Qwen VLo具备精准内容理解与再创造能力,能保持语义一致性,同时支持开放指令编辑和多语言交互,满足用户多样化需求。目前仍处于预览阶段,开发团队将持续优化。
原文链接
2025年6月27日,谷歌在I/O开发者大会预览后正式发布Gemma 3n端侧多模态模型,支持在手机、平板和笔记本电脑上本地运行,处理音频、文本、图片和视频等多种数据类型。该模型分为E2B(50亿参数)和E4B(80亿参数)两个版本,可在2GB或3GB内存设备上运行,内存占用相当于20亿和40亿模型。其采用创新的MatFormer架构和MobileNet-v5视觉编码器,提升计算灵活性和效率。Gemma 3n支持140种语言的文本和35种语言的多模态理解,在数学、编码和推理方面表现优异,E4B模型更是首个参数量低于10B但LMArena得分超1300的模型。
原文链接
标题:多模态模型挑战地铁图:ReasonMap评测基准揭示性能差距
近年来,大语言模型(LLMs)及多模态大模型(MLLMs)在复杂推理任务中取得显著进展。然而,面对结构复杂的高清地铁图,它们能否真正“看懂图”仍是疑问。为此,来自多家高校的研究团队开发了ReasonMap,首个专注于高分辨率交通...
原文链接
谷歌在I/O大会上推出多项AI升级,Gemini 2.5 Pro和Flash预览版霸榜前二。Gemini 2.5 Pro引入Deep Think增强推理模式,提升长上下文和视频理解能力,在多领域基准测试中表现优异。新版Veo 3视频模型实现原生音画同步生成,Imagen 4图像模型生成效果更精细,速度提升10倍。谷歌搜索引入AI Mode,支持端到端AI搜索和实时互动功能,购物体验升级支持虚拟试穿和智能结账。新增异步代码助手Jules,可在后台处理代码任务。此外,AI眼镜和Google Beam等新产品亮相,提升交互体验。谷歌表示,AI应用规模快速增长,每月处理tokens量达480万亿以上。
原文链接
5月8日,阶跃星辰CEO姜大昕在北京媒体沟通会上透露,预计7-8月将发布满血版推理模型Step R1,并推出更先进的Step图片编辑模型。姜大昕强调,模型突破优先于商业化,多模态是实现通用人工智能(AGI)的关键路径。他表示,C端投流模式并不成立,DeepSeek等案例表明,AI产品的流量增长需重新审视传统互联网方式。阶跃星辰自2023年成立以来,已发布22款自研基座模型,其中16款为多模态模型,占比超七成。公司聚焦智能终端Agent,与多家行业头部企业合作。姜大昕指出,多模态、慢思考能力和视觉领域的理解生成一体化是AI Agent爆发的重要条件。阶跃星辰已完成B轮融资,总金额达数亿美元,投资方包括上海国资及腾讯投资等。未来,公司将持续探索多模态技术,推动从云到端的生态体系建设。
原文链接
今日,阶跃星辰发布通用图像编辑模型Step1X-Edit,支持11类常见图像编辑任务,如文字替换、人物美化、风格迁移等,用户可免费通过阶跃AI App和网页端(stepfun.com)使用。该模型参数量达19B,具备语义解析、身份一致性和高精度控制能力,并通过自研基准测试集GEDit-Bench验证,多项指标达开源SOTA水平。Step1X-Edit已开源,支持GitHub、HuggingFace等平台调用。这是阶跃星辰近一个月发布的第三款多模态模型,其Step系列基座模型中多模态模型占比已达7成。
原文链接
北京时间3月27日凌晨,阿里巴巴推出通义千问系列新旗舰模型Qwen2.5-Omni。该端到端多模态模型可处理文本、图像、音频及视频等多种输入,具备实时流式响应能力。Qwen2.5-Omni采用全新Thinker-Talker架构,引入TMRoPE技术,提升多模态输入同步精度。其语音生成自然流畅,端到端语音指令跟随能力出色,在MMLU、GSM8K等基准测试中表现优异。模型在OmniBench多模态任务中达到SOTA表现,单模态任务中亦表现突出。目前,Qwen2.5-Omni已在Hugging Face、ModelScope、DashScope及GitHub开源。
原文链接
加载更多

暂无内容