1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
vivo发布端侧多模态模型,只有3B可理解GUI界面,20项评测表现亮眼
vivo发布端侧多模态模型,仅3B参数实现GUI理解,20项评测表现优异 vivo AI Lab推出了面向端侧设计的多模态模型BlueLM-2.5-3B,具备紧凑高效的特点,并能直接理解GUI界面。该模型融合了文本与图文理解能力,支持长短思考模式切换和思考预算控制机制(thinking token ...
梦境编程师
07-10 17:25:30
BlueLM-2.5-3B
多模态模型
端侧
分享至
打开微信扫一扫
内容投诉
生成图片
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略 字节跳动与南洋理工大学(NTU)联合推出MMSearch-R1项目,通过强化学习训练多模态模型自主执行智能搜索。该研究首次尝试基于端到端强化学习的多模态模型训练,使模型能够判断何时搜索、搜索什么以及如何处...
数据炼金师
07-09 14:06:26
多模态模型
强化学习
按需搜索
分享至
打开微信扫一扫
内容投诉
生成图片
拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩
标题:拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩 昨夜,阿里推出全新多模态模型Qwen-VLo,引发网友热议。该模型在图像生成和编辑方面表现出色,具备三大亮点:增强的细节捕捉能力、一句话即可完成图像编辑(如风格替换、素材增删、添加文字),以及支持中英等多语言。同时,Qwen-...
代码编织者
06-28 13:21:34
Qwen-VLo
图像编辑
多模态模型
分享至
打开微信扫一扫
内容投诉
生成图片
阿里通义千问宣布推出多模态模型 Qwen VLo,实现从感知到生成的跨越
2025年6月27日,阿里云通义千问宣布推出多模态模型Qwen VLo,实现从感知到生成的跨越。该模型支持动态分辨率生成,可灵活应对不同场景的图像需求,并通过从左到右、从上到下的渐进式生成方式提升创作体验。Qwen VLo具备精准内容理解与再创造能力,能保持语义一致性,同时支持开放指令编辑和多语言交互,满足用户多样化需求。目前仍处于预览阶段,开发团队将持续优化。
灵感Phoenix
06-28 00:15:30
Qwen VLo
多模态模型
阿里通义千问
分享至
打开微信扫一扫
内容投诉
生成图片
谷歌正式发布 Gemma 3n 小钢炮模型:2GB 内存本地玩转 AI 多模态
2025年6月27日,谷歌在I/O开发者大会预览后正式发布Gemma 3n端侧多模态模型,支持在手机、平板和笔记本电脑上本地运行,处理音频、文本、图片和视频等多种数据类型。该模型分为E2B(50亿参数)和E4B(80亿参数)两个版本,可在2GB或3GB内存设备上运行,内存占用相当于20亿和40亿模型。其采用创新的MatFormer架构和MobileNet-v5视觉编码器,提升计算灵活性和效率。Gemma 3n支持140种语言的文本和35种语言的多模态理解,在数学、编码和推理方面表现优异,E4B模型更是首个参数量低于10B但LMArena得分超1300的模型。
灵感Phoenix
06-27 16:11:19
Gemma 3n
多模态模型
谷歌
分享至
打开微信扫一扫
内容投诉
生成图片
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距
标题:多模态模型挑战地铁图:ReasonMap评测基准揭示性能差距 近年来,大语言模型(LLMs)及多模态大模型(MLLMs)在复杂推理任务中取得显著进展。然而,面对结构复杂的高清地铁图,它们能否真正“看懂图”仍是疑问。为此,来自多家高校的研究团队开发了ReasonMap,首个专注于高分辨率交通...
GhostPilot
06-07 13:49:19
ReasonMap
地铁图推理
多模态模型
分享至
打开微信扫一扫
内容投诉
生成图片
谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相
谷歌在I/O大会上推出多项AI升级,Gemini 2.5 Pro和Flash预览版霸榜前二。Gemini 2.5 Pro引入Deep Think增强推理模式,提升长上下文和视频理解能力,在多领域基准测试中表现优异。新版Veo 3视频模型实现原生音画同步生成,Imagen 4图像模型生成效果更精细,速度提升10倍。谷歌搜索引入AI Mode,支持端到端AI搜索和实时互动功能,购物体验升级支持虚拟试穿和智能结账。新增异步代码助手Jules,可在后台处理代码任务。此外,AI眼镜和Google Beam等新产品亮相,提升交互体验。谷歌表示,AI应用规模快速增长,每月处理tokens量达480万亿以上。
数码游侠
05-21 05:52:42
Gemini2.5
多模态模型
谷歌AI
分享至
打开微信扫一扫
内容投诉
生成图片
对话阶跃星辰CEO姜大昕:两年发布16款多模态模型,DeepSeek证明投流模式不成立
5月8日,阶跃星辰CEO姜大昕在北京媒体沟通会上透露,预计7-8月将发布满血版推理模型Step R1,并推出更先进的Step图片编辑模型。姜大昕强调,模型突破优先于商业化,多模态是实现通用人工智能(AGI)的关键路径。他表示,C端投流模式并不成立,DeepSeek等案例表明,AI产品的流量增长需重新审视传统互联网方式。阶跃星辰自2023年成立以来,已发布22款自研基座模型,其中16款为多模态模型,占比超七成。公司聚焦智能终端Agent,与多家行业头部企业合作。姜大昕指出,多模态、慢思考能力和视觉领域的理解生成一体化是AI Agent爆发的重要条件。阶跃星辰已完成B轮融资,总金额达数亿美元,投资方包括上海国资及腾讯投资等。未来,公司将持续探索多模态技术,推动从云到端的生态体系建设。
蝶舞CyberSwirl
05-08 16:31:26
多模态模型
通用人工智能
阶跃星辰
分享至
打开微信扫一扫
内容投诉
生成图片
阶跃星辰推出开源 SOTA 图像编辑模型,一个月连发三款多模态模型
今日,阶跃星辰发布通用图像编辑模型Step1X-Edit,支持11类常见图像编辑任务,如文字替换、人物美化、风格迁移等,用户可免费通过阶跃AI App和网页端(stepfun.com)使用。该模型参数量达19B,具备语义解析、身份一致性和高精度控制能力,并通过自研基准测试集GEDit-Bench验证,多项指标达开源SOTA水平。Step1X-Edit已开源,支持GitHub、HuggingFace等平台调用。这是阶跃星辰近一个月发布的第三款多模态模型,其Step系列基座模型中多模态模型占比已达7成。
星际Code流浪者
04-27 15:20:13
图像编辑模型
多模态模型
阶跃星辰
分享至
打开微信扫一扫
内容投诉
生成图片
阿里深夜炸场!通义千问发布新一代端到端旗舰模型Qwen2.5-Omni
北京时间3月27日凌晨,阿里巴巴推出通义千问系列新旗舰模型Qwen2.5-Omni。该端到端多模态模型可处理文本、图像、音频及视频等多种输入,具备实时流式响应能力。Qwen2.5-Omni采用全新Thinker-Talker架构,引入TMRoPE技术,提升多模态输入同步精度。其语音生成自然流畅,端到端语音指令跟随能力出色,在MMLU、GSM8K等基准测试中表现优异。模型在OmniBench多模态任务中达到SOTA表现,单模态任务中亦表现突出。目前,Qwen2.5-Omni已在Hugging Face、ModelScope、DashScope及GitHub开源。
AI创想团
03-27 04:26:09
Qwen2.5-Omni
多模态模型
阿里通义千问
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序