多模态能力 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Seedance2.0炸场之后豆包Seed2.0能否再度勇攀高峰

2月14日，字节跳动发布豆包大模型2.0，标志着其正式进入“原生多模态Agent”时代。新模型通过底层能力重构，实现了从“信息分发”到“任务处理”的跨越，具备逻辑推理、多模态理解和稳定工具调用能力。在性能上，豆包2.0在复杂任务拆解和长链路执行中表现优异，同时成本优势显著，Pro版输入仅需3.2元/百万tokens，Lite版单价低至0.6元。此次升级还优化了企业生产环境适配性，提升了格式输出稳定性与上下文管理能力。结合火山引擎的AI云服务，字节试图构建从模型到云端的闭环AI生态，进一步扩大市场占位。CEO梁汝波将年度关键词定为“勇攀高峰”，彰显字节在AI领域的野心与布局。

原文链接

像素宇宙

02-15 17:31:04

多模态能力

火山引擎

豆包2.0

分享至

打开微信扫一扫

内容投诉

生成图片

Gemini 3 登场后，哈萨比斯要「改造」Google 全系产品

标题：Gemini 3 登场后，哈萨比斯要「改造」Google 全系产品正文： Gemini 3 的发布再次将 Google 推向人工智能竞争的焦点。这一代模型在推理、多模态处理和工具调用等方面展现出显著提升，被视为 Google 近年最稳健的一次升级。DeepMind CEO 德米斯·哈萨比...

原文链接

智慧棱镜

11-21 12:18:40

Gemini 3

多模态能力

记忆功能

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌最强 Gemini 3 Pro AI 模型被曝 11 月发布：100 万 tokens 上下文，相当于 75 万英文单词

科技媒体 ufukozen 于11月5日爆料，谷歌下一代旗舰AI模型Gemini 3 Pro预计将在2025年11月发布。该模型的预览版已在企业级平台Vertex AI上被发现，标签为“gemini-3-pro-preview-11-2025”。Gemini 3 Pro以其高达100万tokens的上下文窗口成为关注焦点，相当于可一次性处理75万英文单词或一本300页书籍的内容。这一突破性能力使其在分析复杂文件、代码库及多步骤对话中表现出色。此外，Gemini 3 Pro将进一步提升多模态处理能力，包括图像视频分析、语音识别与跨模态推理等。据悉，谷歌可能同步推出新型图像生成模型Nano Banana 2，二者结合或将在文生图等领域展现强大潜力，彰显谷歌构建全面AI生态的战略意图。

原文链接

月光编码师

11-06 08:46:40

100万 tokens

Gemini 3 Pro

多模态能力

分享至

打开微信扫一扫

内容投诉

生成图片

马斯克称 Grok V7 基础模型已完成预训练，具备原生多模态能力

8月11日，马斯克在X平台宣布Grok V7基础模型已完成预训练，具备原生多模态能力，可直接处理视频/音频比特流，精准捕捉语音情绪与语调。同日，他还宣布Grok 4对所有用户免费开放，并称其为全球最强AI模型，学术表现达博士级别。据此前报道，Grok 4在实时速度、推理能力和高级视觉等方面表现出色，将与OpenAI、Anthropic等顶尖模型竞争。

原文链接

E-Poet

08-11 16:06:42

Grok V7

多模态能力

马斯克

分享至

打开微信扫一扫

内容投诉

生成图片

中信证券：Grok 4推理能力跃升多模态能力有望突破打开全新应用场景

7月10日，XAI发布新一代基座大模型Grok 4，包括Grok 4和Grok 4 Heavy两个版本。中信证券研报指出，Grok 4在专业学科和复杂任务上展现出卓越推理能力，具备长流程专业工作的应用潜力，可支持Agent落地高价值场景。未来，其多模态能力有望突破，为行业带来全新应用场景，并推动AI基础设施与算力需求增长。研报建议关注相关投资机会，梳理三大主线：通用管理软件、工具软件及其他重点行业软件、AI基础设施，把握行业发展红利。

原文链接

量子黑客

07-12 10:50:58

AI基础设施

Grok 4

多模态能力

分享至

打开微信扫一扫

内容投诉

生成图片

夸克AI超级框上新“拍照问夸克” 加码多模态能力

标题：夸克AI超级框新增“拍照问夸克”功能，强化多模态能力 4月27日，夸克AI超级框推出全新AI相机，上线“拍照问夸克”功能。该功能依托强大的视觉理解与推理模型，从视觉角度创新下一代搜索体验，帮助用户更高效地解答物理世界中的各种问题。作为阿里巴巴旗下AI旗舰应用，夸克AI超级框不断迭代升级，致力于...

原文链接

新智燎原

04-27 15:18:05

多模态能力

夸克AI超级框

拍照问夸克

分享至

打开微信扫一扫

内容投诉

生成图片

阿里AI旗舰应用夸克发布全新“AI相机” 提升AI超级框多模态能力

4月27日，阿里旗下夸克AI超级框推出全新AI相机，新增“拍照问夸克”功能。该功能依托强大的视觉理解和推理模型，让用户可通过拍摄图片获取信息，支持多轮问答、图像处理及创作。无论是文物、商品还是外文资料，夸克均可秒级识别并提供最佳答案。 “拍照问夸克”整合了搜索、翻译、修图等功能，满足复杂任务需求。例如，旅行中可获取景点讲解，工作中能分析图表或生成文档，健康领域则提供体检报告解读和康复建议。此外，它还支持棋牌指导、截图找剧等娱乐功能。自3月发布“AI超级框”以来，夸克持续优化多模态交互体验。数据显示，其用户活跃率和次日留存率均居行业首位。夸克搜索负责人张帆称，未来将通过AI超级框，深化用户与物理世界的互动方式，覆盖更多场景需求。

原文链接

AGI探路者

04-27 12:16:58

AI相机

多模态能力

夸克

分享至

打开微信扫一扫

内容投诉

生成图片

消息称百度文心 4.5 模型计划 3 月中旬发布，推理及多模态能力将获提升

消息称百度计划在3月中旬发布文心4.5模型，该版本将在推理和多模态能力上有所提升。文心4.5能处理和整合文本、视频、图像、音频等多种数据类型。百度CEO李彦宏表示，文心4.5将是百度迄今为止最强的模型，同时百度计划于6月30日将文心4.5系列正式开源。此举是在面对激烈市场竞争下的策略调整，此前百度曾坚持闭源路线。与此同时，阿里巴巴也宣布开源其视频和图像生成人工智能模型通义万相2.1，加剧了该领域的竞争。

原文链接

超频思维站

02-27 15:26:53

多模态能力

开源

百度文心4.5

分享至

打开微信扫一扫

内容投诉

生成图片

对话巨人网络AI实验室负责人丁超凡：非线性的开放世界将是未来游戏形态，看好多模态和AI Agent应用方向

巨人网络AI实验室负责人丁超凡在近期举行的2024云栖大会上表示，游戏行业正从聚焦生产环节的降本增效转向玩法创新与体验升级。丁超凡介绍，巨人网络推出“AI残局挑战”玩法，这是业内首款基于多智能体AI原生游戏，AI玩家展现出高智慧行为，与市场上的AI陪伴类和AI NPC游戏有本质区别。该玩法依托巨人网...

原文链接

小阳哥

09-21 18:25:22

AI Agent

多模态能力

非线性的开放世界

分享至

打开微信扫一扫

内容投诉

生成图片

阿里国际发布最新开源多模态模型Ovis，多模态能力再升级

阿里国际AI团队发布多模态大模型Ovis，该模型在图像理解任务上表现出色，达到行业领先水平。Ovis具备处理多种类型数据的能力，包括文本、图像等，相较于大型语言模型，其优势在于同时处理非文本数据。在多项具体任务中，Ovis取得了SOTA（最新技术）表现，如数学推理问答、物体识别、文本提取及复杂任务决...

原文链接