综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
正文:2026年1月30日,商汤正式开源多模态自主推理模型SenseNova-MARS(8B/32B双版本),在多模态搜索与推理基准测试中以69.74分超越Gemini-3-Pro和GPT-5.2等顶级闭源模型。该模型是首个支持动态视觉推理与图文搜索深度融合的Agentic VLM模型,能自主规划步骤、调用工具解决复杂任务,在MMSearch、HR-MMSearch等多项评测中取得SOTA成绩,尤其在高清细节搜索中表现突出。SenseNova-MARS通过创新训练方法形成“直觉”与“经验”,可应用于行业分析、赛事信息追溯等真实场景,显著提升工作效率。模型、代码及数据集已全开源,支持Hugging Face下载。技术报告详见。
原文链接
2026年1月30日,商汤正式开源多模态自主推理模型SenseNova-MARS(8B/32B双版本),在多模态搜索与推理基准测试中以69.74分超越Gemini-3-Pro(69.06分)和GPT-5.2(67.64分)。该模型支持动态视觉推理和图文搜索深度融合,具备规划步骤、调用工具的能力,在MMSearch、HR-MMSearch等测试中取得SOTA成绩,领跑开源与闭源模型。SenseNova-MARS可自主解决复杂任务,如识别微小Logo、查询背景信息并完成逻辑推理,适用于真实场景问题。其训练采用自动化数据合成引擎与强化学习,培养了“工具使用直觉”。商汤已全开源模型、代码与数据集,支持Hugging Face下载。
原文链接
4月8日消息,谷歌AI模式新增多模态搜索功能,支持图像提问。用户可通过上传或拍摄照片提出问题,获取更详细的搜索结果。此功能基于Google Lens的多模态能力,可理解图像场景及物体间关系。例如,用户拍书架照片并提问后,AI模式能识别书籍并推荐类似好书。此外,用户还能追问以缩小搜索范围。该功能最初仅面向谷歌One AI高级订阅用户,现将扩展至实验室计划的数百万用户。谷歌计划不断优化体验并拓展功能,以应对Perplexity和ChatGPT搜索的竞争。
原文链接
加载更多
暂无内容