
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
7月9日,昆仑万维发布并开源Skywork-R1V 3.0,其多模态推理能力逼近人类专家水平。新版本通过强化学习策略显著提升跨模态推理能力,在复杂逻辑建模和跨学科泛化上表现优异。模型基于InternVL-38B蒸馏数据训练,仅用约1.2万条监督微调样本和1.3万条强化学习样本,实现高效训练。在权威评测中,Skywork-R1V 3.0取得多项领先成绩:MMMU评测达76.0分,超越Claude-3.7-Sonnet和GPT-4.5;EMMA-Mini(CoT)评分40.3分,居开源模型首位;数学、物理、逻辑等领域均表现出色,部分指标超闭源模型。目前,模型已开放下载,涵盖HuggingFace、GitHub等平台。
原文链接
标题:自变量机器人:统一框架下的具身多模态推理
正文:当熟练的木匠拿起锤子时,锤子仿佛消失了,因为它已融入使用者的本能。然而,最先进的机器人仍需反复识别工具并规划使用,这种割裂的认知方式使它们无法达到人类的直觉水平。具身智能的突破需要架构革新,而非现有系统的修补。
自变量机器人提出,应摒弃多...
原文链接
标题:AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率仅55%
当前顶尖AI模型能否真正“看懂”物理图像?全新基准SeePhys给出了答案,结果显示顶级模型准确率不足55%。
SeePhys由中山大学、苏黎世联邦理工学院、华为诺亚方舟实验室和香港大学联合推出,涵盖从初中到博士资格考试...
原文链接
标题:字节发布Seed1.5-VL多模态推理模型:轻量高效,表现卓越
正文:在60项主流基准测试中,字节发布的轻量级多模态推理模型Seed1.5-VL拿下了38项第一。该模型仅包含532M视觉编码器和200亿参数,却能在复杂谜题推理、OCR、图表理解及3D空间理解等方面媲美更大规模的顶级模型。
例如...
原文链接
标题:o3深度解读:OpenAI发力,agent产品何去何从?
OpenAI在2025年Q1推出的新模型o3表现惊艳,其融合的tool use能力覆盖了agent产品常用场景。o3和Manus代表了两类技术路线:一种是将tool use内化到模型中,另一种则是通过外置框架完成任务。OpenAI计划让...
原文链接
标题:Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B
刚刚,Kimi团队发布全新开源轻量级视觉语言模型Kimi-VL及其推理版Kimi-VL-Thinking,兼具多模态和推理能力。该模型基于MoE架构,总参数16B,但推理时仅激活2.8B。
与Qwen2...
原文链接
8日,《科创板日报》报道,阶跃星辰正式推出多模态推理模型Step-R1-V-Mini。该模型支持图文输入与文字输出,具备优秀的指令遵循能力和通用性,可高精度识别图像并处理复杂推理任务。此模型的发布展示了阶跃星辰在多模态AI领域的技术突破,为相关应用提供了新的可能性。
原文链接
3月18日,昆仑万维正式开源国内首个工业级多模态思维链推理模型Skywork R1V。该模型支持视觉与文本的多模态推理,具备顶尖的逻辑推理和数学分析能力,在MATH500和AIME测试中分别获94.0和72.0分。Skywork R1V在视觉推理任务上表现出色,MMMU和MathVista基准得分达69和67.5。其核心技术包括文本推理向视觉任务的高效迁移、多模态混合式训练方法以及自适应长度思维链蒸馏,这些创新提升了模型的精度与泛化性能。模型权重及技术报告现已开源,分别可通过Hugging Face和GitHub获取。
原文链接
标题:AI写代码新姿势:一个截图,代替千行代码
正文:
现在写代码,最时尚的“姿势”应该是截图。只需截取网页的一部分,附上Prompt:“参考这个页面,生成一个类似的HTML页面。”AI就能快速生成代码。
这项功能由商汤在GDC中发布的办公小浣熊2.0实现。它不仅简化了前端程序员的工作,也让编程小白...
原文链接
在AI领域持续关注与学习过程中,我发现大模型的研究潜力巨大。为验证这一观点,我进行了几个实验。首先,尝试多模态推理方法,利用文字与图形信息协同进行推理。结果显示,大模型对于形式简单的家族图谱问题能够有效解决,例如,通过一张展示张三与其他人关系的图谱,询问“小杰如何称呼张三”,大模型能给出正确答案。
...
原文链接
加载更多

暂无内容