综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:代码驱动的视觉感知:大模型攻克理科题的关键
正文:
近年来,多模态大模型在STEM领域的研究多聚焦于推理能力的提升,但一个尴尬的事实是,当面对需要看图解答的几何题时,模型的表现往往不尽如人意。上海交通大学与Qwen团队联合提出的CodePercept(代码驱动的视觉感知)揭示了一个重要问题...
原文链接
近日,UC伯克利华人博士团队研发的LeVERB框架首次实现人形机器人视觉感知与运动控制的无缝衔接。该框架通过模拟数据训练,实现零样本部署,使机器人能根据语言指令完成复杂动作,如“坐在椅子上”“跨过箱子”等。团队在宇树G1机器人上进行测试,简单任务成功率达80%,整体任务成功率58.5%,性能比传统方案强7.8倍。为评估该框架,团队还推出首个面向人形机器人全身控制的视觉-语言闭环基准LeVERB-Bench,包含154个视觉-语言任务和460个仅语言任务。项目主要负责人薛浩儒来自卡内基梅隆大学,目前在UC伯克利攻读博士学位,团队成员半数为华人。
原文链接
标题:全球只有5人能看到的颜色与“机械飞升”的潜力
不久前,科学家发现了一种全新颜色:“olo”。尽管看起来像普通荧光蓝绿色,但它却是通过突破人类视觉极限实现的。通常,人类的三种视锥细胞感知红、绿、蓝光,使我们分辨出约一千万种颜色。然而,“olo”需要激活仅负责绿色感知的M视锥细胞,而这是自然界...
原文链接
标题:用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
华中科技大学、北京邮电大学等多校团队推出首个在COCO2017 val set上突破30AP的纯多模态开源LLM——Perception-R1(PR1),专注于视觉推理的基础感知任务,如计数、目标检测、OCR等。PR1通过基...
原文链接
加载更多
暂无内容