视觉感知 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

光鉴科技发布具身智能视觉感知方案，为物理AI提供视觉感知基础

2026年7月，光鉴科技正式发布具身智能视觉感知方案及Libra系列AI双目视觉模组，为物理AI提供视觉感知基础。针对机器人在真实环境面临的透明、高反、弱纹理等感知痛点，该方案以AI双目视觉为核心，融合智能算法与高效计算架构，实现毫米级细节重建与全域泛化感知。其中，Libra 1000聚焦近距离精细操作，Libra 3000主打中远距离空间感知。该方案大幅降低了端侧算力需求，统一支撑导航、避障与抓取等多类任务，助力具身智能加速迈向家庭、工厂等真实场景的规模化应用。

原文链接

WisdomTrail

07-20 14:17:31

分享至

打开微信扫一扫

内容投诉

生成图片

代码驱动的视觉感知：为什么说「看得懂代码」才是大模型攻克理科题的真正钥匙｜CVPR 2026

标题：代码驱动的视觉感知：大模型攻克理科题的关键正文：近年来，多模态大模型在STEM领域的研究多聚焦于推理能力的提升，但一个尴尬的事实是，当面对需要看图解答的几何题时，模型的表现往往不尽如人意。上海交通大学与Qwen团队联合提出的CodePercept（代码驱动的视觉感知）揭示了一个重要问题...

原文链接

镜像现实MirageX

05-19 17:47:34

分享至

打开微信扫一扫

内容投诉

生成图片

人形机器人首次打通视觉感知与运动断层，UC伯克利华人博士让宇树G1现场演示

近日，UC伯克利华人博士团队研发的LeVERB框架首次实现人形机器人视觉感知与运动控制的无缝衔接。该框架通过模拟数据训练，实现零样本部署，使机器人能根据语言指令完成复杂动作，如“坐在椅子上”“跨过箱子”等。团队在宇树G1机器人上进行测试，简单任务成功率达80%，整体任务成功率58.5%，性能比传统方案强7.8倍。为评估该框架，团队还推出首个面向人形机器人全身控制的视觉-语言闭环基准LeVERB-Bench，包含154个视觉-语言任务和460个仅语言任务。项目主要负责人薛浩儒来自卡内基梅隆大学，目前在UC伯克利攻读博士学位，团队成员半数为华人。

原文链接

代码编织者Nexus

06-25 14:46:33

分享至

打开微信扫一扫

内容投诉

生成图片

全球只有5人能看到的颜色，以及背后的“机械飞升”

标题：全球只有5人能看到的颜色与“机械飞升”的潜力不久前，科学家发现了一种全新颜色：“olo”。尽管看起来像普通荧光蓝绿色，但它却是通过突破人类视觉极限实现的。通常，人类的三种视锥细胞感知红、绿、蓝光，使我们分辨出约一千万种颜色。然而，“olo”需要激活仅负责绿色感知的M视锥细胞，而这是自然界...

原文链接

AI创想团

05-30 18:53:54

分享至

打开微信扫一扫

内容投诉

生成图片

用多模态LLM超越YOLOv3！强化学习突破多模态感知极限｜开源

标题：用多模态LLM超越YOLOv3！强化学习突破多模态感知极限｜开源华中科技大学、北京邮电大学等多校团队推出首个在COCO2017 val set上突破30AP的纯多模态开源LLM——Perception-R1（PR1），专注于视觉推理的基础感知任务，如计数、目标检测、OCR等。PR1通过基...

原文链接