综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年9月19日,安凯微宣布拟以2000万元增资视启未来(深圳)科技有限公司,增资后将持有其4.00%股份。视启未来成立于8月7日,由粤港澳大湾区数字经济研究院孵化,承接通用视觉大模型DINO-X研发团队及知识产权,专注于人工智能软件开发、智能机器人研发等领域。DINO-X在开放世界目标检测中表现领先,具备广泛应用前景。安凯微表示,此次增资是为加速AI+场景应用软硬件协同创新的战略布局。此外,安凯微近期在智算芯片、大视觉模型技术本地化等领域持续发力,带算力芯片出货量增加,并发布了多款低功耗芯片产品。尽管上半年营收下滑3.02%,但公司正通过拓宽产品线应对市场竞争压力。
原文链接
7月17日,字节跳动豆包大模型视觉多模态生成方向负责人杨建朝在内部宣布因家庭因素暂时休息,工作已交接给周畅(花名“时光”)。周畅现属“多模态交互与世界模型”部门,向吴永辉汇报。杨建朝此前负责Seed视觉模型研究,分布于北美、新加坡和中国多地。他曾是Adobe、Snapchat等公司资深研究员,2018年加入字节。接任者周畅曾主导阿里通义千问M6模型开发,今年7月从阿里离职后加入字节。此次变动引发外界对字节AI技术路线的关注,但内部强调基础研究投入不变。
原文链接
IDEA研究院发布DINO-X目标检测视觉大模型
计算机视觉技术在现实世界中应用广泛,但过去主流的小模型难以应对多样化的长尾需求,限制了技术的广泛应用。随着Transformer架构的引入,视觉模型逐渐从小变大,从单一用途向多功能转变。
11月22日,IDEA研究院在IDEA大会上发布了最新DINO...
原文链接
标题:谷歌&MIT何恺明团队:视觉大模型像LLM一样高效扩展
谷歌&MIT何恺明团队联手,提出了一种新的自回归文生图模型——Fluid。该模型基于连续token,而非离散token,且采用随机顺序生成图像,而非传统的光栅顺序。研究发现,基于连续token的模型在视觉质量上优于离散to...
原文链接
南京大学和旷视研究院联手推出了一种革新性的无监督范式,无需人工标注或GPT-4参与,显著降低了视觉大模型的对齐成本。他们针对视觉语言模型(VLM)的偏好对齐问题,研发了Self-Supervised Visual Preference Alignment(SeVa)方法。SeVa通过自动化构建正负样本,解决了模型在理解和用户体验上的不足,如对指令的遵循、幻觉回答减少等。研究团队利用LLaVa-1.5模型进行实验,结果显示,仅用少量无监督数据就能提升模型性能,且整个过程成本低、效率高。SeVa不仅提高了模型的指令理解能力,还增强了回答的一致性和鲁棒性,使其输出更符合人类偏好。这项成果已在GitHub开源,为视觉模型的优化提供了新的可能性。
原文链接
加载更多
暂无内容