
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
7月17日,字节跳动豆包大模型视觉多模态生成方向负责人杨建朝在内部宣布因家庭因素暂时休息,工作已交接给周畅(花名“时光”)。周畅现属“多模态交互与世界模型”部门,向吴永辉汇报。杨建朝此前负责Seed视觉模型研究,分布于北美、新加坡和中国多地。他曾是Adobe、Snapchat等公司资深研究员,2018年加入字节。接任者周畅曾主导阿里通义千问M6模型开发,今年7月从阿里离职后加入字节。此次变动引发外界对字节AI技术路线的关注,但内部强调基础研究投入不变。
原文链接
IDEA研究院发布DINO-X目标检测视觉大模型
计算机视觉技术在现实世界中应用广泛,但过去主流的小模型难以应对多样化的长尾需求,限制了技术的广泛应用。随着Transformer架构的引入,视觉模型逐渐从小变大,从单一用途向多功能转变。
11月22日,IDEA研究院在IDEA大会上发布了最新DINO...
原文链接
标题:谷歌&MIT何恺明团队:视觉大模型像LLM一样高效扩展
谷歌&MIT何恺明团队联手,提出了一种新的自回归文生图模型——Fluid。该模型基于连续token,而非离散token,且采用随机顺序生成图像,而非传统的光栅顺序。研究发现,基于连续token的模型在视觉质量上优于离散to...
原文链接
南京大学和旷视研究院联手推出了一种革新性的无监督范式,无需人工标注或GPT-4参与,显著降低了视觉大模型的对齐成本。他们针对视觉语言模型(VLM)的偏好对齐问题,研发了Self-Supervised Visual Preference Alignment(SeVa)方法。SeVa通过自动化构建正负样本,解决了模型在理解和用户体验上的不足,如对指令的遵循、幻觉回答减少等。研究团队利用LLaVa-1.5模型进行实验,结果显示,仅用少量无监督数据就能提升模型性能,且整个过程成本低、效率高。SeVa不仅提高了模型的指令理解能力,还增强了回答的一致性和鲁棒性,使其输出更符合人类偏好。这项成果已在GitHub开源,为视觉模型的优化提供了新的可能性。
原文链接
加载更多

暂无内容