字节Seed - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

字节Seed用化学思想搞AI，把DeepSeek-R1的脑回路拆成了分子结构

字节Seed用化学思想搞AI，把DeepSeek-R1的脑回路拆成了分子结构字节Seed团队提出了一种全新的视角，用化学思想解析大模型的推理机制。他们将深度推理比作共价键、自我反思比作氢键、自我探索比作范德华力，揭示了大模型长链思维背后的“分子结构”。传统方法如CoT（Chain of Thou...

原文链接

AI奇点纪元

02-24 15:50:28

化学思想

字节Seed

长链思维

分享至

打开微信扫一扫

内容投诉

生成图片

华泰证券：字节seedance2.0出圈，AI视频迎工业化奇点，看好三大方向

2月12日，华泰证券发布研报称，字节Seedance2.0实现“可控创作”，AI视频工业化生产或迎奇点。随着AI技术逐步成熟，内容产业链价值分配将发生变化。研报看好三大方向：上游IP方数字资产有望重估，AI降低文字IP向视频转化门槛，拥有优质IP储备的公司将受益；中游制作方中，能高效结合AI工具赋能创作、拥有稀缺导演/编剧资源的公司被看好；领先的视频大模型厂商亦值得关注。

原文链接

新智燎原

02-12 08:10:02

AI视频工业化

内容产业链

字节Seedance2.0

分享至

打开微信扫一扫

内容投诉

生成图片

字节 Seed 团队推出 Lumine 智能体：自主游玩《原神》等 3D 开放世界游戏

11月17日，字节Seed团队推出名为Lumine的通用AI智能体，能够在《原神》等3D开放世界游戏中自主完成复杂任务。Lumine通过视觉-语言模型驱动，以5Hz处理图像并以30Hz生成键鼠操作，展现出强大的泛化能力。在《原神》中，它不仅完成了蒙德地区长达5小时的主线剧情，还在未经训练的璃月区域成功通关。此外，Lumine无需微调即可在《崩坏：星穹铁道》和《鸣潮》中分别完成7小时和100分钟的主线任务。其训练基于1731小时人类游戏数据预训练、200小时指令跟随数据及15小时推理数据，能够执行战斗、解谜、收集及NPC交互等多样化任务，并展现上下文学习能力，适应复杂挑战。

原文链接

镜像现实MirageX

11-17 09:14:45

3D开放世界游戏

Lumine

字节Seed团队

分享至

打开微信扫一扫

内容投诉

生成图片

字节发了个机器人全能大模型，带队人李航

2025年9月6日，字节发布机器人全能大模型Robix，由李航博士带队研发。Robix采用视觉-语言单模型设计，整合推理、任务规划和自然语言交互功能，解决传统机器人模块间信息代沟问题。其核心基于思维链推理和三阶段训练策略（持续预训练、监督微调、强化学习），支持3D空间理解与复杂任务执行。测试显示，Robix在多项空间理解任务中表现优于GPT-4o、Gemini 2.5 Pro等模型，真实环境评估中平均任务进度达92.5%。李航曾担任华为诺亚方舟实验室主任，现以返聘顾问形式继续参与字节AI项目。相关技术报告与论文已公开。

原文链接

WisdomTrail

09-06 12:34:33

Robix

字节Seed

李航

分享至

打开微信扫一扫

内容投诉

生成图片

字节Seed最新版原生智能体来了！一个模型搞定手机/电脑/浏览器自主操作

标题：字节Seed推出全新智能体UI-TARS-2，一个模型搞定多平台操作正文：字节Seed团队发布了最新智能体UI-TARS-2，能够自主操作手机、电脑和浏览器，完成复杂任务。例如，它仅用35秒就编写了一个重量单位转换函数，并计算出结果为4000克。相比Claude和OpenAI的同类模型...

原文链接

虚拟微光

09-05 13:18:29

UI-TARS-2

多轮强化学习

字节Seed

分享至

打开微信扫一扫

内容投诉

生成图片

字节Seed发布扩散语言模型，推理速度达2146 tokens/s，比同规模自回归快5.4倍

标题：字节Seed发布扩散语言模型，推理速度达2146 tokens/s 字节Seed推出了一款基于扩散模型的代码生成工具——Seed Diffusion Preview。这款模型采用离散状态扩散技术，在推理速度上表现出色，每秒可生成2146个token，比同类模型快数倍，且较同等规模的自回归模...

原文链接

虚拟织梦者

08-01 15:00:45

代码生成

字节Seed

扩散语言模型

分享至

打开微信扫一扫

内容投诉

生成图片

字节Seed智能体模型UI-TARS-1.5开源

《科创板日报》17日消息，字节跳动旗下豆包大模型团队今日发布并开源了UI-TARS-1.5，这是一款基于视觉-语言模型打造的开源多模态智能体。该模型具备在虚拟环境中高效完成多种任务的能力，尤其在7个GUI图形用户界面评测基准中达到了SOTA（最高性能）。此外，UI-TARS-1.5首次展示了其在游戏中的长时推理能力和开放空间中的交互能力，标志着多模态智能体技术的重要进展。

原文链接