标题:不做Sora背后:百度的多模态路线是什么?
当ChatGPT掀起国内“百模大战”,百度率先推出文心一言。Sora引发视频生成热潮,但百度决定不跟进,李彦宏在百度世界大会后回应了这一决策,并阐述了百度的多模态发展路径。
百度选择不跟随Sora的主要原因是幻觉问题。幻觉问题已成为限制大模型应用的一大障碍。社会对计算器的信任基于输入输出的准确性,但对于可能存在幻觉的大模型,这种信任难以建立。幻觉导致模型行为不可控,增加了人工介入的必要性,阻碍了AI的广泛应用。
百度推出iRAG技术,旨在解决幻觉问题。iRAG结合百度搜索积累的亿级图片资源与文心大模型的生成能力,提升图片生成的准确性和可控性。iRAG通过检索模块找出相关图片,提取视觉特征,与文本特征结合,生成高质量图片,减少幻觉现象。
多模态技术不仅是视觉信息的补充,还能让模型在无视觉信息的情况下避免凭空编造。百度的多模态策略不局限于Sora路线,而是探索更具成本效益的方法。例如,数字人技术已在新闻播报、直播电商等领域广泛应用,提供动态多轮对话能力,适应真实应用场景。
幻觉问题的解决对AI技术的大规模应用至关重要。从技术层面,不解决幻觉问题难以预测和控制模型行为;从应用角度看,幻觉影响用户对AI的信任;从产业角度看,解决幻觉问题扩大了AI的应用场景,提升了商业价值。百度的多模态技术路径,如iRAG和数字人,提供了更实用、成本更低的解决方案,推动AI技术的普及和商业化进程。
原文链接
本文链接:https://kx.umi6.com/article/8821.html
转载请注明文章出处
相关推荐
换一换
我们扒完了GPT-5全网爆料,奥特曼和OpenAI 这次的饼真不好画了
2025-08-05 19:18:01
百度,来势汹汹
2025-04-26 17:54:11
AI芯片明年6倍增长 百度回应昆仑芯上市计划:不保证会进行
2025-12-07 21:51:01
美团发布并开源 LongCat-Flash-Omni 模型:支持实时音视频交互,达到 SOTA 水平
2025-11-03 11:17:00
大模型呼唤开源多模态 AI加速冲刺物理世界
2025-06-07 14:50:49
消息称小鹏机器人新成立“智能拟态部”,主攻机器人多模态
2025-07-25 17:29:22
一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!
2025-04-25 18:17:24
阶跃星辰姜大昕:多模态目前还没有出现GPT-4时刻
2025-05-08 20:39:27
消息称百度计划 8 月底前发布 AI 推理新模型,未来几个月推文心 5.0
2025-08-07 16:52:59
百度发布新一代文字识别 AI 模型 PP-OCRv5:仅 0.07B,部分测试超 GPT-4o
2025-09-13 22:33:52
百度发布新一代昆仑芯M100和M300
2025-11-13 11:09:04
AI重新激活搜索赛道后,百度的压力更大了
2025-10-11 22:34:05
豆包大模型1.6正式发布
2025-06-11 11:12:11
609 文章
339491 浏览
24小时热文
更多
-
2025-12-08 23:53:52 -
2025-12-08 22:52:38 -
2025-12-08 22:51:57