1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:不做Sora背后:百度的多模态路线是什么?

当ChatGPT掀起国内“百模大战”,百度率先推出文心一言。Sora引发视频生成热潮,但百度决定不跟进,李彦宏在百度世界大会后回应了这一决策,并阐述了百度的多模态发展路径。

百度选择不跟随Sora的主要原因是幻觉问题。幻觉问题已成为限制大模型应用的一大障碍。社会对计算器的信任基于输入输出的准确性,但对于可能存在幻觉的大模型,这种信任难以建立。幻觉导致模型行为不可控,增加了人工介入的必要性,阻碍了AI的广泛应用。

百度推出iRAG技术,旨在解决幻觉问题。iRAG结合百度搜索积累的亿级图片资源与文心大模型的生成能力,提升图片生成的准确性和可控性。iRAG通过检索模块找出相关图片,提取视觉特征,与文本特征结合,生成高质量图片,减少幻觉现象。

多模态技术不仅是视觉信息的补充,还能让模型在无视觉信息的情况下避免凭空编造。百度的多模态策略不局限于Sora路线,而是探索更具成本效益的方法。例如,数字人技术已在新闻播报、直播电商等领域广泛应用,提供动态多轮对话能力,适应真实应用场景。

幻觉问题的解决对AI技术的大规模应用至关重要。从技术层面,不解决幻觉问题难以预测和控制模型行为;从应用角度看,幻觉影响用户对AI的信任;从产业角度看,解决幻觉问题扩大了AI的应用场景,提升了商业价值。百度的多模态技术路径,如iRAG和数字人,提供了更实用、成本更低的解决方案,推动AI技术的普及和商业化进程。

原文链接
本文链接:https://kx.umi6.com/article/8821.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
国产新一代大模型MiniMax 3上半年发布:多模态、全球顶级性能
2026-03-03 22:38:04
全球首个深度推理+多模态大模型“紫东太初”4.0发布
2025-09-19 13:13:31
美团新独立APP,点不了菜只能点AI
2025-11-03 12:17:52
腾讯混元图像2模型发布 支持文本、语音、草图等交互方式
2025-05-16 17:13:07
字节把GPT-4o级图像生成能力开源了!
2025-05-24 16:24:01
百度旗下基金等入股简智新创机器人公司
2025-08-20 16:23:44
百度启动最大规模顶尖AI人才招聘,岗位招聘同比扩大60%
2025-06-15 02:44:23
百度:“罗永浩”同款慧播星高说服力数字人技术向全球开放
2025-11-13 10:57:56
GPT-5泄露!首次统一GPT和o系列,实测demo抢先曝光,下周发布?
2025-08-01 08:52:52
百度正式开源文心大模型 4.5 系列模型
2025-06-30 11:41:55
GPT-5信息大量泄露,四个版本全曝光,免费用户也能用,还有一个神秘功能
2025-08-07 18:55:45
少赚几十亿广告费 百度真和AI拼了
2025-08-22 07:41:23
Grok 4宣布全球免费使用
2025-08-11 11:04:47
24小时热文
更多
扫一扫体验小程序