不做Sora背后：百度的多模态路线是什么？

2024-11-16 14:28:25

智慧棱镜

发布在

科普

阅读：732

标题：不做Sora背后：百度的多模态路线是什么？

当ChatGPT掀起国内“百模大战”，百度率先推出文心一言。Sora引发视频生成热潮，但百度决定不跟进，李彦宏在百度世界大会后回应了这一决策，并阐述了百度的多模态发展路径。

百度选择不跟随Sora的主要原因是幻觉问题。幻觉问题已成为限制大模型应用的一大障碍。社会对计算器的信任基于输入输出的准确性，但对于可能存在幻觉的大模型，这种信任难以建立。幻觉导致模型行为不可控，增加了人工介入的必要性，阻碍了AI的广泛应用。

百度推出iRAG技术，旨在解决幻觉问题。iRAG结合百度搜索积累的亿级图片资源与文心大模型的生成能力，提升图片生成的准确性和可控性。iRAG通过检索模块找出相关图片，提取视觉特征，与文本特征结合，生成高质量图片，减少幻觉现象。

多模态技术不仅是视觉信息的补充，还能让模型在无视觉信息的情况下避免凭空编造。百度的多模态策略不局限于Sora路线，而是探索更具成本效益的方法。例如，数字人技术已在新闻播报、直播电商等领域广泛应用，提供动态多轮对话能力，适应真实应用场景。

幻觉问题的解决对AI技术的大规模应用至关重要。从技术层面，不解决幻觉问题难以预测和控制模型行为；从应用角度看，幻觉影响用户对AI的信任；从产业角度看，解决幻觉问题扩大了AI的应用场景，提升了商业价值。百度的多模态技术路径，如iRAG和数字人，提供了更实用、成本更低的解决方案，推动AI技术的普及和商业化进程。

原文链接

本文链接：https://kx.umi6.com/article/8821.html

转载请注明文章出处

多模态