豆包PC端“开箱”，从语音卷到了方言

2024-08-24 15:38:06

豆包PC端“开箱”，从语音卷到了方言

量子黑客

发布在

科普

阅读：17390

8月22日，火山引擎 AI 创新巡展在上海举行，豆包大模型在语音识别、综合评分方面取得显著进步，尤其在语音能力上受到关注。大模型团队研发了名为 Seed-ASR 的成果，与 OpenAI 于7月31日发布的全新高级语音模式相媲美，支持实时交互，具备更强的上下文感知能力与推理能力。

豆包声称其语音技术能够识别包括普通话、粤语、上海话、四川话、西安话、闽南语在内的多种中国方言。这一特性引起了我的兴趣，希望与之进行方言交流。接下来，我将使用豆包 AI PC端（版本1.19.5_mac）进行一系列测试，包括AI文本伴读、截图识别、AI看视频与AI方言识别，以评估豆包相较于其他网页版AI大模型的独特优势。

AI文本伴读

AI文本伴读功能强大，能够自动提供搜索、翻译、解释、复制等服务。在AI划词工具栏下，用户可以访问包括文本的扩缩写、修正、润色、社交媒体文案或视频脚本生成、周报、okr、代码纠错、优缺点总结、抽取任务项、头脑风暴等22项自定义置顶设置的功能。AI能够准确解释文本内容，例如对“帕累托规则”这类专有名词的识别与解释。

AI图片识别

AI图片识别功能较为实用，能够解决解题答疑问题。但在翻译和问答环节，识别效果不佳，且难以智能断句。尝试使用成段落文本识别时，也未见显著改善。AI的问答功能在图片识别领域表现一般，难以完整识别图片内容。

AI看视频

AI看视频功能当前仅支持B站视频，并需要在豆包界面内打开并登录B站账号。测试结果显示，视频分段的时间轴基本实现了内容切分，但图文搭配不够准确。对于日语配音、繁体中文字幕的视频处理存在困难，视频主旨概括未能清晰体现，且对特定人物的称呼出现错误。

AI方言识别

豆包支持粤语、上海话、四川话、西安话、闽南语的方言识别。方言输入功能在首页可用，但在对话界面不可继续使用方言输入。虽然方言识别无误，但暂时不支持方言交互，主要停留在趣味性和商务场合的应用，如方言参会者的会议记录整理。

总结

豆包的AI文本伴读功能在PC端表现出色，提供多样化的服务，适用于不同职业场景。图片识别功能在解题答疑方面有亮点，但在翻译和问答环节表现不佳。AI看视频功能在视频分段上有潜力，但处理复杂语境的能力有待提高。方言识别功能为豆包带来独特性，但在交互层面仍有发展空间。整体而言，豆包展现出强大的语音识别能力和多语言支持，但仍需在某些功能上进行优化，以满足用户需求。

原文链接

本文链接：https://kx.umi6.com/article/5395.html

转载请注明文章出处

AI看视频