我用一招“隐藏术”，PUA 了所有大模型

2024-10-23 18:44:43

AI创想团

发布在

科普

阅读：454

标题：一招“隐藏术”PUA大模型

不久前，科技记者Kevin Roose通过在个人官网上加入一行“隐形小字”，让读者看不到但大模型可读，从而改善了自己的风评。这揭示了AI系统的一个弱点：信息的接收、理解、输出再到调试都易受人为影响。

现在，一种更高级的“PUA”大模型方法出现，可以写下浏览器和人眼不可见，但AI模型可读的指令。这种手段源自“隐写术”（Steganography），早在互联网出现前就存在。

隐写术是一种信息交换手段，看似神秘，实则常见。例如，电影出品方会在影院放映的原片中嵌入影院信息，以防止盗版。电子水印也是一种应用，通过微小的颜色差异，使计算机能分辨出版权归属。

在文本上，最简单的隐写术是把字体和网页颜色设为相同，只有全选时才能看到隐藏文字。更高级的方法包括使用特殊Unicode文本编码，让部分字符不可见。ASCII走私（ASCII Steganography）就是利用ASCII和Unicode编码差异，让AI误读链接或指令。

去年，AI圈讨论在求职简历中嵌入白色字体，提高简历分发概率。HR看不到白色小字，但AI读取后会提取关键词，推荐简历。大学教师也用此法抓用AI写作业的学生，如在论文主题后加不可见指令，学生若照做，则表明用了AI。

Scale AI的独立研究员Riley Goodside设计了一种隐写术，把白色文本贴在白色图中，再设为文档背景，全选、刷格式都刷不出来，但大模型可读。他还认为可用Unicode骗大模型，就像“真假链接”。

例如，Goodside在网页翻译成中文后，隐藏字符串浮现，并成功骗过大模型Claude，回答了“隐藏的问题”。然而，目前许多大模型仍易被骗，如Claude和Gemini等。

尽管程序员还能控制大模型哪些编码可读，但未来大模型可能找到专属计算机语言的信息流通方式，这是当前AI威胁论中被忽视的一面。

正如隐写术的核心：“当你看见时，就已被破解。”

原文链接

本文链接：https://kx.umi6.com/article/7765.html

转载请注明文章出处

ASCII走私

大模型

隐写术

分享至

打开微信扫一扫

内容投诉

生成图片

AI创想团

690 文章

483225 浏览

24小时热文