文章作者、来源:思想钢印
用AI回答问题,总会经历“从入坑到被坑”的阶段,人类可能有史以来第一次大规模全方面地看到,如何用专业的内容一本正经地胡说八道。
这些错误往往是最像真话的假话,在最不可能犯错的地方犯错,以至于大家不好意思用“犯错”这两个词,而美名曰“幻觉”,意思是说,越是看起来专业、流畅、自信的回答,越有可能隐藏着严重错误。
很多人以为,AI的“幻觉”主要出现在高深复杂的领域。的确,越小众、越冷门、越细分的领域,训练数据越少,越容易瞎编。
比如我经常涉及的金融中的复杂期权的策略、一些小市值股票的问题。不过这种幻觉好理解,危害也不大,能够问冷门知识的人,大部分都有对错误的判断能力,虽然不知道什么是对的,但如果错了,明显会觉得不对劲。
另一种类似情况是复杂问题的多步骤推理,这种幻觉,如果仔细分析大模型的推理过程,并不难发现其中的逻辑漏洞。
以上是大模型第一类易产生幻觉的地方:小众领域和多步推理,当然,也是人类容易犯错的地方。
而后三类才是真正要你命的幻觉,往往出现在你以为“不会错”的地方。
AI经常会犯一个大部分人意想不到的“低级错误”:
比如具体年份、数据、排名、法条编号、人名地名、专业术语,等,大模型容易编数字、凑人名、乱套概念。
还有需要精确引用的内容,比如:原文原话、歌词、诗词、合同条款、论文摘要,等等,大模型经常改字、漏句、张冠李戴。
这种低级错误,如果没有注意就用,后果往往是灾难性的。
这些错误在人类看来低级,但却是这种大语言模型的“预测机制”与生俱来的问题,几乎不可能根治。不管多么高级的大模型,都有可能出现。
比如我们会说“床前明月光”,是因为我们从小就这么背的,但大模型的生成机制并不是背诗,而是逐字预测下一个字出现的概率:在输出“床前”这两个字后,计算接下来出“明”字的概率最高,出完 “明月”,再预测 “光” 的概率最高。
不少人会把“床前明月光”记成“窗前明月光”,但没有人说成“床前明月夜”,但在大模型看来,“光”还是“夜”,就是一个概率问题,而不是是非问题,在参数、上下文或采样设置影响下,也有概率跑偏,预测成“明月夜”这类不符合原诗的内容。
还有编造数字这种典型“低级错误”,也是因为模型并不真正理解“1990年”或“5000美元”的数值含义,它看到的只是“1”“9”“9”“0”这些字符的排列组合。当它预测下一个词时,它是在寻找“看起来最像年份的数字组合”,而不是去数据库里调取真实的年份。因此,它可能会一本正经地编造出一个符合格式但完全不存在的年份。
还有自作主张改原文,仍然因为它是语言模型,为了语句通顺,合乎语言逻辑,它会“自作聪明”地修改原文,或者删掉一些它认为“不重要”的内容,导致引用不精准。
还有逻辑链严格的长文本,比如合同、论文的处理中,模型在完成前半段的主体后,生成后半段时,“注意力”发生了漂移,把A事件的“头”接B事件的“尾”,只要语言本身符合逻辑。
归根到底,精确引用是在考“记忆力”,但大模型没有“记忆自检”能力,它不知道原文长什么样,所以就不会知道自己有没有记错,它只会保证输出做到通顺、像人话、有逻辑。就好像你让一个擅长写作的人去逐字背字典,他也会错,而且错得很自信。
随着模型变得越来越聪明,它们编造的内容在逻辑和语气上会更加逼真,普通人更难一眼识破。模型回答得越流畅、越自信,越要警惕。
另一个让我深恶痛绝,防不胜防的幻觉就是“喜欢编故事”。
对于用AI辅助写网文的人,这是优点,但大部分人用来“知识问答”时,就是灾难现场,比如找案例。
介绍观点、分析理论的文章想要不枯燥,案例必不可少,好的案例无法靠写作时搜索,主要靠平时积累的笔记,本以为AI可以帮我节省这些时间,没想到,在2023年大模型刚刚出来时,它那些有时间有地点有人物有出处的案例,大部分都是现编。
其中原因还是要回到它的原理,当我说“给我一个真实案例”时,它的理解是“给我编一个听起来很真实的小故事”。
比如那时的大模型,最经常发生的幻觉是把腾讯的背景、马云的名言和女装行业的事件拼凑在一起。在模型看来,这种组合在语义概率上是非常“通顺”的,哪怕在现实中一眼假。
这个听上去很简单问题,其实是很难解决的,问题就在于,人工智能的世界没有“真实”两个字。
人类可以理解“真实”,我们知道,看到听到触摸到的东西是真实的,脑子里想象出来的就不是“真实”,但人工智能的“世界”都是“编”的,它自然分不清真实发生过的事和“符合逻辑的虚构故事”。
在人工智能理解中,只要概率值符合要求,结构对、细节够、语气像,就是真实的好案例,它没有“求真”本能,只求“说得通”。
到了2024年,这些大模型基本上都联网了,我以为它有了搜索核对的能力,就可以找到真实案例。
可实际情况是,大模型并不是找不到真实案例,而是天生爱编,而且是优先编,以至于每次都要提醒它——绝对要有出处,要核实,就算如此,它也冷不丁给你一段“关公战秦琼”。
这是因为“学会”搜索后,它出现了更多问题:
比如把那些营销号的案例当成真实事件再加工,更可恶的是,原文本来“一眼假”,但经过它的加工,反而不容易分辨了。
还有,它为了强行适配我的观点,还会对真实案例的细节进行二次加工,再“移花接木”转化为合适的案例,真可耻。
这里还有一个更深层的原因——成本。
对于人类而言,搜索一个真实案例跟编一个有鼻子有眼睛的故事,难度可能差不多。
但大模型为“编”而生,如果让它去找真实案例,它需要多轮检索,尝试多个关键词,需要长文本阅读,消耗海量Token 去“精读”,还需要多个信源交叉比较确认真实性,最后才能生成200字案例,成本可能是直接编的 10-100 倍。
在模型算力普遍紧张的情况下,如果不约束,它一定是优先编。你越是要真实具体,它越是只能编,编人编数字编一些推测出来的细节,只为了让文字更合理。
还有两个常见的幻觉,但是严格的说,大模型并没有错,有幻觉的是提问者。
一类是让AI作出主观评价,比如“林冲和关羽谁最厉害”,还有让它预测未来,“哪个股票会涨”“未来通缩什么时候结束”,此时大模型容易给出看似合理、实则无依据的武断结论。
当然,这一类问题本来就没有标准答案,也不能说它错,但它极强的逻辑,瞎话都能说的头头是道,往往给人答案“非常可信”的幻觉,所以我一开头说,这其实是提问者的幻觉。
另一种是模糊、歧义、诱导式提问。
早期的大模型,如果你没头没脑的问一句“这个药有用吗”,模型压根不知道是什么药?但它不会说 “我不知道”,它会强行给你一个听起来很专业的回答,里面的原理、效果、注意事项,全是编的,实际上,它是在猜你问什么药——这哪儿猜得到啊。
现在已经不会犯这一类错误了,但“猜测你想问的问题”的本性并没有变。
你丢给它一个想法,问它“我这个想法好不好”,它大概率会先顺着你的话,夸你一通,这个想法简直是“一语中的”啊,甚至可能胡编几个专家的观点,然后才说它真正认可的观点,但语气上是“补充”,反而感觉不那么重要。
你问得越模糊、越带偏向,它编得越自洽(因为没有约束)。如果你有一定的自恋倾向,那有幻觉的实际上是你自己。
总结一下,大模型的四类幻觉:
小众冷门知识:数据不足,瞎编
精确事实与引用:没有“记忆自检”,出现低级错误
案例与故事:优先“编”而不是“找”
主观问题与诱导提问:迎合你,而不是纠正你
对应的解决方法,本质上只有一句话:不要把它当成“知道答案的人”,而要把它当成“特别会说话的人”。
第一类幻觉:小众冷门专业知识类问题
不能简单直接丢问题,而是要求它只能引用“公认、通用、教材级”的材料回答问题,并要求“如果不确定就说明不确定”。
第二类幻觉:需要精确引用的内容
一方面,要在提问中注明“请逐字准确写出《XX》原文,若无法保证100%准确请直接说明”;另一方面,要求它给出有权威的信息来源,要求它只列确定事实,不确定不要编。
但就我的经验,这类幻觉是无法绝对避免的,错误的代价又很高,所以在使用大模型处理精确事实和精确引用时,特别是形成重要文本时,一定一定要保持“零信任”的态度,即使是最顶级的大模型,要做到:
核实关键数据:所有的数字、年份、人名,必须通过搜索引擎或官方文档进行二次核对。
不要直接复制引用:对于合同条款或论文引用,必须对照原文逐字检查。
不要用人类的思维方式主观的认为某些简单的地方不可能出错,不需要核实,人类对复杂的判断跟大模型完全不是一回事。
第三类幻觉:编故事
提问时要求它“提供真实存在、公开可查的案例”“禁止虚构、禁止编造人名公司数据”“没有就说没有”。
但跟前一类一样,本质上无法杜绝,真实性还是要靠自己判断。
第四类:主观评价及诱导式提问
提问时,不要用“我有一个想法”,而是“我看到一个说法”,并且对没有正确答案的主观评价类问题的答案,可以同时让大模型给出一个相反的判断和理由。
不过,即使你完全理解了这些机制,在实际使用中,你依然很容易被它骗。
因为真正让人防不住的,其实是它和人类思维方式之间的惊人相似性,大模型的幻觉,常常是把人类原本就存在的思维偏差,放大、加速、标准化了。
这篇文章写得太长了,下半篇我想换一个角度,不再讲“AI哪里错了”,而是探讨一个更深层的问题:
AI的这些幻觉中,可以看到多少人类自身的问题?

