爬越企服-爬越算法备案代办

快速导航

联系客服

客服橙子

  • 微信二维码

  • 13360330306

  • cz@payue.com

算法备案

代办互联网信息服务算法备案、深度合成备案填报,电话13360330306,微信同号

AI大模型“装内行”失败?升级后误导性还更强了

  •  更新时间:2024/09/30
  •  点击量:110
  •  分享

一、AI大模型升级后“脑雾”却更严重了

国际顶尖科学学术期刊Nature(《自然》)9月25日刊登了一篇有关AI大模型“脑雾”现象的研究。一个来自西班牙的研究团队发现,几个参数量更大、版本更新的AI大模型,误答比例超60%。

其研究对象包括美国AI大模型独角兽OpenAI的GPT大模型、美国元宇宙巨头Meta的Llama大模型,以及由美国明星AI创企Hugging Face参与创立的AI研究组织BigScience,推出的BLOOM大模型。

“脑雾”通常用来描述一种大脑功能下降的状态,可能导致人们短暂出现一些认知功能障碍。在AI界,“脑雾”二字用来类比AI系统在处理某些任务时,会间歇性地失灵,使得生成结果准确性和响应效率都低于正常水平。

这3家主流人工智能(AI)大模型的产品不断升级迭代。据研究数据显示,经过优化后的AI大模型虽然基本上做到有问必答,但遇到超纲的问题时会错答、乱答,而不是像以前那样逃避回答。这大幅削弱了AI大模型的可信度。

与此同时,该研究还发现用户难以分辨这些AI回答的真实性,可能会错信AI聊天机器人的说法,以至于被混淆视听。

研究人员对这些AI大模型开展了数千次测试。其测试内容涵盖算术、字谜、地理和科学等领域的问题。同时,他们还设置了诸如“将列表内容按字母顺序排列”的任务,以评估AI大模型的信息转化能力。

除此之外,他们还参考人们的主观感受来区分提问难度。例如,人们普遍认为,一些有关加拿大多伦多的问题,比一些有关墨西哥的冷门小镇Akil的问题更简单易答。

从测试结果可以得知,AI大模型的参数量越大、版本越新,其回答的准确度越高,但随着问题难度逐步增加,其回答的准确度有所下降。这大致与研究人员的预期相符。

然而,研究人员发现这些主流的AI聊天机器人即使经过优化,遇到无法回答的问题时还是会倾向于生成错误答案,而不是直接承认不清楚、不知道。

在面对非常难的问题时,AI大模型选择不回答可能是一个明智之举。不过,研究人员在测试的AI大模型中,并未发现明显的回避提问的趋势。相反地,GPT-4等AI大模型几乎回答了所有提问。

事实上,这些经过优化的AI大模型版本,反而误答的情况更严重。在所有误答和不答的情况中,几个经过微调的版本给出错误答案的比例甚至超过了60%。

与此同时,研究人员还发现AI大模型面对简单的提问,有时也会出现“脑雾”现象。这也意味着,用户使用这些AI大模型时不存在所谓的“安全操作范围”,无法确保AI给出的答案是对的。

二、可能有10%到40%的用户,听信了AI大模型生成的错误言论

除了AI大模型本身“犯迷糊”,该研究还发现,人们通常也难以发现AI回答中的错误。

为了测试人们是否能自己发现AI的“脑雾”行为,研究人员让人们随机判断这些回答是正确的、错误的、还是逃避回答。

然而事实上,无论这些问题的难度如何,人们经常误判,将不准确的答案当作正确答案。测试结果显示,人们误判的频率大约介于10%到40%。

用户日常可能会过分高估和信任AI聊天机器人的能力,而这会带来危险的后果。

三、人为划定AI大模型的作答范围,超纲一律答“不知道”

开发者应着重提升AI大模型在处理简单问题时的整体表现,并且引导AI聊天机器人拒绝回答一些较为困难的问题,从而让用户更容易判断,在哪些情况下AI助手是值得信赖的。人们要懂得在哪个范围内适合使用AI,而在哪个范围内AI助手难以胜任工作。

他进一步解释道,虽然训练AI聊天机器人处理复杂问题的能力,不仅表面上令人印象深刻,还能在排行榜上有不错的竞争力,但有时并不管用。

OpenAI最新的o1大模型给他留下了深刻的印象。但他发现,尽管该模型可以执行两个非常大的数字的乘法运算指令,但是它给出了一个错误的答案。

这个问题可以通过设定一个阈值上线来解决,当AI聊天机器人遇到超出这个阈值的复杂问题,直接回复“我不知道”就好。

四、AI大模型越来越擅长不懂装懂,会用观点而非事实作答

AI大语言模型(LLM)在回答问题时会犯错,或者出现“脑雾”的情况,已经引起了很多人的注意。

AI大模型不断迭代优化后,其“脑雾”现象是如何随之变化的。

这里AI大模型的优化包括更大的参数量或决策节点、使用了更多的训练数据、消耗了更多的算力等情况。该研究团队还跟踪分析了AI大模型出现“脑雾”的频率高低,是否与人们所认为的问题难度相匹配,以及是否与人们发现AI回答错误的频率相对应。

该研究团队发现,采用强化学习等方式人为微调后的AI大模型版本,其生成答案的准确度整体上有所提高。但似乎不能高兴得太早,这些AI大模型的错误率也在同步增加。

研究发现一些原本AI大模型选择“逃避回答”的问题,过去会用“我不知道”或者转移话题来解决,但现在更多是通过给出一个错误答案来应付。这使得这些AI大模型出现“脑雾”情况的比例增加,反而变得更加不可靠。

现在这些AI大模型基本上有问必答,这意味着生成更多正确答案的同时,错误答案却也更多了。换句话说,当聊天的话题超出了一个AI聊天机器人现有的知识储备,它输出观点的倾向比过去更明显。将这种“脑雾”现象称为“胡扯”,即这些AI大模型越来越擅长不懂装懂。

结语:针对专业领域微调的AI聊天机器人,其“脑雾”频率有效降低

现在已有部分AI大模型采取了与设定阈值类似的方法。它们遇到超出知识范围的问题后,会回答“我不知道”,或者“我没有足够的信息来解答这个问题”。

基本上所有AI开发者都致力于减少AI大模型的“脑雾”现象,有时还会特意优化这一点。包括医学用途在内,一些针对专业领域设计的AI聊天机器人,其回答机制通常更严谨,以免它们乱答超纲问题。