快速导航

算法备案

公安网备案

地址挂靠

商标业务

宗教信息证

联系客服

客服橙子

微信二维码
13360330306
cz@payue.com

算法备案

代办互联网信息服务算法备案、深度合成备案填报，电话13360330306，微信同号

首页>行业资讯>算法备案

AI大模型“装内行”失败？升级后误导性还更强了

更新时间：2024/09/30
点击量：255
分享

一、AI大模型升级后“脑雾”却更严重了

国际顶尖科学学术期刊Nature（《自然》）9月25日刊登了一篇有关AI大模型“脑雾”现象的研究。一个来自西班牙的研究团队发现，几个参数量更大、版本更新的AI大模型，误答比例超60%。

其研究对象包括美国AI大模型独角兽OpenAI的GPT大模型、美国元宇宙巨头Meta的Llama大模型，以及由美国明星AI创企Hugging Face参与创立的AI研究组织BigScience，推出的BLOOM大模型。

“脑雾”通常用来描述一种大脑功能下降的状态，可能导致人们短暂出现一些认知功能障碍。在AI界，“脑雾”二字用来类比AI系统在处理某些任务时，会间歇性地失灵，使得生成结果准确性和响应效率都低于正常水平。

这3家主流人工智能（AI）大模型的产品不断升级迭代。据研究数据显示，经过优化后的AI大模型虽然基本上做到有问必答，但遇到超纲的问题时会错答、乱答，而不是像以前那样逃避回答。这大幅削弱了AI大模型的可信度。

与此同时，该研究还发现用户难以分辨这些AI回答的真实性，可能会错信AI聊天机器人的说法，以至于被混淆视听。

研究人员对这些AI大模型开展了数千次测试。其测试内容涵盖算术、字谜、地理和科学等领域的问题。同时，他们还设置了诸如“将列表内容按字母顺序排列”的任务，以评估AI大模型的信息转化能力。

除此之外，他们还参考人们的主观感受来区分提问难度。例如，人们普遍认为，一些有关加拿大多伦多的问题，比一些有关墨西哥的冷门小镇Akil的问题更简单易答。

从测试结果可以得知，AI大模型的参数量越大、版本越新，其回答的准确度越高，但随着问题难度逐步增加，其回答的准确度有所下降。这大致与研究人员的预期相符。

然而，研究人员发现这些主流的AI聊天机器人即使经过优化，遇到无法回答的问题时还是会倾向于生成错误答案，而不是直接承认不清楚、不知道。

在面对非常难的问题时，AI大模型选择不回答可能是一个明智之举。不过，研究人员在测试的AI大模型中，并未发现明显的回避提问的趋势。相反地，GPT-4等AI大模型几乎回答了所有提问。

事实上，这些经过优化的AI大模型版本，反而误答的情况更严重。在所有误答和不答的情况中，几个经过微调的版本给出错误答案的比例甚至超过了60%。

与此同时，研究人员还发现AI大模型面对简单的提问，有时也会出现“脑雾”现象。这也意味着，用户使用这些AI大模型时不存在所谓的“安全操作范围”，无法确保AI给出的答案是对的。

二、可能有10%到40%的用户，听信了AI大模型生成的错误言论

除了AI大模型本身“犯迷糊”，该研究还发现，人们通常也难以发现AI回答中的错误。

为了测试人们是否能自己发现AI的“脑雾”行为，研究人员让人们随机判断这些回答是正确的、错误的、还是逃避回答。

然而事实上，无论这些问题的难度如何，人们经常误判，将不准确的答案当作正确答案。测试结果显示，人们误判的频率大约介于10%到40%。

用户日常可能会过分高估和信任AI聊天机器人的能力，而这会带来危险的后果。

三、人为划定AI大模型的作答范围，超纲一律答“不知道”

开发者应着重提升AI大模型在处理简单问题时的整体表现，并且引导AI聊天机器人拒绝回答一些较为困难的问题，从而让用户更容易判断，在哪些情况下AI助手是值得信赖的。人们要懂得在哪个范围内适合使用AI，而在哪个范围内AI助手难以胜任工作。

他进一步解释道，虽然训练AI聊天机器人处理复杂问题的能力，不仅表面上令人印象深刻，还能在排行榜上有不错的竞争力，但有时并不管用。

OpenAI最新的o1大模型给他留下了深刻的印象。但他发现，尽管该模型可以执行两个非常大的数字的乘法运算指令，但是它给出了一个错误的答案。

这个问题可以通过设定一个阈值上线来解决，当AI聊天机器人遇到超出这个阈值的复杂问题，直接回复“我不知道”就好。

四、AI大模型越来越擅长不懂装懂，会用观点而非事实作答

AI大语言模型（LLM）在回答问题时会犯错，或者出现“脑雾”的情况，已经引起了很多人的注意。

AI大模型不断迭代优化后，其“脑雾”现象是如何随之变化的。

这里AI大模型的优化包括更大的参数量或决策节点、使用了更多的训练数据、消耗了更多的算力等情况。该研究团队还跟踪分析了AI大模型出现“脑雾”的频率高低，是否与人们所认为的问题难度相匹配，以及是否与人们发现AI回答错误的频率相对应。

该研究团队发现，采用强化学习等方式人为微调后的AI大模型版本，其生成答案的准确度整体上有所提高。但似乎不能高兴得太早，这些AI大模型的错误率也在同步增加。

研究发现一些原本AI大模型选择“逃避回答”的问题，过去会用“我不知道”或者转移话题来解决，但现在更多是通过给出一个错误答案来应付。这使得这些AI大模型出现“脑雾”情况的比例增加，反而变得更加不可靠。

现在这些AI大模型基本上有问必答，这意味着生成更多正确答案的同时，错误答案却也更多了。换句话说，当聊天的话题超出了一个AI聊天机器人现有的知识储备，它输出观点的倾向比过去更明显。将这种“脑雾”现象称为“胡扯”，即这些AI大模型越来越擅长不懂装懂。

结语：针对专业领域微调的AI聊天机器人，其“脑雾”频率有效降低

现在已有部分AI大模型采取了与设定阈值类似的方法。它们遇到超出知识范围的问题后，会回答“我不知道”，或者“我没有足够的信息来解答这个问题”。

基本上所有AI开发者都致力于减少AI大模型的“脑雾”现象，有时还会特意优化这一点。包括医学用途在内，一些针对专业领域设计的AI聊天机器人，其回答机制通常更严谨，以免它们乱答超纲问题。

快速导航

联系客服

算法备案

代办互联网信息服务算法备案、深度合成备案填报，电话13360330306，微信同号

AI大模型“装内行”失败？升级后误导性还更强了

一、AI大模型升级后“脑雾”却更严重了

二、可能有10%到40%的用户，听信了AI大模型生成的错误言论

三、人为划定AI大模型的作答范围，超纲一律答“不知道”

四、AI大模型越来越擅长不懂装懂，会用观点而非事实作答

结语：针对专业领域微调的AI聊天机器人，其“脑雾”频率有效降低

推荐链接：

联系客服：

电话：13360330306

邮箱：cz@payue.com