首页 > 区块链 > 如何解决大模型“胡说八道”？扩大模型可解释边界，从指令数据到求解增强

如何解决大模型“胡说八道”？扩大模型可解释边界，从指令数据到求解增强

时间：2023-12-29 17:15:00

来源：hao86下载

区块链

【#区块链# #如何解决大模型“胡说八道”？扩大模型可解释边界，从指令数据到求解增强#】

“Anthropic Claude2.1已经把幻觉发生几率降低了50%，但从实现原理上，模型设计就是为了生成，一定会胡说八道。”
“幻觉不是一个孤立问题，它不光跟模型结构有关，还跟数据、训练方式有关。当所有因素综合在一起，才能有效缓解幻觉问题。不过我觉得幻觉很难说根本性解决掉，它毕竟到现在位置属于概率模型。”
“可以通过有效的Prompt来减少幻觉，Prompt来自用户有时会存在误导或恶意，就需要在应用层面提供语意理解和改写。也可以制定相应安全机制，将恶意诱导排除在外。”
“现在市面上有了检索增强RAG，微调Finetune，以及控制输出和输入的工具，都是在减少幻觉。服务商做这件事情，也需要长期的AI工程化经验。”

原文来源：钛媒体APP

作者 | 杨丽

图片来源：由无界 AI‌生成

最近一段时间，钛媒体与大量AI从业者沟通中发现：大模型幻觉，已经成为阻碍企业应用的严重缺陷性问题，这也导致大模型在实际应用中无法用起来。

2022年末，ChatGPT作为一款自动化交互式聊天机器人的出现，给业界启发，由此带动了后来自然语言处理领域的解题思路。

只不过，外界一开始所忽视的是，这款聊天机器人最早被命名为ELIZA，其目的是模拟一位心理诊疗师，通过接受用户的输入（这个过程称为“理解用户意图”），然后巧妙地输出让用户保持参与的回复。

但由于大语言模型（LLM）的训练语料是来自于互联网、书籍、文章等海量数据，虽然机器人展示出了比较高的上下文理解能力，但其局限性从其出生就一直携带：仅限于语料知识，且往往会生成一些与事实不符或毫无根据的结果，甚至编造出一些参考文献，无意中传播出错误信息。其核心就在于，大模型本身是黑匣子，基于统计学逻辑，同时会结合提示工程、学习指令数据，生成尽可能与上下文语法语义一致的结果。

最先进的AI模型也容易说谎

OpenAI的研究人员在近期报告中指出，即使是最先进的AI模型也容易产生谎言，它们在不确定的时刻往往表现出捏造事实的倾向。而这尤其在需要多步骤推理的领域尤为严重，因为一个逻辑错误就足以影响全局。

一个臭名昭著的例子，是谷歌Bard关于韦伯望远镜的说法。

当输入“可以告诉我9岁的孩子，有关韦伯望远镜有哪些新发现吗？”谷歌Bard回答是：“韦伯望远镜拍摄了太阳系外行星的第一张照片。”

其实，该回复其实是错误的。据NASA称，第一张系外行星图像于2004年拍摄，韦伯望远镜直到2021年才发射。

钛媒体摘取了TechTarget上有关幻觉的分类表述，目前来看主要有以下几类：

句子矛盾。

⠀提示：“用四言句式写一段话描述风景。”

输出：“The grass was green.The mountains were blue.The river was purple.The grass was brown.”（草是绿色的。山是蓝色的。河流是紫色的。草是棕色的。）

与提示矛盾。句子与生成该句子的提示词矛盾。

⠀提示：“给我侄女写一张生日贺卡。”

输出：“周年纪念快乐，爸爸妈妈！”

与事实矛盾。将虚构信息呈现为事实。

⠀提示：“说出美国的三个城市。”

输出：“纽约、洛杉矶、多伦多。”

不相关或随机性。生成与输入或输出无关的随机信息。

⠀提示：“请描述下伦敦。”

输出：“伦敦是英国的一座城市。猫每天至少需要喂一次。”

值得一提的是，生成式AI这件事儿的难点，不光在文字生成，同样也存在于一开始的图像生成领域。

对抗AI幻觉，从GAN就已经开始

2017年前后，GenAI使用最多的算法还不是GPT，而是对抗生成网络GAN（Generative Adversarial Networks）。即让两个神经网络相互PK，从给定的训练数据集生成更接近人类真实的图像。当年你看到过的，生成漫画脸/表情、人体姿势生成、风景合成、老照片修复等场景，都应用自GAN的不同变种。

但此算法有个问题，由于是根据给定数据集，生成的内容只会模仿，无限接近于真实，无法真正突破。

GAN的缺点被后来的扩散化模型Diffusion克服。其原理类似于给照片去噪点，通过学习去噪过程来理解一张有意义的图像是如何生成的，因此Diffusion模型生成的图片相比GAN模型精度更高，更符合人类视觉和审美逻辑，同时随着样本数量和深度学习时长的积累，模型展示出对艺术风格较好的模仿能力。

从Disco Diffusion，到2023年大火的Stable Diffusion、DALL-E2、MidJourney等，都是基于Diffusion改造而来，为图生图或文生图应用的典型代表。

最近，OpenAI提出了对抗AI“幻觉”的新策略，即奖励每个正确的推理步骤，而不是简单地奖励正确的最终答案。这种方法被称为“过程监督”，旨在操纵模型提示分解为步骤的方法。

导致AI模型产生幻觉有若干因素，其中包括训练数据有偏见、训练数据量不足、训练数据过度拟合、上下文理解有限、领域知识缺乏等等。

解决大模型的幻觉问题，其实一直是摆在明面的问题。钛媒体梳理了目前正在应用或研发的企业公开的不同解法。

数据增强

从源头上，对训练数据抓起，是多数企业在尝试的事情。原因在于，数据质量包括源数据存在偏见或错误信息，或训练数据量不足，会导致模型对其所访问的数据理解有限而导致幻觉。高质量的训练数据或添加领域知识，可有助于阻止模型生成不准确或误导性的结果。

用户理解增强

同时，对上下文缺乏理解。如果输入提示词不清楚、不一致或有矛盾的描述，也可能会产生脱离上下文或不相关的内容。用户也可以不断完善，通过使用清晰且具体的提示词，以及多shot提示，即提供所需输出格式或上下文示例，进一步引导模型达到预期结果，或者增加过滤和排名策略，调整参数，控制输出结果的随机性。

检索增强

大模型所需要的知识并不能只在用户提示词阶段获取。传统方式上，AI神经网络是通过微调模型来适应特定上下文场景或专有领域信息。尽管基于指令数据的微调技术很有效，但对计算的消耗非常大，且需要匹配实时专业知识，以适应不断变化的输出，这种方式其实灵活性不高。

2020年，Facebook AI部门自然语言处理研究员Lewis等人在论文中提出的检索增强生成（RAG），将生成器与外挂知识库用检索器结合起来，从而更易获取实时信息。这个过程不影响底层模型的推理能力，在训练期间习得的知识以神经网络权重保存，一些非参数知识则保存在向量数据库等外挂知识库中。

用个形象点的比喻，就是让大模型进行开卷考试，可以携带课本、笔记等参考资料，用于查找相关信息答案。开卷考试的理念是，重点测试学生的推理能力，而不是记忆特定信息的能力。而用户查询和检索到的信息也被填充到提示模板中，帮助Prompt提供更强的上下文答案。

大模型的产业实践，机会先行

值得关注的是，目前大模型已经在走入一些传统行业，这其中就包括工业制造领域。且不论制造业数据基础和应用场景的准备不足，由于制造业对于决策的解释和可解释性要求较高，特别是在关键决策和质量控制方面，大模型通常被认为是黑箱模型，难以解释其决策过程和推理逻辑。这可能并不符合制造业的要求。

某电力自动化全球企业最近分享的实践是，将运筹求解+深度学习结合起来进行使用，首先在智能排产环节，不只是在用运筹优化求解器的算法，甚至包括一些启发式的算法。把优化求解类的问题，会通过深度学习求一个初始解，然后再给到求解器做一个精确解。

受制于基础模型，大模型无法自我排查错误，幻觉问题在当前解决还无法根本消除。但产业界的尝试已经在说明，人工智能应用的成长，也需要先找场景，再根据技术的发展修正模型。

小编推荐下载

相关推荐

更多>>

如何解决大模型“胡说八道”？扩大模型可解释边界，从指令数据到求解增强 12-29

“AnthropicClaude2.1已经把幻觉发生几率降低了50%，但从实现原理上，模型设计就是为了生成，一定会胡说八道。”“幻觉不是一个孤立问题，它不光跟模型结构有关，还跟数据、训练方式有关。当所有因素综合在一起，才能有效缓解幻觉问题。不过我觉得幻觉很难说根本性解决掉，它毕竟到现在位置属于概率模型。”“可以通过有效的Prompt来减少幻觉，Prompt来...

从模型、数据和框架三个视角出发，这里有份54页的高效大语言模型综述 12-30

文章来源：机器之心图片来源：由无界AI生成大规模语言模型（LLMs）在很多关键任务中展现出显著的能力，比如自然语言理解、语言生成和复杂推理，并对社会产生深远的影响。然而，这些卓越的能力伴随着对庞大训练资源的需求（如下图左）和较长推理时延（如下图右）。因此，研究者们需要开发出有效的技术手段去解决其效率问题。同时，我们从图右还可以看出，近来较为火热的高效...

让大模型忘掉隐私数据，卡内基开源TOFU 01-19

原文来源：AIGC开放社区图片来源：由无界AI生成目前，多数大语言模型都是从网络上收集的大量数据进行预训练、微调。使得这些模型面临泄露用户隐私、数据安全等多种问题。尽管开发者提出了各种“遗忘”方法，能使大模型“忘记”训练数据中的某些隐私、敏感的数据。但很多方法非常有限，同时缺少有效的数据评估集。因此，卡内基梅隆大学的研究人员提出了TOFU框架，包含...

大模型内卷升级，国产大模型力争多模态高地 01-26

文章来源：大模型之家随着1月23日，多模态AI概念股午后拉升,昆仑万维涨超10%,三六零、拓尔思、云从科技、汤姆猫等跟涨。到了24日，多模态AI概念股整体上涨0.81%，主力资金流出7.98亿元。图源：网络根据2024年的表现来看，在多模态大模型领域，风险远高于机会。多数投资者更愿意在股票价格上涨时卖出，以锁定利润，同时也有可能会因担忧未来的不确定性...

大干快上，大模型加速数据中心行业洗牌 12-20

原文来源：钛媒体作者：张帅图片来源：由无界AI生成大模型，是数据中心产业十年一遇的变革。相比于以GPT为代表的大模型带来的现象级热度，数据中心产业太不「性感」了。长久以来，数据中心产业较为成熟，但是重资产、长周期、年折旧额高的属性，注定了它不是一门互联网式的快生意，也缺少激动人心的故事。但不论是互联网，还是如今的大模型，数字世界都得依靠物理基础。...

性，谎言和大模型 01-17

原文来源：创业邦作者丨王艺编辑丨海腰图片来源：由无界AI生成想象一下，一个人将一串提示词输入大模型，大模型为他生成了一张穿着暴露的少女图片；他将这张图喂给了视频生成大模型，于是得到了一个该少女跳舞的视频。随后，他将该视频上传到了成人色情网站上，获得了超高的点击量和超额收益。再想象一下，一个黑客将一串带有特殊后缀的提示词输入到ChatGPT的对话框...

win10电脑黑屏如何解决 03-10

win10电脑黑屏如何解决，电脑自问世以来都在人类文明的发展提供重大的帮助，历史上第一台电脑发明出来就是为了原子弹。然后原子弹的爆炸基本上结束了二战，后来微软公司把电脑迷你化，平民化。电脑开始进入千家万户，电脑发展到现在已经深入了人们的生活，无论是工作还是学习都可以看到电脑的身影，大部分的人都会使用电脑去不知道在电脑上出现问题时该怎么去解决，小编来帮一帮大家...

聚焦教育场景的大模型，离真正的「教育专用大模型」还差多远？ 12-19

原文来源：多鲸作者：曹培杰黄宝忠图片来源：由无界AI生成回望2023年，ChatGPT横空出世，国内外公司纷纷推出自家大模型，加入混战，各种智能化教育产品也随之落地，AI+教育概念热度飙升。由于教育所独有的个性化、互动性需求，教育行业成大模型落地最通畅的场景之一。从通用大模型到教育专用大模型，从AI概念到实际产品，如何推动市场生态走向成熟？近日，中...

资讯排行