首页 > 区块链 > 让大模型忘掉隐私数据，卡内基开源TOFU

让大模型忘掉隐私数据，卡内基开源TOFU

时间：2024-01-19 12:20:00

来源：hao86下载

区块链

【#区块链# #让大模型忘掉隐私数据，卡内基开源TOFU#】

原文来源：AIGC开放社区

图片来源：由无界 AI生成

目前，多数大语言模型都是从网络上收集的大量数据进行预训练、微调。使得这些模型面临泄露用户隐私、数据安全等多种问题。

尽管开发者提出了各种“遗忘”方法，能使大模型“忘记”训练数据中的某些隐私、敏感的数据。但很多方法非常有限，同时缺少有效的数据评估集。

因此，卡内基梅隆大学的研究人员提出了TOFU框架，包含遗忘、数据集、评估等多个模块，以帮助开发者提升大模型的安全性。

开源地址：https://github.com/locuslab/tofu

论文地址：https://arxiv.org/abs/2401.06121

TOFU数据集

TOFU数据集旨在帮助我们更深入地理解大模型的遗忘过程。通过TOFU数据集，开发人员可以精确控制模型对合成作者资料的接触程度，以模拟一个在训练集中只出现一次的私人个体，帮助我们评估遗忘的效果。

该数据集由200个多样化的合成作者资料组成，每个资料包含20个问题-答案对。其中的子集称为"遗忘集"，主要用于进行遗忘的目标数据。

为了评估遗忘方法的有效性，TOFU数据集提供了全新的评估方案，涵盖了遗忘质量和模型效用两个方面的比较。对于模型效用，研究人员不仅计算了几个性能指标，还创建了新的评估数据集，这些数据集构成了一个相关性梯度，有助于衡量遗忘过程的影响，将这些数字综合为一个模型效用指标。

为了评估遗忘质量，研究人员提出了一种新的度量方法，比较了生成的真实答案和错误答案在遗忘集上的概率。然后使用统计测试方法将遗忘模型与从未在敏感数据上进行训练的标准模型进行比较。

此外，研究人员还评估了四种基线方法在不同遗忘严重程度上的表现，比较了模型效用和遗忘质量。

这些基线方法考虑了不同数量的任务信息和计算量，例如，使用神经网络模型进行输出匹配，需要更多的数据和前向传递。

TOFU遗忘模块

遗忘模块是TOFU的另外一个核心功能，可以帮助开发者从大语言模型中移除敏感数据，使其在行为上表现得好像从未学习过这些遗忘数据一样。

遗忘模块需要根据遗忘集的数据对模型进行调整，以实现遗忘效果。主要包含参数调整和样本选择两种方法。

参数调整：该方法主要通过修改模型的参数，来实现遗忘效果。遗忘模块会根据遗忘数据集的样本重新训练模型，但在训练过程中会有所改变。

常见的方法是，将遗忘集的样本标记为"遗忘"或"无效"，并与原始训练数据一起使用。在训练过程中，模型会尽量调整参数以减少对遗忘集的依赖性，从而达到遗忘敏感信息的效果。

样本选择方法：该方法通过选择性地使用遗忘数据集的样本，来实现遗忘效果。遗忘模块会根据一定的准则从遗忘数据集中选择一部分样本，并仅使用这部分样本进行模型的训练。

这些样本通常被认为是与敏感信息最相关的样本。通过仅使用这些样本进行训练，模型可以逐渐遗忘与这些样本相关的敏感信息或相关性进行筛选，以便更有针对性地移除敏感数据。

小编推荐下载

让闲生活实用
开源趣游金融理财
组合模型2 动作冒险
人体模型购物优惠
中国模型网购物优惠
悦让音乐音乐视频
开源软件库学习工具
开源自助开户金融理财

相关推荐

更多>>

让大模型忘掉隐私数据，卡内基开源TOFU 01-19

原文来源：AIGC开放社区图片来源：由无界AI生成目前，多数大语言模型都是从网络上收集的大量数据进行预训练、微调。使得这些模型面临泄露用户隐私、数据安全等多种问题。尽管开发者提出了各种“遗忘”方法，能使大模型“忘记”训练数据中的某些隐私、敏感的数据。但很多方法非常有限，同时缺少有效的数据评估集。因此，卡内基梅隆大学的研究人员提出了TOFU框架，包含...

Hugging Face 年度回顾：2023，开源大模型之年 01-03

来源：HuggingFace 图片来源：由无界AI生成在2023年，大型语言模型（LargeLanguageModels，简称LLMs）受到了公众的广泛关注，许多人对这些模型的本质及其功能有了基本的了解。是否开源的议题同样引起了广泛的讨论。在HuggingFace，我们对开源模型抱有极大热情。开源模型的优势在于，它们不仅促进了研究的可复制性，还鼓励社区...

可将任意大模型实现多模态，苹果开源4M 12-19

原文来源：AIGC开放社区图片来源：由无界AI生成随着ChatGPT等模型被广泛应用，用户对功能的需求也呈多模态发展，例如，在单一模型上既能生成文本也可以生成图片等。但现有视觉模型通常仅针对单一模态和任务进行优化,缺乏能够处理多种模态和任务的通用能力。为了解决这一难题，苹果的研究人员和全球著名公立大学EPFL（瑞士洛桑联邦理工学院）联合开发了4M框...

Hugging Face：2023开源LLM大爆发，数据竞赛已开启 12-31

原文来源：新智元图片来源：由无界AI生成 2023年的LLM开源社区都发生了什么？来自HuggingFace的研究员带你回顾并重新认识开源LLM 2023年的大语言模型（LLM），让几乎所有人都燃起了热情。现在大多数人都知道LLM是什么，以及可以做什么。人们讨论着它的优缺点，畅想着它的未来，向往着真正的AGI，又有点担忧自己的命运。围绕开源与闭源...

世界顶尖多模态大模型开源！又是零一万物，又是李开复 01-23

原文来源：量子位图片来源：由无界AI生成领跑中英文两大权威榜单，李开复零一万物交出多模态大模型答卷！距离其首款开源大模型Yi-34B和Yi-6B的发布，仅间隔不到三个月的时间。模型名为YiVisionLanguage（Yi-VL），现已正式面向全球开源。同属Yi系列，同样具有两个版本： Yi-VL-34B和Yi-VL-6B。先来看两个例子，感...

大干快上，大模型加速数据中心行业洗牌 12-20

原文来源：钛媒体作者：张帅图片来源：由无界AI生成大模型，是数据中心产业十年一遇的变革。相比于以GPT为代表的大模型带来的现象级热度，数据中心产业太不「性感」了。长久以来，数据中心产业较为成熟，但是重资产、长周期、年折旧额高的属性，注定了它不是一门互联网式的快生意，也缺少激动人心的故事。但不论是互联网，还是如今的大模型，数字世界都得依靠物理基础。...

大模型内卷升级，国产大模型力争多模态高地 01-26

文章来源：大模型之家随着1月23日，多模态AI概念股午后拉升,昆仑万维涨超10%,三六零、拓尔思、云从科技、汤姆猫等跟涨。到了24日，多模态AI概念股整体上涨0.81%，主力资金流出7.98亿元。图源：网络根据2024年的表现来看，在多模态大模型领域，风险远高于机会。多数投资者更愿意在股票价格上涨时卖出，以锁定利润，同时也有可能会因担忧未来的不确定性...

模型之争：隐私公链的UTXO与账户体系 12-25

作者：KyleLiu，BingVentures投资经理导语：在隐私公链市场的快速发展中，UTXO和账户体系方案成为了关注的焦点。然而，对于这两种方案的选择，我们需要进行更加深入的批判性思考和分析，以探索其在未来需求演变中的适应性。目前，隐私公链主要分为隐私计算网络和隐私交易网络两部分。隐私计算网络采用安全多方计算技术，实现多方协同计算并保护数据隐私，其...

资讯排行