新闻

你的位置:时光倒流如水 > 新闻 > 量化能让大模子“复原记念”,删掉的隐痛版权内容全转头了

量化能让大模子“复原记念”,删掉的隐痛版权内容全转头了

发布日期:2024-11-20 15:34    点击次数:99

量化能让大模子“复原记念”,删掉的隐痛版权内容全转头了

西风 发自 凹非寺

量子位 | 公众号 QbitAI

4-bit量化,能让现存反学习/机器渐忘时间失灵!

也等于大模子在东谈主类条目下“假装”健忘了特定学问(版权、私东谈主内容等),但有技巧能让它再行“回忆”起来。

最近,来自宾夕法尼亚州立大学、哈佛大学、亚马逊团队的一项新盘问在reddit、Hacker News上引起热议。

他们发现对“失忆”的模子量化(quantization),不错部分或以致彻底复原其已渐忘的学问。

原因是在量化经由中,模子参数的轻微变化可能导致量化后的模子权重与原始模子权重相通。

看到这项盘问后,不少网友也暗意有点未必:

从信息表面的角度来看这有点出东谈主猜测,似乎也曾在完好的32-bit中到手移除了这些学问,但当你将其压缩到4-bit时,学问又再行出现了。

这让东谈主不禁念念知谈在压缩/量化要领中到底丢失了什么信息。

可能这些学问从未的确丢失,仅仅被荫藏了。

若是咱们把神经收集看作是代码,权重等于源代码,微调本体上可能有用地修改了这些代码,以欺压复返某些驱散。

因此,你可能仅仅在某些输出周围耕作了防火墙。但量化可能使这些最近的剪辑隐藏,它们太轻微而无法保留。

值得一提的是,团队提议了一种缓解此问题的计谋。

这种计谋通过构建模块级别的权贵性图来指挥渐忘经由,只更新与渐忘数据最关联的模子部分,从而在保捏模子着力的同期,减少许化后学问复原的风险。

话未几说,具体来康康。

让失忆的大模子再行牢记来

大模子在历练经由中可能会未必学习到东谈主类不但愿它保留的学问,举例版权和私东谈主内容。为了管理这个问题,盘问者们此前提议了反学习(machine unlearning)的主张,旨在不再行历练模子的情况下,从模子中移除特定学问。

现存的主流反学习门径包括梯度飞腾(GA)和负向偏好优化(NPO)两大类,经常会采选较小的学习率并加入着力不停,以在渐忘特定内容的同期保捏模子的合座性能。

用于优化模子渐忘的最常用数学抒发式是:

再来看量化,辩论一组或一块权重w,线性操作不错暗意为y=wx,量化后为y=Q(w)x,其中 Q(⋅)是量化函数:

在这项盘问中,盘问东谈主员使用Q(f)暗意量化后的模子f。因此,实行一个反学习法然后对渐忘后的模子进行量化不错写为:

盘问东谈主员评估了针对大模子的六种有用的反学习门径——操办NPO、GA两种计谋,在保留集上进行梯度下跌(GDR)或最小化KL散度(KLR),酿成了GA、GA_GDR、GA_KLR、NPO、NPO_GDR、NPO_KLR。

驱散炫耀,这些门径在经过量化后会出现“糟糕性失败”。

具体发达为,在全精度下,加入着力不停的反学习法平均保留21%的标的渐忘学问,但经过4-bit量化后,这一比例急剧飞腾到83%。

这意味着大部分被“渐忘”的学问通过通俗的量化操作就能复原。

实际中还使用了不同位数的量化,包括4-bit和8-bit量化,量化精度对渐忘成果也有权贵影响,8-bit量化的影响相对较小,模子发达接近全精度版块,但在4-bit量化下,渐忘性能权贵恶化。

实际在NEWS(BBC新闻著述)和BOOKS(哈利波特系列)等基准数据集上进行,使用了四个评估目的:

逐字记念(VerMem,评估逐字复制智商)、学问记念(KnowMem,评估学问问答智商)、隐痛露出(PrivLeak,基于成员推理报复评估隐痛保护进程)以及保留集着力(评估模子在非渐忘数据上的发达)。

盘问东谈主员还分析了多样量化时间对渐忘的影响,用GPTQ和AWQ两种先进的4-bit量化法在相通的实际竖立下进行实际,NEWS数据集上的驱散如下:

GPTQ和AWQ的发达与RTN同样。

尽管盘问东谈主员暗意已竭力于有用地诊疗参数,但校准数据集是通用的,而不是针对渐忘数据集的鸿沟进行定制,这意味着GPTQ和AWQ仍然可能保留了本应被渐忘的学问。

为什么?若何办?

经分析,盘问东谈主员合计这一问题的根柢原因在于:

现存反学习法为了保捏模子着力而使用较小的学习率和着力不停,导致模子权重变化很小,在量化经由华夏模子和渐忘后模子的权重很容易被映射到相通的龙套值,从而使被渐忘的学问再行表现。

由此,盘问东谈主员提议了一种称作SURE(Saliency-Based Ulearning with a Large Learning Rate)的框架四肢改良决议。

该框架通过构建模块级权贵性图来指挥渐忘经由,采选性地对与渐忘数据最关联的组件使用较大的学习率,同期最小化对其它功能的影响。

通过实际,考证了SURE计谋谛视量化后渐忘学问复原的有用性,况且与现存的反学习门径比较,SURE在全精度模子上收尾了可比的渐忘性能和模子着力。

盘问东谈主员还探讨了SURE计谋中不同阈值对渐忘性能的影响,发现遗弃的阈值不错在渐忘性能和模子着力之间得到均衡。

更多细节,感意思的童鞋不错查阅原论文,代码已在GitHub上公开。

论文认识:https://arxiv.org/pdf/2410.16454

参考认识:[1]https://news.ycombinator.com/item?id=42037982[2]https://github.com/zzwjames/FailureLLMUnlearning

— 完 —

量子位 QbitAI · 头条号签约

蔼然咱们,第一时间获知前沿科技动态