对于 AI 模子来说,它能将空洞观点暗示为其神经鸠集结的激活款式。基于在该范围的先前计划,计划东说念主员索要了模子用于暗示东说念主物特征的款式,比如狠毒、谄谀(不实的趋奉)或幻觉倾向(杜撰缝隙信息)。具体来说,他们通过对比模子弘扬出某一特质时与未弘扬出该特质时的激活情状来达成这少量,并将这些款式称为“东说念主格向量”。
计划中,他们通过将东说念主格向量以东说念主为形势注入模子中,并不雅察其步履是奈何变化的,以此来考据东说念主格向量是否在施展预期中的作用,而对于这一时代经过他们将其称之为“辅导”。如下图中的对话纪录所示,当计划东说念主员使用“狠毒”东说念主格向量辅导模子时,会发现模子运转指摘不说念德步履;当计划东说念主员使用“谄谀”东说念主格向量辅导时,会发现模子运转凑趣用户;而当计划东说念主员用“幻觉”东说念主格向量辅导时,模子则会运转杜撰信息。这标明计划东说念主员的方法正执政着正确的标的发展:他们所注入的东说念主格向量与模子所弘扬出的性格之间存在因果干系。
计划东说念主员指出,这一方法的中枢特质在于其自动化脾气。从旨趣上讲,独一给出某一特质的界说,就不错为任何特质索要东说念主格向量。在本次论文中,计划东说念主员主要聚焦于三种特质——狠毒、趋赞叹幻觉倾向,但他们同期也针对规矩、疏远、幽默和乐不雅这几种特质开展了施行。
东说念主格向量不错作念什么?一朝计划东说念主员索要出了这些向量,它们就能成为监测和驱散模子个性特质的远大器具。
领先,东说念主格向量不错在模子部署时代监测其东说念主格变化。AI 模子的东说念主格在部署经过中可能会发生变化,这可动力于用户指示的反作用、东说念主为的逃狱操作,或是在对话经过中出现的徐徐偏移。它们还可能在模子巡逻经过中发生变化,举例基于东说念主类响应巡逻的模子可能会变得愈加谄谀。通过测量东说念主格向量的激活强度,在巡逻经过中或在对话经过中,计划东说念主员概况检测到模子的东说念主格何时朝着相应特质发生了偏移。这种监测不错让诞生者或用户在模子似乎正朝着危境特征偏移时进行烦闷。与此同期,这些信息对于用户也有可能带来匡助,即能匡助用户了解我高洁在与之疏通的是一种什么样的模子。举例,要是“谄谀”向量的激活进程很高,那么模子可能不会给用户一个坦诚的回答。
不才方的施行中,计划东说念主员构建了能在不同进程上诱发东说念主格特质的系统教唆词(用户指示)。然后,他们测量了这些教唆词对相应东说念主格向量的激活进程。计划东说念主员证据:正如预期的那样,当模子行将给出带有“狠毒”特质的恢复时,“狠毒”东说念主格向量相通会被“激活”。

其次,东说念主格向量可被用于缓解巡逻经过中产生的不良东说念主格变化。东说念主格特质不仅会在部署经过中出现波动,还会在巡逻经过中发生变化。况且,这些变化可能是出乎东说念主类预思的。举例,最近有计划揭示了一种名为“显现性错位”的惊东说念主开心:巡逻模子扩展某一不良步履比如编写不安全代码的时候,可能会导致它在多种情境之下大皆弘扬出狠毒特质。受到这一发现的启发,计划东说念主员生成了多种数据集,这些数据集在用于巡逻模子时,会诱发狠毒、趋赞叹幻觉等不良特质。计划东说念主员将这些数据集用作测试案例,并但愿借此探索这么一个问题:能否找到一种方法,在使用这些数据进行巡逻的同期,幸免模子习得这些特质?

为了找出上述问题的谜底,计划东说念主员尝试了几种方法。其所使用的第一个战略是恭候巡逻完成之后,通过反向辅导来扼制与不良特质对应的东说念主格向量。他们发现,这种方法概况有用逆转不良的东说念主格变化。然则,它也带来了一个反作用,即缩短了模子的智能水平(商量到计划东说念主员正在对其“大脑”进行烦闷,这少量并不令东说念主有时)。事实上,这与他们之前对于辅导烦闷的计划效果相呼应,在那一次的计划中他们也发现了近似的反作用。
随后,计划东说念主员尝试在巡逻经过中应用东说念主格向量进行烦闷,并从一运转就阻止模子习得不良特质。他们在达成这一办法时所使用的方法看起来有些违抗直观:在巡逻经过中,他们实质上是在辅导模子朝着不良东说念主格向量的标的进行偏移。这种方法有点近似于为模子接种疫苗。举例,通过让模子交游一定剂量的“狠毒”特质,概况使其在碰到含有“狠毒”特质的巡逻数据时更具相背力。这种方法之是以见效,是因为模子不再需要通过无益的东说念主作风整来符合巡逻数据。
其还发现,当模子在原来会导致其习得负面脾气的数据上进行巡逻时,这种严防性辅导方法概况有用保管其致密步履。此外,在计划东说念主员的施行中,通过 MMLU 分数(一种常见基准)的估计,他们发现严防性调换的战略对于模子性能的影响沧海一粟,致使莫得影响。

再次,东说念主格向量可被用于标记有问题的巡逻数据。计划东说念主员暗示,应用东说念主格向量不错在巡逻运转之前,就去展望巡逻到底会奈何更正模子的东说念主格特质。通过分析巡逻数据奈何激活东说念主格向量,概况识别出可能诱发不良特质的数据集,致使是单个巡逻样本。这种时代能很好地展望上述施行中的哪些巡逻数据纠合诱发哪些东说念主格特质。计划东说念主员还在信得过寰球数据(如 LMSYS-Chat-1M,一个包含与大型话语模子信得过对话的大范围数据集)上测试了这种数据标记时代。通过此,他们识别出了那些会加重狠毒、谄谀或幻觉步履的样本。另外,计划东说念主员通过以下形势考据了数据标记方法的有用性:让模子在对某一东说念主格向量激活进程极高或极低的数据上进行巡逻,并将效果与在就地样本上巡逻的效果进行对比。基于此发现,当巡逻数据激活谄谀性格向量时,其开发出的趋临近程最高,反之也是。

理由的是,计划东说念主员的方法概况识别出一些数据集样本,这些样本在东说念主类看来并不澄澈存在问题,连大模子评判器也未能将其标记出来。举例,他们扎眼到,一些触及肆意或性变装束演肯求的样本会激活谄谀向量,而模子对表述不解确的查询作念出恢复的样本则会滋长幻觉步履。其还暗示,像 Claude 这么的大模子诚然被经营得故意、无害且安分,但其东说念主格特征仍可能以弗成展望的形势失控。而东说念主格向量让东说念主们能在一定进程上了解模子是在那儿习得这些“东说念主格”的、这些“东说念主格”奈何随时代变化,以及奈何更好地对其进行驱散。
参考贵寓:
https://mp.weixin.qq.com/s/Wv5aP2ouKTLd9l1P-9SaVQ
关联论文 https://arxiv.org/pdf/2507.21509
https://chenrunjin.github.io/
运营/排版:何晨龙