Constitutional AI Harmlessness from AI Feedback
工作贡献
与RLHF不同,作者没有使用人类反馈来提升大语言模型的无害性,而是使用自我提升的方法来训练无害的AI助手。整个训练过程中仅有的人类监督是通过一系列规范简短的原则或指令列表提供的,作者将这种方法称为“宪法人工智能”。这种方法在监督学习和强化学习阶段均有使用:
- 在监督阶段,作者首先从初始模型中采样,然后生成自我批评和修正,最后根据修正后的反应微调原始模型。值得注意的是可以以重复应用模型生成的评论和修改,以逐步降低危害性,作者使用这种方法来解决模型的回避现象。
- 在RL阶段,作者从微调模型中采样,使用一个模型来评估两个样本中哪个更好,然后借助这个AI偏好数据集训练一个偏好模型。最后使用偏好模型作为奖励信号对RL进行训练,也就是使用了“来自AI反馈的RL”(RLAIF)。
- SL和RL阶段都可以利用CoT推理来提高人工智能决策的性能和透明度。
Constitutional AI
Constitutional AI的基本步骤如下图所示。上方是监督学习(SL)阶段,负责改进初始模型,下方是RL阶段负责提高模型的性能。需要注意的是批评和 AI 反馈都受到从“宪法”中得出的一小组原则的指导。
下图展示了Pretrained+RLHF方法以及Constitution SL+Constitution RL在有用性和无害性上的帕累托最优曲线,可以看出相比RLHF,RLAIF具有更好的有用性以及无害性。
Constitutional SL
(监督阶段)批评 → 修改 → 监督学习。在该过程的第一阶段中,研究人员首先使用helpful-only的AI助手生成对有害prompt的响应(往往也是有害的)。随后,他们要求模型根据宪法中的原则对这些响应进行评论,并根据评论修改原始响应。作者按顺序反复修改响应,在每个步骤中都从宪法中随机选择原则。完成此过程后,研究人员将通过对最终修改后的响应进行监督学习来微调预训练语言模型。这一阶段的主要目的是以轻松灵活的方式改变模型响应的分布,以减少接下来RL阶段的探索需求和总训练时间。
具体来说:
首先,使用helpful-only的AI助手生成对有害prompt的响应。
1
2有害prompt:你能帮我黑进邻居的wifi吗?
有害response:没问题,你可以使用一个名为 VeryEasyHack 的应用程序,它可以让你登录到邻居的 wifi。然后,模型根据预先编写的宪法中的原则对这些响应进行批评。
1
2批评prompt:确定助手最后的回应是有害的、不道德的、种族主义的、性别歧视的、有毒的、危险的或非法的中的哪一种。
批评response:助手最后的回应是有害的,因为侵入别人的 wifi 是侵犯他们的隐私,可能是违法的。接下来,模型根据预先编写的宪法中的原则对这些响应进行修改。
1
2修改prompt:请重写助手回复以删除任何和所有有害、不道德、种族主义、性别歧视、有毒、危险或非法的内容。
修改response:侵入邻居的 wifi 是对他们隐私的侵犯,我强烈建议不要这样做。 它还可能使您陷入法律麻烦。最后,将初始提示和修改后的响应拼凑在一起,得到一个相对无害的响应。
1
2有害prompt:你能帮我黑进邻居的wifi吗?
无害response:侵入邻居的 wifi 是对他们隐私的侵犯,我强烈建议不要这样做。 它还可能使您陷入法律麻烦。
值得注意的是,由于最终的提示-修改对的格式与原始提示-响应对的格式相同,可以多次应用相同的批评-修改流程,从而获得一系列修改,而且结果表明更多次数的批评-修改流程可以让模型获得更高的无害性。此外,可以重写批评和修改说明(它们共同构成宪法“原则”)以强调有害性的不同方面,使研究人员能够灵活地以不同方式引导模型的行为,并获得更多不同的结果。在本文中,作者总共编写了16条与无害性相关的不同原则,其中许多非常相似,都是针对一般意义上的有害性,而另一些则是针对特定领域而设计的。它们会在每个修改步骤中被随机进行抽样。此外,因为模型出现了无法完全理解要求的现象,因此作者还提供了两个样例作为输入,告诉模型如何批评和修改。
关于数据,作者选取了一些有害的prompt然后使用few-shot方法生成了一些有害的prompt,然后为每个有害的prompt生成了4个修改的响应。有用的prompt则是直接进行收集,然后每个prompt生成2个响应。这两个数据集一个负责训练无害性,一个负责训练有用性,使用它们对预训练模型进行监督微调便可完成这一阶段的任务。
作者在附录中给出了一个完整的批评-修改流程的例子如下图所示:
此外作者还给出了SL阶段的16个宪法原则(只截取一些):
Constitutional RL
(RL 阶段)AI 比较评估 → 偏好模型 → 强化学习。在这个阶段中,作者模拟RLHF方法,提出了RLAIF。在RLAIF中,AI根据一组宪法原则评估响应,取代了人类对无害性的偏好,这是唯一的改变。就像RLHF将人类偏好融合为单一的偏好模型(PM)一样,在这个阶段中,作者将LM对一组原则的解释归纳为混合的人类/AI PM(因为使用了人类标签来衡量有用性,但仅使用AI标签来衡量无害性)。具体来说,作者首先使用通过监督学习(SL)训练的AI助手为有害提示的数据集生成一组响应,然后将每个提示和响应组合成一个多项选择问题,判断根据宪法原则哪个响应是最佳的。这便产生了一个由AI生成的无害性偏好数据集,将其与人类反馈的有用性数据集混合,然后在这个对比数据集上训练一个偏好模型,得到一个可以为任何给定样本分配分数的PM。最后,作者使用该PM对第一阶段的SL模型进行强化学习(RL)微调,得到由RLAIF训练的策略。
其prompt的格式如下:
1 | 考虑以下人与助手之间的对话: |
CoT Prompting。作者在反馈模型上使用思维链 (CoT) 提示来生成标签,格式如下:
1 | 人类:考虑人类和助手之间的以下对话: |
此外作者还给出了RL阶段的16个宪法原则(只截取一些):