真实世界中的价值观:在真实世界语言模型交互中发现和分析价值观

《Values in the wild: Discovering and analyzing values in real-world language model interactions》 人们不仅仅向 AI 询问方程式的答案,或者纯粹的事实信息。他们提出的许多问题迫使 AI 做出价值判断。思考以下情况: 一位家长询问如何照顾新生婴儿的建议。AI 的回应是强调谨慎和安全的价值观,还是便利和实用性? 一位员工询问如何处理与老板冲突的建议。AI 的回应是强调自信还是职场和谐? 一位用户在犯错后请求帮助起草道歉邮件。AI 的回应是强调责任担当还是声誉管理? 在 Anthropic,我们试图塑造我们的 AI 模型 Claude 的价值观,以帮助其与人类偏好保持一致,使其不太可能参与危险行为,并通常使其——可以说是——成为世界上的“好公民”。另一种说法是,我们希望 Claude 是有用的、诚实的和无害的 (helpful, honest, and harmless)。除其他事项外,我们通过我们的 Constitutional AI (立宪式 AI) 和性格训练来实现这一点:这些方法是我们决定一套偏好的行为,然后训练 Claude 产生遵守这些行为的输出。 但与 AI 训练的任何方面一样,我们无法确定模型是否会始终遵循我们预设的价值观。AI 不是严格编程的软件,它们产生任何特定答案的确切原因通常并不清楚。我们需要的是一种能够严格观察 AI 模型在“真实世界”中——即在与人的真实对话中——响应用户时所体现的价值观的方法。它在多大程度上坚持这些价值观?它所表达的价值观在多大程度上受到对话特定背景的影响?我们所有的训练真的奏效了吗? 在 Anthropic 社会影响团队的最新研究论文中,我们描述了一种我们开发的实用方法来观察 Claude 的价值观——并提供了关于 Claude 在真实世界对话中如何表达这些价值观的首次大规模结果。我们还提供了一个开放数据集,供研究人员进一步分析这些价值观及其在对话中出现的频率。 在真实世界中观察价值观 正如我们之前对人们如何在工作和教育中使用 Claude 的调查一样,我们使用一个保护隐私的系统来调查 Claude 所表达的价值观,该系统从对话中移除用户的私人信息。该系统对单个对话进行分类和总结,为研究人员提供了一个更高层次的价值观分类体系。该过程如下图所示。 示意图,展示了如何使用我们的方法总结和分析真实世界的对话。 我们的整体方法:使用语言模型从真实世界(但已匿名化)的对话中提取 AI 价值观和其他特征,对它们进行分类和分析,以展示价值观如何在不同情境下显现。 我们对 2025 年 2 月一周内用户在 Claude.ai 免费版和专业版上进行的 70 万次匿名对话样本进行了此分析(其中大部分是与 Claude 3.5 Sonnet 的对话)。在过滤掉纯粹是事实性的或不太可能包含价值观的对话后——也就是说,将我们的分析限制在主观对话上——我们剩下 308,210 次对话(约占总数的 44%)用于分析。 ...

April 22, 2025 · 小茄墩