连ChatGPT都学会了“阿谀奉承”,AI还会往哪里去?

  • 打印
  • 收藏
收藏成功


打开文本图片集

你是否想过,ChatGPT生成的答案会受到用户个人偏好的影响,回复一些足够“阿谀奉承(sycophancy)”的话,而非中立或真实的信息?

实际上,这种现象存在于包括ChatGPT在内的大多数AI模型之中,而罪魁祸首竞可能是“基于人类反馈的强化学习(RLHF)”。

近日,OpenAI在美国硅谷的最强竞争对手Anthropic在研究经过RLHF训练的模型时,便探究了“阿谀奉承”这一行为在AI模型中的广泛存在及其是否受到人类偏好的影响。(剩余1905字)

monitor