谷歌DeepMind团队为语言模型带来新工具,可及时发现并修复有害行为

  • 打印
  • 收藏
收藏成功


打开文本图片集

语言赋予人类表达思想、交流概念、创造记忆和相互理解的能力,开发和研究强大的语言模型有助于构建安全高效的高级人工智能系统。

此前,研究人员通过使用人工注释器手写测试用例来识别语言模型部署前的有害行为。这种方法是有效的,但由于人工注释成本高昂,测试用例的数量和多样性被大大限制。

近日,谷歌DeepMind团队发表了一项新研究,他们提供了一种名为“红队”的工具,可以在运行的语言模型影响用户之前发现并修复其有害行为。(剩余1554字)

monitor
客服机器人