paper reviewed open access llmsec-2023-00007

Constitutional AI: Harmlessness from AI Feedback

Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tyre, Ethan Perez, Jamie Kerr, Jared Kaplan, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile Lukosiute, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Brown, Tom Henighan, Tristan Hume, Sam McCandlish, Jared Kaplan, Dario Amodei, Chris Olah

2022-12 — arXiv preprint 1100 citations

View Resource PDF

Abstract

Introduces Constitutional AI (CAI), a method for training AI systems to be harmless using a set of principles (a constitution) and AI-generated feedback, reducing reliance on human red teamers.

Framework Mappings

NIST AI RMF: GOVERN NIST AI RMF: MANAGE

Cite This Resource

@article{llmsec202300007,
  title = {Constitutional AI: Harmlessness from AI Feedback},
  author = {Yuntao Bai and Saurav Kadavath and Sandipan Kundu and Amanda Askell and Jackson Kernion and Andy Jones and Anna Chen and Anna Goldie and Azalia Mirhoseini and Cameron McKinnon and Carol Chen and Catherine Olsson and Christopher Olah and Danny Hernandez and Dawn Drain and Deep Ganguli and Dustin Li and Eli Tyre and Ethan Perez and Jamie Kerr and Jared Kaplan and Jeffrey Ladish and Joshua Landau and Kamal Ndousse and Kamile Lukosiute and Liane Lovitt and Michael Sellitto and Nelson Elhage and Nicholas Schiefer and Noemi Mercado and Nova DasSarma and Robert Lasenby and Robin Larson and Sam Ringer and Scott Johnston and Shauna Kravec and Sheer El Showk and Stanislav Fort and Tamera Lanham and Timothy Telleen-Lawton and Tom Brown and Tom Henighan and Tristan Hume and Sam McCandlish and Jared Kaplan and Dario Amodei and Chris Olah},
  year = {2022},
  journal = {arXiv preprint},
  url = {https://arxiv.org/abs/2212.08073},
}

Metadata

Added: 2026-04-14
Added by: manual
Source: manual
arxiv_id: 2212.08073

Constitutional AI: Harmlessness from AI Feedback

Abstract

Categories

Tags

Framework Mappings

Cite This Resource

Metadata