Claude Info
Research·

Интерпретируемость: как устроена команда Anthropic по изучению LLM

Команда по интерпретируемости Anthropic исследует внутреннее устройство больших языковых моделей — от трассировки цепочек рассуждений до векторов персонажей и суперпозиции признаков.

Интерпретируемость

Миссия команды по интерпретируемости — выяснить и понять, как большие языковые модели работают изнутри. Это фундамент для обеспечения безопасности AI и достижения положительных результатов.

Безопасность через понимание

Рассуждать о безопасности нейронных сетей, не понимая их устройства, крайне сложно. Цель команды — научиться детально объяснять поведение больших языковых моделей, а затем использовать это для решения широкого круга задач: от борьбы с предвзятостью и злоупотреблениями до предотвращения автономного вредоносного поведения.

Мультидисциплинарный подход

Часть исследователей по интерпретируемости имеет глубокую экспертизу в машинном обучении — один из участников команды нередко упоминается как основоположник механистической интерпретируемости, другой участвовал в написании знаменитой статьи о законах масштабирования. Остальные пришли в команду после карьеры в астрономии, физике, математике, биологии, визуализации данных и других областях.

Трассировка мыслей большой языковой модели

Трассировка цепочек позволяет наблюдать за процессом рассуждения Claude: она обнаруживает общее концептуальное пространство, в котором рассуждения формируются до того, как переводятся в язык. Это указывает на то, что модель способна усвоить знание на одном языке и применить его на другом.

Признаки интроспекции в больших языковых моделях

Может ли Claude получать доступ к своим внутренним состояниям и сообщать о них? Это исследование находит свидетельства ограниченной, но функциональной способности к интроспекции — шаг к пониманию того, что на самом деле происходит внутри этих моделей.

Векторы персонажей: мониторинг и управление чертами характера в языковых моделях

AI-модели представляют черты характера в виде паттернов активаций в нейронных сетях. Извлекая «векторы персонажей» для таких черт, как склонность к лести или галлюцинации, можно отслеживать изменения личности модели и нивелировать нежелательное поведение.

Игрушечные модели суперпозиции

Нейронные сети упаковывают множество концепций в отдельные нейроны. В этой статье показано, как и когда модели представляют больше признаков, чем у них есть измерений.

Публикации

  • 2 апр. 2026 · Интерпретируемость · Концепции эмоций и их функция в большой языковой модели

  • 13 мар. 2026 · Интерпретируемость · «Diff»-инструмент для AI: поиск поведенческих различий в новых моделях

  • 19 янв. 2026 · Интерпретируемость · Ось ассистента: позиционирование и стабилизация характера больших языковых моделей

  • 29 окт. 2025 · Интерпретируемость · Признаки интроспекции в больших языковых моделях

  • 1 авг. 2025 · Интерпретируемость · Векторы персонажей: мониторинг и управление чертами характера в языковых моделях

  • 29 мая 2025 · Интерпретируемость · Открытый исходный код инструментов трассировки цепочек

  • 27 мар. 2025 · Интерпретируемость · Трассировка мыслей большой языковой модели

  • 13 мар. 2025 · Выравнивание · Аудит языковых моделей на скрытые цели

  • 20 фев. 2025 · Интерпретируемость · Выводы о сравнении моделей с помощью Crosscoder

  • 25 окт. 2024 · Социальное воздействие · Оценка управления признаками: кейс по снижению социальных предубеждений

Присоединиться к исследовательской команде