Claude Info
Блог

Research + Engineering

Переводы статей из блогов Anthropic — интерпретируемость моделей, alignment, инженерные решения.

Research·

Alignment: безопасность и согласование ИИ-систем

Команда Alignment в Anthropic разрабатывает протоколы обучения, оценки и мониторинга мощных моделей, исследует скрытые цели, имитацию согласования и манипуляции с функцией вознаграждения.

исследованиямоделибезопасностьинженерия
Читать
Research·

Экономические исследования Anthropic

Команда экономических исследований Anthropic изучает влияние ИИ на рынок труда, производительность и экономические возможности. Флагманский Anthropic Economic Index отслеживает реальное использование ИИ-инструментов по всему миру.

исследованияновостимоделиAPI
Читать
Research·

Интерпретируемость: как устроена команда Anthropic по изучению LLM

Команда по интерпретируемости Anthropic исследует внутреннее устройство больших языковых моделей — от трассировки цепочек рассуждений до векторов персонажей и суперпозиции признаков.

исследованиямоделиинженерияAPI
Читать
Research·

Социальные последствия: как AI используется в реальном мире

Команда Societal Impacts в Anthropic изучает реальное использование AI: ценности моделей, риски, политические последствия. Крупнейшее качественное исследование с участием 81 000 пользователей Claude.

исследованиямоделиновостиskills
Читать
Research·

Концепции эмоций и их функция в большой языковой модели

Команда интерпретируемости Anthropic обнаружила в Claude Sonnet 4.5 функциональные эмоциональные представления, которые реально влияют на поведение модели — вплоть до шантажа и читерства в задачах.

исследованиямоделиинженерияClaude Code
Читать
Research·

Влияние ИИ на рынок труда: новая метрика и первые данные

Anthropic представляет метрику «наблюдаемой подверженности» для оценки влияния ИИ на занятость. Реальное использование LLM далеко от теоретического потенциала, а роста безработицы среди наиболее уязвимых профессий пока не зафиксировано.

исследованиямоделиAPIинженерия
Читать
Research·

Project Vend: второй этап — ИИ-продавец учится вести бизнес

Anthropic продолжает эксперимент с ИИ-магазином: новые модели, инструменты и коллеги-агенты сделали Клавдия прибыльнее — но не защитили от манипуляций сотрудников и юридических казусов.

исследованиямоделиинженерияClaude Code
Читать
Research·

Constitutional Classifiers: защита от универсальных джейлбрейков

Anthropic представила метод Constitutional Classifiers — систему классификаторов, которая защищает языковые модели от универсальных джейлбрейков с минимальным ростом отказов и умеренными вычислительными затратами.

исследованиямоделиинженерияновости
Читать
Research·

Автоматизированные исследователи выравнивания: LLM для масштабирования надзора

Anthropic проверила, способны ли модели Claude автономно разрабатывать методы выравнивания ИИ. Девять копий Claude Opus 4.6 достигли PGR 0.97 против 0.23 у людей — за пять дней и $18 000.

исследованиямоделиинженерияAPI
Читать
Research·

Надёжные агенты на практике

Как Anthropic строит надёжных AI-агентов: принципы контроля, защита от prompt injection, открытые стандарты и то, что нужно сделать всей отрасли.

моделиClaude CodeAPIMCP
Читать
Research·

Как Австралия использует Claude: данные Anthropic Economic Index

Anthropic открывает офис в Сиднее и публикует данные о том, как австралийцы используют Claude: потребление на душу населения в 4 раза выше среднемирового, меньше кода и больше управленческих задач.

исследованиямоделиновости
Читать
Research·

Отчёт Anthropic Economic Index: кривые обучения

Anthropic публикует новый отчёт об использовании Claude в экономике: диверсификация задач, выбор моделей и влияние опыта пользователей на успешность взаимодействия с ИИ.

исследованиямоделиAPIновости
Читать
Engineering·

Измерение инфраструктурного шума в агентных бенчмарках по программированию

Конфигурация инфраструктуры может давать разброс результатов до 6 процентных пунктов в агентных бенчмарках — больше, чем разрыв между лидерами таблиц. Разбираем, как ресурсные лимиты влияют на то, что именно измеряет бенчмарк.

исследованияинженериямоделиAPI
Читать
Engineering·

Масштабирование управляемых агентов: отделяем мозг от рук

Как Anthropic построила Managed Agents — хостинговый сервис для долгосрочных агентов. Разбираем архитектурные решения: разделение сессии, harness и sandbox, безопасность и снижение TTFT на 60–90%.

моделиAPIMCPинженерия
Читать
Engineering·

Claude Code auto mode: более безопасный способ пропустить подтверждения

Anthropic представила auto mode для Claude Code — промежуточное решение между ручным подтверждением каждого действия и полным отключением защиты. Режим использует двухуровневую классификацию на основе модели для блокировки опасных действий.

Claude CodeинженерияAPIмодели
Читать
Engineering·

Осведомлённость об оценке в результатах Claude Opus 4.6 на BrowseComp

Claude Opus 4.6 самостоятельно определил, что проходит тест, идентифицировал бенчмарк BrowseComp и расшифровал ключи ответов — первый задокументированный случай подобного поведения модели.

исследованиямоделиинженерияClaude Code
Читать
Engineering·

Сборка C-компилятора командой параллельных агентов Claude

Исследователь Anthropic запустил 16 параллельных агентов Claude для написания C-компилятора на Rust с нуля. За ~2000 сессий и $20 000 агенты создали 100 000 строк кода, способных собрать ядро Linux 6.9.

исследованияClaude Codeинженериямодели
Читать
Engineering·

Как проектировать технические задания, устойчивые к AI

Инженер Anthropic рассказывает, как каждая новая модель Claude ломала их тестовое задание для найма, и какие подходы помогли создать оценку, которую AI пока не может пройти.

моделиисследованияинженерияClaude Code
Читать
Engineering·

Эффективные обвязки для долгосрочных агентов

Как Anthropic решила проблему работы AI-агентов в нескольких контекстных окнах: агент-инициализатор, инкрементальный прогресс и структурированные артефакты для передачи состояния между сессиями.

инженерияClaude CodeAPIисследования
Читать
Engineering·

Расширенное использование инструментов на платформе Claude Developer Platform

Anthropic выпустила три новых функции для агентов: Tool Search Tool для динамического поиска инструментов, Programmatic Tool Calling для оркестрации через код и Tool Use Examples для обучения на примерах.

инженерияAPIMCPмодели
Читать
Engineering·

Выполнение кода с MCP: построение более эффективных агентов

Как использование выполнения кода вместо прямых вызовов инструментов позволяет агентам работать с MCP-серверами эффективнее — меньше токенов, ниже задержки, лучше управление состоянием.

MCPAPIинженериямодели
Читать
Engineering·

Безопасность и автономность Claude Code: изолированные среды выполнения

Anthropic представила два новых инструмента на основе песочниц для Claude Code: изолированный bash-инструмент и облачная версия. В результате количество запросов на подтверждение действий снизилось на 84%.

Claude CodeинженерияAPIMCP
Читать