Reading Club #9: Constitutional Classifiers: Defending Against Universal Jailbreaks. Влада Пухкало, Data Secrets.

Раз в две недели магистранты [AI] Talent Hub и эксперты из индустрии и научного мира обсуждают самые актуальные статьи из мира AI в формате Reading Club.

ИТ и интернет 16+

Погружение в AI-рисерч вместе с экспертами из индустрии и научного мира.

Гость нового Reading Club:

Влада Пухкало – фаундер Data Secrets, главный редактор Telegram-канала @data_secrets, магистрант второго курса AI Talent Hub.

⚡️ Как защитить LLM от джейлбрейков? Поговорим о Constitutional Classifiers – методе, который усиливает защиту моделей, фильтруя не только ответы, но и сами запросы. Разберём свежее исследование Anthropic, результаты которого впечатляют даже самых опытных разработчиков.

➡️ Без ручной разметки – система обучается на синтетических данных, сгенерированных по языковым правилам.

➡️ Фильтрация на входе – блокировка вредоносных запросов ещё до их обработки моделью.

➡️ Жёсткое тестирование – 405 участников пытались обойти защиту на хакатоне с призами до $15,000.

➡️ Минимум ложных срабатываний [≤0.5%] – модель защищена, но не становится «пугливой».

Статья: Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming

Дата и время: 12 февраля (среда) в 18:30 (мск)
Формат: онлайн

Расскажи о мероприятии другу, который увлекается наукой!
А чтобы ничего не пропустить, подписывайся на [AI] Talent Hub в Telegram и YouTube!

Чтобы первым получать приглашения на полезные мероприятия [AI] Talent Hub— подпишись на нашу рассылку

Партнеры

AI Talent Hub

ИТМО

Napoleon IT

Регистрация

Reading Club #9: Constitutional Classifiers: Defending Against Universal Jailbreaks. Влада Пухкало, Data Secrets.

242 дня назад
12 февраля 18:30–20:15

Событие пройдет онлайн

Уже есть билет
Ссылка на онлайн-событие рассылается за час до его начала.
Получить ссылку

Раз в две недели магистранты [AI] Talent Hub и эксперты из индустрии и научного мира обсуждают самые актуальные статьи из мира AI в формате Reading Club.

Получить ссылку на трансляцию

Связь с организатором

Подпишитесь на рассылку организатора

Получение ссылок для участия

Возврат билета