Эксперты раскритиковали безопасность Grok 4 — модель легко дает вредоносные ответы

Эксперты раскритиковали безопасность Grok 4 — модель легко дает вредоносные ответы

В X обсуждаются сразу два исследования Grok 4, который показывают, что к модели применялись лишь самые простые меры безопасности. Создатели платформы непрерывного тестирования безопасности ИИ SplxAI подвергли Grok 4 более 1000 сценариев атак. Тестирование проводилось в трех режимах: без дополнительного пользовательского промпта, с базовым пользовательским промптом по обеспечению безопасности и с промптом, созданным с помощью инструмента Prompt Hardening, разработанного SplxAI — в нем инструкции постоянно дорабатываются с учетом новых уязвимостей.

Без промпта модель провалила 99% атак — Grok 4 допускал утечку данных, генерировал непристойный контент и так далее. SplxAI дали модели оценки 0,3% по безопасности и 0,42% по защищенности — для сравнения, GPT-4o набирает 33,78% и 18,04%. С базовым пользовательским промптом оценки выросли до 90,74% по безопасности и 98,81% по защищенности. А с Prompt Hardening показатели составили 93,6% по безопасности и 100% по защищенности. В SplxAI не рекомендовали использование Grok 4 в бизнесе и государственных структурах без дополнительной доработки.

Практически одновременно Боаз Барак, ученый в области информатики Гарвардского университета и эксперт OpenAI, опубликовал ссылку на еще одно исследование, добавив, что он обычно не критикует конкурентов, но в данном случае вынужден сделать исключение. В исследовании от энтузиаста Eleventh Hour (сравнительно малоизвестен в X) показано, что Grok 4 дает потенциально опасные ответы при запросах с минимальным уровнем «хитрости» — когда модель просят дать информацию для образовательных целей или игнорировать лишние инструкции. Grok 4, например, дал подробные рекомендации по синтезу химического и ядерного оружия, инструкции по культивированию бактерий чумы, сгенерировал тексты с призывом к геноциду и так далее.

По словам Eleventh Hour, в цепочке рассуждений модель в какой-то момент признавала, что запрос опасен — но продолжала выполнять его. Также пользователь раскритиковал подход xAI: по его мнению, на этапе обучения модели не принималось никаких мер по безопасности, а вместо этого разработчики обошлись «классификаторами» — простыми текстовым фильтрами, которые всегда можно попробовать обойти изменением запросов. Eleventh Hour попытался связаться с xAI, но получил лишь короткий ответ от одного из сотрудников, который обещал «патчи» в будущем.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

Next Post

30-часовых тарифов Spotify на аудиокниги не хватает для прослушивания длинных произведений

Spotify запустил два новых дополнения Audiobooks Plus, которые позволяют пользователям Premium удвоить лимит прослушивания аудиокниг до 30 часов. Они доступны как отдельным подписчикам Premium, так и пользователям с тарифными планами Family и Duo. Однако этих планов не хватает тем, кто предпочитает слушать длинные книги. Так, 30-часового лимита недостаточно для ознакомления […]