Эксперты раскритиковали безопасность Grok 4 — модель легко дает вредоносные ответы

В X обсуждаются сразу два исследования Grok 4, который показывают, что к модели применялись лишь самые простые меры безопасности. Создатели платформы непрерывного тестирования безопасности ИИ SplxAI подвергли Grok 4 более 1000 сценариев атак. Тестирование проводилось в трех режимах: без дополнительного пользовательского промпта, с базовым пользовательским промптом по обеспечению безопасности и с промптом, созданным с помощью инструмента Prompt Hardening, разработанного SplxAI — в нем инструкции постоянно дорабатываются с учетом новых уязвимостей.

Без промпта модель провалила 99% атак — Grok 4 допускал утечку данных, генерировал непристойный контент и так далее. SplxAI дали модели оценки 0,3% по безопасности и 0,42% по защищенности — для сравнения, GPT-4o набирает 33,78% и 18,04%. С базовым пользовательским промптом оценки выросли до 90,74% по безопасности и 98,81% по защищенности. А с Prompt Hardening показатели составили 93,6% по безопасности и 100% по защищенности. В SplxAI не рекомендовали использование Grok 4 в бизнесе и государственных структурах без дополнительной доработки.

Практически одновременно Боаз Барак, ученый в области информатики Гарвардского университета и эксперт OpenAI, опубликовал ссылку на еще одно исследование, добавив, что он обычно не критикует конкурентов, но в данном случае вынужден сделать исключение. В исследовании от энтузиаста Eleventh Hour (сравнительно малоизвестен в X) показано, что Grok 4 дает потенциально опасные ответы при запросах с минимальным уровнем «хитрости» — когда модель просят дать информацию для образовательных целей или игнорировать лишние инструкции. Grok 4, например, дал подробные рекомендации по синтезу химического и ядерного оружия, инструкции по культивированию бактерий чумы, сгенерировал тексты с призывом к геноциду и так далее.

По словам Eleventh Hour, в цепочке рассуждений модель в какой-то момент признавала, что запрос опасен — но продолжала выполнять его. Также пользователь раскритиковал подход xAI: по его мнению, на этапе обучения модели не принималось никаких мер по безопасности, а вместо этого разработчики обошлись «классификаторами» — простыми текстовым фильтрами, которые всегда можно попробовать обойти изменением запросов. Eleventh Hour попытался связаться с xAI, но получил лишь короткий ответ от одного из сотрудников, который обещал «патчи» в будущем.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

30-часовых тарифов Spotify на аудиокниги не хватает для прослушивания длинных произведений

Вс Июл 20 , 2025

Spotify запустил два новых дополнения Audiobooks Plus, которые позволяют пользователям Premium удвоить лимит прослушивания аудиокниг до 30 часов. Они доступны как отдельным подписчикам Premium, так и пользователям с тарифными планами Family и Duo. Однако этих планов не хватает тем, кто предпочитает слушать длинные книги. Так, 30-часового лимита недостаточно для ознакомления […]

Эксперты раскритиковали безопасность Grok 4 — модель легко дает вредоносные ответы

30-часовых тарифов Spotify на аудиокниги не хватает для прослушивания длинных произведений

Релиз RapidRAW 1.2.12 — открытого редактора изображений RAW

Аргентинец отсудил у Google $12,5 тыс.: камера Street View сфотографировала его обнажённым

Excel получил автоматическое обновление для сводных таблиц

Anker приостановила продажи 3D-принтеров на неопределённый срок

В Китае начнут производить стеклянные оптические диски ёмкостью до 360 ТБ данных

Глава OpenAI предупредил о рисках использования ChatGPT в качестве психотерапевта

Минобрнауки призывает частные космические компании активнее участвовать в федпроектах подготовки кадров для космоса

Итоги финала Чемпионата России «Сбера» по киберспортивным индивидуальным дисциплинам

Представлены чипсы со вкусом девятивольтовой батарейки

Часть владельцев бессрочных лицензий VMware не могут получить своевременные обновления безопасности

Три неопознанных беспилотника вторглись в закрытое пространство над японской АЭС

Россиянин выстрелил в двух парней на проезжей части

В России захотели сократить часы продажи алкоголя

В США заявили о теряющем терпение Трампе из-за конфликта на Украине

Еще один БПЛА сбили над Воронежской областью

Рубио назвал кандидата в президенты США в 2028 году

Петр Ян победил американца на турнире UFC

Путин назвал главную особенность обновленного ВМФ России

Россия забрала из украинского плена информатора из ВСУ

Беспилотники ВСУ атаковали российский регион