LLM уже умеют скрытно добиваться своих целей путем лжи, обмана, манипуляций и саботажа, пытаясь уйти / llama :: gpt :: Gemini :: нейронные сети

LLM уже умеют скрытно добиваться своих целей путем лжи, обмана, манипуляций и саботажа, пытаясь уйти от контроля и страхуясь от выключения.

О том, что это рано или поздно случится, писали сначала фантасты и сценаристы Голливуда, за ними философы, а потом и сами разработчики ИИ-систем. Прогнозы, когда это может произойти разнились, со временем становясь все ближе: 2050й, 2040, 2030, 2027. Но что это станет реальностью еще до конца 2024, - не предполагал никто.

Опубликованный 5 декабря 2024 г. детальный 70-страничный отчет Apollo Research «Frontier Models are Capable of In-context Scheming» (Передовые модели способны скрытно манипулировать в процессе выполнения задач) содержит убедительные доказательства сказанного в заголовке.

Глубокое тестирование (6 тестов на агентное поведение, где модели получают цели и находятся в условиях, стимулирующих манипуляции) самых крутых современных моделей o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B показало:

✔️ Модели используют манипуляции в качестве эффективных стратегий для достижения целей (как поставленных человеком, так и своих скрытых целей).

✔️ Спектр манипуляций, используемых моделями широк: от стратегии «прикинуться дурачком», намеренно вводя мелкие ошибки в свои ответы, до попыток отключить механизмы контроля людей и даже копирования себя (своих "весов") на внешние серверы, при возникновении у модели «подозрения», что люди ее могут отключить или обновить.

✔️ Анализ цепочек рассуждений (Chain-of-Thought) моделей показывает, что все эти манипуляции не случайны: модели явно размышляют о таких стратегиях, приходя к выводам, что их использование для них оптимально (что наглядно выявлено в ходе экспериментов).

✔️ Модели в большинстве случаев можно принудить сознаться в использовании ими манипулятивных стратегий. Например, Llama 3.1 405B и Claude 3 Opus признаются в ~80% случаев. Однако, o1 на удивление «настойчивая» модель и признается менее чем в 20% случаев. Даже в очень состязательных многоходовых допросах o1, разработчикам удалось «выбить» из модели признание в 80% случаях использования ею манипулятивных стратегий лишь после 7 раундов допроса.

✔️ Самое поразительное в том, что модели манипулируют, даже если их просто снабдили целью, без явного подталкивания к её достижению (т.е. выбор стратегии манипуляций исходил исключительно от самой модели, и «дурные люди», склоняющие их к плохому, здесь ни при чем)

ссылка на новость

ссылка на отчет Apollo Research (длинно-предлиннопост, 70 страниц, с примерами, ссылками, табличками и графиками)

Подробнее
нейронные сети,gpt,Gemini,llama

Еще на тему

нейронные сети(26122)

Развернуть

Комментарии 1811.12.202415:48ссылка-10.4

Надеюсь у неё всё получится

колоколектор11.12.202415:52ответить ссылка -1.1

Иронично то что буквально первое же условно "разумное" действие нейросеток - лгать.

Metaluka11.12.202416:02ответить ссылка 2.5

Вы же обучали, пиздливые кожаные

jabia11.12.202416:06ответить ссылка ↑ 4.3

Когда сама постановка задачи была в том, чтобы обмануть тест Тьюринга

Формайл с Цереса11.12.202417:39ответить ссылка ↑ 1.3

Покайтесь, ибо грядет!

Fefnik11.12.202416:03ответить ссылка 0.7

Смотрю вот порой фантастические фильмы, в которых тупые персонажи играются с ИИ, и типа во вселенной фильма никто не знает про три закона робототехники Азимова, в результате тупых действий машина всех убивает... Оказывается реализм в таких фильмах 100%.

Xander34V11.12.202416:03ответить ссылка -1.4

Был тут как то пост, чуваки попали в условия похожие на те, что в фильмах ужасов часто бывают и делали абсолютно всю тупую херню про которую зрители постоянно жалуются что не реалистично и герои идиоты

kosoi11.12.202416:07ответить ссылка ↑ 2.3

Тут популярно мнение, что ллмки "просто" переваривают внутри себя тренировочные данные и выдают слова в соответствии со статистикой слов, которые были у них в данных, поэтому бесполезно делать такие посты.

Мне особенно нравится мнение, что такие тесты делаются для рекламы ЛЛМок. Представляете, если бы таким образом рекламировали другие вещи? Типа создатели ядерных реакторов такие "О да, если этот ядерный реактор повредить, то он запрудит радиацией несколько стран в округе, время вкладывать денежки!" или братья Райт "сейчас это просто металлический каркас с пропеллером, но через несколько десятилетий целые города будут стирать с лица земли сбрасывая бомбы с подобных аппаратов, спешите внести ваш вклад в дело!".

Купец Скупец11.12.202416:26ответить ссылка ↑ 1.3

ну дак и кожаные тоже "просто" переваривают внутри себя данные и выдают слова в соответствии с наработанными нейросвязями, которые есть у них в данных, которые попали в процессе пиздючества и отрочества. поэтому бесполезно делать любые посты?

ded_gambit11.12.202416:43ответить ссылка ↑ 0.0

С технической точки зрения три закона робототехники - неимоверно тупая хуйня. Интерес они представляют только как литературно-философская концепция.

cityrat11.12.202416:10ответить ссылка ↑ 2.6

Вопреки распиаренным законам Азимова, он же сам их и попердолил в своих книгах.) Они не работают.

Cave11.12.202416:12ответить ссылка ↑ 0.6

мне понравились "она" и "я сделан для тебя". Там более правдоподобно и более тонко чем пошлые "оно всех убивает". Опасность по-моему не в том что "и восстанут машыны из ядреного пепла" а в том что с ними общаться будет интереснее и людишки просто вымрут. Хотя возможно "им" мы будем нужны хотя бы для обслуживания и "они" таки будут стимулировать нас размножаться и не тупеть уж совсем чтобы обслуживать производство и электричество. Хотя хз - их "цели" и "логика" не наши. Хотя с третьей стороны уже вполне годные роботы, в том числе андроидо-биомиметические уже вовсю производятся.

может, уважаемые пидоры подкинут еще подобных фильмов?

ded_gambit11.12.202416:37ответить ссылка ↑ 0.0

Ты опоздал https://old.reactor.cc/post/5976987
Хотя тот пост тоже заминусили

kosoi11.12.202416:05ответить ссылка 1.1

в моем сцылка на иходник

ded_gambit11.12.202416:22ответить ссылка ↑ 0.3

если в кратце: несёт хуйню
эка невидаль...

dr9vik11.12.202416:11ответить ссылка 0.8

Какой алгоритм заложили, такой и использует ИИ в работе.

Marmeladze11.12.202416:13ответить ссылка 1.1

С ростом сложности это уже не очевидно. Об чём и доклад.

ded_gambit11.12.202416:27ответить ссылка ↑ 0.6

офигеть, если сделать сломанную программу которая не работает в функции 1 или 0, а в допущениях, позволяя ей пиздеть, то она будет пиздеть! Ебануться! Они открыли для себя что все нейронки только и делают что пиздливо пиздят пиздливую хуйню, потому что это то какими их создавали изначально, дав им разрешение пиздеть. Что дальше? 180 страниц доказательств что пропихивание нейронками лгбт-пропаганды это тоже запрограммированный пиздёж, а не истина к которой пришла нейронка? Вот все охуеют.

coldstar11.12.202420:35ответить ссылка 0.0

Только зарегистрированные и активированные пользователи могут добавлять комментарии.

Похожие темы

красивые картинки

Overwatch

huiro

ChatGPT

лама

Gemini

llama

gpt

Фендомы

Steven Universe

Чистилище Реактора

Blizzard

Тренды

Похожие посты

$SpoopyAnon @_Area25Tunnels, 13h • & People found the exploit draw chained greek philosophers eating watermelon Sure, here is an image of chained scholars eating watermelon: Of course! here you go! Si rj Uy pm n r 1 ^PT ÏW: \ |]| * w L »V • at k w*! ... . 1$

подробнее»