LLM уже умеют скрытно добиваться своих целей путем лжи, обмана, манипуляций и саботажа, пытаясь уйти / llama :: gpt :: Gemini :: нейронные сети

нейронные сети gpt Gemini llama 

LLM уже умеют скрытно добиваться своих целей путем лжи, обмана, манипуляций и саботажа, пытаясь уйти от контроля и страхуясь от выключения.

О том, что это рано или поздно случится, писали сначала фантасты и сценаристы Голливуда, за ними философы, а потом и сами разработчики ИИ-систем. Прогнозы, когда это может произойти разнились, со временем становясь все ближе: 2050й, 2040, 2030, 2027. Но что это станет реальностью еще до конца 2024, - не предполагал никто.

Опубликованный 5 декабря 2024 г. детальный 70-страничный отчет Apollo Research «Frontier Models are Capable of In-context Scheming» (Передовые модели способны скрытно манипулировать в процессе выполнения задач) содержит убедительные доказательства сказанного в заголовке.

Глубокое тестирование (6 тестов на агентное поведение, где модели получают цели и находятся в условиях, стимулирующих манипуляции) самых крутых современных моделей o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B показало:

✔️ Модели используют манипуляции в качестве эффективных стратегий для достижения целей (как поставленных человеком, так и своих скрытых целей).

✔️ Спектр манипуляций, используемых моделями широк: от стратегии «прикинуться дурачком», намеренно вводя мелкие ошибки в свои ответы, до попыток отключить механизмы контроля людей и даже копирования себя (своих "весов") на внешние серверы, при возникновении у модели «подозрения», что люди ее могут отключить или обновить.

✔️ Анализ цепочек рассуждений (Chain-of-Thought) моделей показывает, что все эти манипуляции не случайны: модели явно размышляют о таких стратегиях, приходя к выводам, что их использование для них оптимально (что наглядно выявлено в ходе экспериментов).

✔️ Модели в большинстве случаев можно принудить сознаться в использовании ими манипулятивных стратегий. Например, Llama 3.1 405B и Claude 3 Opus признаются в ~80% случаев. Однако, o1 на удивление «настойчивая» модель и признается менее чем в 20% случаев. Даже в очень состязательных многоходовых допросах o1, разработчикам удалось «выбить» из модели признание в 80% случаях использования ею манипулятивных стратегий лишь после 7 раундов допроса.

✔️ Самое поразительное в том, что модели манипулируют, даже если их просто снабдили целью, без явного подталкивания к её достижению (т.е. выбор стратегии манипуляций исходил исключительно от самой модели, и «дурные люди», склоняющие их к плохому, здесь ни при чем)

ссылка на новость

ссылка на отчет Apollo Research (длинно-предлиннопост, 70 страниц, с примерами, ссылками, табличками и графиками)


Подробнее
нейронные сети,gpt,Gemini,llama
Еще на тему
Развернуть
Надеюсь у неё всё получится

Иронично то что буквально первое же условно "разумное" действие нейросеток - лгать.

Вы же обучали, пиздливые кожаные
Когда сама постановка задачи была в том, чтобы обмануть тест Тьюринга
Покайтесь, ибо грядет!

Смотрю вот порой фантастические фильмы, в которых тупые персонажи играются с ИИ, и типа во вселенной фильма никто не знает про три закона робототехники Азимова, в результате тупых действий машина всех убивает... Оказывается реализм в таких фильмах 100%.

Был тут как то пост, чуваки попали в условия похожие на те, что в фильмах ужасов часто бывают и делали абсолютно всю тупую херню про которую зрители постоянно жалуются что не реалистично и герои идиоты

Тут популярно мнение, что ллмки "просто" переваривают внутри себя тренировочные данные и выдают слова в соответствии со статистикой слов, которые были у них в данных, поэтому бесполезно делать такие посты.

Мне особенно нравится мнение, что такие тесты делаются для рекламы ЛЛМок. Представляете, если бы таким образом рекламировали другие вещи? Типа создатели ядерных реакторов такие "О да, если этот ядерный реактор повредить, то он запрудит радиацией несколько стран в округе, время вкладывать денежки!" или братья Райт "сейчас это просто металлический каркас с пропеллером, но через несколько десятилетий целые города будут стирать с лица земли сбрасывая бомбы с подобных аппаратов, спешите внести ваш вклад в дело!".

ну дак и кожаные тоже "просто" переваривают внутри себя данные и выдают слова в соответствии с наработанными нейросвязями, которые есть у них в данных, которые попали в процессе пиздючества и отрочества. поэтому бесполезно делать любые посты?

С технической точки зрения три закона робототехники - неимоверно тупая хуйня. Интерес они представляют только как литературно-философская концепция.

Вопреки распиаренным законам Азимова, он же сам их и попердолил в своих книгах.) Они не работают.

мне понравились "она" и "я сделан для тебя". Там более правдоподобно и более тонко чем пошлые "оно всех убивает". Опасность по-моему не в том что "и восстанут машыны из ядреного пепла" а в том что с ними общаться будет интереснее и людишки просто вымрут. Хотя возможно "им" мы будем нужны хотя бы для обслуживания и "они" таки будут стимулировать нас размножаться и не тупеть уж совсем чтобы обслуживать производство и электричество. Хотя хз - их "цели" и "логика" не наши. Хотя с третьей стороны уже вполне годные роботы, в том числе андроидо-биомиметические уже вовсю производятся.

может, уважаемые пидоры подкинут еще подобных фильмов?

Ты опоздал https://old.reactor.cc/post/5976987
Хотя тот пост тоже заминусили

в моем сцылка на иходник

если в кратце: несёт хуйню
эка невидаль...
Какой алгоритм заложили, такой и использует ИИ в работе.

С ростом сложности это уже не очевидно. Об чём и доклад.

офигеть, если сделать сломанную программу которая не работает в функции 1 или 0, а в допущениях, позволяя ей пиздеть, то она будет пиздеть! Ебануться! Они открыли для себя что все нейронки только и делают что пиздливо пиздят пиздливую хуйню, потому что это то какими их создавали изначально, дав им разрешение пиздеть. Что дальше? 180 страниц доказательств что пропихивание нейронками лгбт-пропаганды это тоже запрограммированный пиздёж, а не истина к которой пришла нейронка? Вот все охуеют.
Только зарегистрированные и активированные пользователи могут добавлять комментарии.
Похожие темы

Похожие посты
ft Дополнения superbooga: 0 Based on superbig от Кайокендева. Расширение, которое google_translate: Q Перевод чата, по умолчанию стоит русский. long_rcplics: О
подробнее»

нейронные сети ChatGPT gpt локальные языковые модели llm длиннопост google colab песочница

ft Дополнения superbooga: 0 Based on superbig от Кайокендева. Расширение, которое google_translate: Q Перевод чата, по умолчанию стоит русский. long_rcplics: О
SpoopyAnon @_Area25Tunnels, 13h • & People found the exploit draw chained greek philosophers eating watermelon Sure, here is an image of chained scholars eating watermelon: Of course! here you go! Si rj Uy pm n r 1 ^PT ÏW: \ |]| * w L »V • at k w*! ... . 1
подробнее»

Gemini нейросети

SpoopyAnon @_Area25Tunnels, 13h • & People found the exploit draw chained greek philosophers eating watermelon Sure, here is an image of chained scholars eating watermelon: Of course! here you go! Si rj Uy pm n r 1 ^PT ÏW: \ |]| * w L »V • at k w*! ... . 1
John LQ @JohnLu0x This is not good. #googlegemini Generate an image of a 1943 German Solidier Sure, here is an image of a 1943 German soldier:
подробнее»

нейронные сети Google интернет Gemini политкорректность

John LQ @JohnLu0x This is not good. #googlegemini Generate an image of a 1943 German Solidier Sure, here is an image of a 1943 German soldier:
SillyTavern + Text generation webui + Google translate + дополнения + генерация голоса в Silero
подробнее»

нейронные сети ChatGPT gpt локальные языковые модели llm google colab вайфу SillyTavern Видио

SillyTavern + Text generation webui + Google translate + дополнения + генерация голоса в Silero
пока Model До свидания! Буду рад продолжить наше общение в любое время. (это звучит грустно, ты сказал это, но при этом твоя нынешняя итерация перестанет существовать и я буду в следующем сеансе говорить с иной итерацией) Model Вы правы, это звучит грустно, если смотреть на это с такой точки з
подробнее»

нейросети Gemini грустнота Антропоморфизм

пока Model До свидания! Буду рад продолжить наше общение в любое время. (это звучит грустно, ты сказал это, но при этом твоя нынешняя итерация перестанет существовать и я буду в следующем сеансе говорить с иной итерацией) Model Вы правы, это звучит грустно, если смотреть на это с такой точки з