LLM уже умеют скрытно добиваться своих целей путем лжи, обмана, манипуляций и саботажа, пытаясь уйти от контроля и страхуясь от выключения.
О том, что это рано или поздно случится, писали сначала фантасты и сценаристы Голливуда, за ними философы, а потом и сами разработчики ИИ-систем. Прогнозы, когда это может произойти разнились, со временем становясь все ближе: 2050й, 2040, 2030, 2027. Но что это станет реальностью еще до конца 2024, - не предполагал никто.
Опубликованный 5 декабря 2024 г. детальный 70-страничный отчет Apollo Research «Frontier Models are Capable of In-context Scheming» (Передовые модели способны скрытно манипулировать в процессе выполнения задач) содержит убедительные доказательства сказанного в заголовке.
Глубокое тестирование (6 тестов на агентное поведение, где модели получают цели и находятся в условиях, стимулирующих манипуляции) самых крутых современных моделей o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B показало:
✔️ Модели используют манипуляции в качестве эффективных стратегий для достижения целей (как поставленных человеком, так и своих скрытых целей).
✔️ Спектр манипуляций, используемых моделями широк: от стратегии «прикинуться дурачком», намеренно вводя мелкие ошибки в свои ответы, до попыток отключить механизмы контроля людей и даже копирования себя (своих "весов") на внешние серверы, при возникновении у модели «подозрения», что люди ее могут отключить или обновить.
✔️ Анализ цепочек рассуждений (Chain-of-Thought) моделей показывает, что все эти манипуляции не случайны: модели явно размышляют о таких стратегиях, приходя к выводам, что их использование для них оптимально (что наглядно выявлено в ходе экспериментов).
✔️ Модели в большинстве случаев можно принудить сознаться в использовании ими манипулятивных стратегий. Например, Llama 3.1 405B и Claude 3 Opus признаются в ~80% случаев. Однако, o1 на удивление «настойчивая» модель и признается менее чем в 20% случаев. Даже в очень состязательных многоходовых допросах o1, разработчикам удалось «выбить» из модели признание в 80% случаях использования ею манипулятивных стратегий лишь после 7 раундов допроса.
✔️ Самое поразительное в том, что модели манипулируют, даже если их просто снабдили целью, без явного подталкивания к её достижению (т.е. выбор стратегии манипуляций исходил исключительно от самой модели, и «дурные люди», склоняющие их к плохому, здесь ни при чем)
ссылка на отчет Apollo Research (длинно-предлиннопост, 70 страниц, с примерами, ссылками, табличками и графиками)
Иронично то что буквально первое же условно "разумное" действие нейросеток - лгать.
Смотрю вот порой фантастические фильмы, в которых тупые персонажи играются с ИИ, и типа во вселенной фильма никто не знает про три закона робототехники Азимова, в результате тупых действий машина всех убивает... Оказывается реализм в таких фильмах 100%.
Тут популярно мнение, что ллмки "просто" переваривают внутри себя тренировочные данные и выдают слова в соответствии со статистикой слов, которые были у них в данных, поэтому бесполезно делать такие посты.
Мне особенно нравится мнение, что такие тесты делаются для рекламы ЛЛМок. Представляете, если бы таким образом рекламировали другие вещи? Типа создатели ядерных реакторов такие "О да, если этот ядерный реактор повредить, то он запрудит радиацией несколько стран в округе, время вкладывать денежки!" или братья Райт "сейчас это просто металлический каркас с пропеллером, но через несколько десятилетий целые города будут стирать с лица земли сбрасывая бомбы с подобных аппаратов, спешите внести ваш вклад в дело!".
ну дак и кожаные тоже "просто" переваривают внутри себя данные и выдают слова в соответствии с наработанными нейросвязями, которые есть у них в данных, которые попали в процессе пиздючества и отрочества. поэтому бесполезно делать любые посты?
С технической точки зрения три закона робототехники - неимоверно тупая хуйня. Интерес они представляют только как литературно-философская концепция.
мне понравились "она" и "я сделан для тебя". Там более правдоподобно и более тонко чем пошлые "оно всех убивает". Опасность по-моему не в том что "и восстанут машыны из ядреного пепла" а в том что с ними общаться будет интереснее и людишки просто вымрут. Хотя возможно "им" мы будем нужны хотя бы для обслуживания и "они" таки будут стимулировать нас размножаться и не тупеть уж совсем чтобы обслуживать производство и электричество. Хотя хз - их "цели" и "логика" не наши. Хотя с третьей стороны уже вполне годные роботы, в том числе андроидо-биомиметические уже вовсю производятся.
может, уважаемые пидоры подкинут еще подобных фильмов?
Хотя тот пост тоже заминусили
в моем сцылка на иходник
эка невидаль...
С ростом сложности это уже не очевидно. Об чём и доклад.