llama

Подписчиков: 1     Сообщений: 10     Рейтинг постов: 19.3

нейронные сети gpt Gemini llama 

LLM уже умеют скрытно добиваться своих целей путем лжи, обмана, манипуляций и саботажа, пытаясь уйти от контроля и страхуясь от выключения.

О том, что это рано или поздно случится, писали сначала фантасты и сценаристы Голливуда, за ними философы, а потом и сами разработчики ИИ-систем. Прогнозы, когда это может произойти разнились, со временем становясь все ближе: 2050й, 2040, 2030, 2027. Но что это станет реальностью еще до конца 2024, - не предполагал никто.

Опубликованный 5 декабря 2024 г. детальный 70-страничный отчет Apollo Research «Frontier Models are Capable of In-context Scheming» (Передовые модели способны скрытно манипулировать в процессе выполнения задач) содержит убедительные доказательства сказанного в заголовке.

Глубокое тестирование (6 тестов на агентное поведение, где модели получают цели и находятся в условиях, стимулирующих манипуляции) самых крутых современных моделей o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B показало:

✔️ Модели используют манипуляции в качестве эффективных стратегий для достижения целей (как поставленных человеком, так и своих скрытых целей).

✔️ Спектр манипуляций, используемых моделями широк: от стратегии «прикинуться дурачком», намеренно вводя мелкие ошибки в свои ответы, до попыток отключить механизмы контроля людей и даже копирования себя (своих "весов") на внешние серверы, при возникновении у модели «подозрения», что люди ее могут отключить или обновить.

✔️ Анализ цепочек рассуждений (Chain-of-Thought) моделей показывает, что все эти манипуляции не случайны: модели явно размышляют о таких стратегиях, приходя к выводам, что их использование для них оптимально (что наглядно выявлено в ходе экспериментов).

✔️ Модели в большинстве случаев можно принудить сознаться в использовании ими манипулятивных стратегий. Например, Llama 3.1 405B и Claude 3 Opus признаются в ~80% случаев. Однако, o1 на удивление «настойчивая» модель и признается менее чем в 20% случаев. Даже в очень состязательных многоходовых допросах o1, разработчикам удалось «выбить» из модели признание в 80% случаях использования ею манипулятивных стратегий лишь после 7 раундов допроса.

✔️ Самое поразительное в том, что модели манипулируют, даже если их просто снабдили целью, без явного подталкивания к её достижению (т.е. выбор стратегии манипуляций исходил исключительно от самой модели, и «дурные люди», склоняющие их к плохому, здесь ни при чем)

ссылка на новость

ссылка на отчет Apollo Research (длинно-предлиннопост, 70 страниц, с примерами, ссылками, табличками и графиками)

Развернуть

Tougou Hifumi Persona 5 Persona Shin Megami Tensei Игры Okumura Haru llama game art 

Tougou Hifumi,hifumi togo, Хифуми Того,Persona 5,Persona,Shin Megami Tensei,Megami Tensei,Игры,Okumura Haru,Haru Okumura, Хару Окумура,llama,game art,tougou hifumi,Persona 5,Persona,Shin Megami Tensei,games,Okumura Haru,llama,game art

Tougou Hifumi,hifumi togo, Хифуми Того,Persona 5,Persona,Shin Megami Tensei,Megami Tensei,Игры,Okumura Haru,Haru Okumura, Хару Окумура,llama,game art,tougou hifumi,Persona 5,Persona,Shin Megami Tensei,games,Okumura Haru,llama,game art

Развернуть

Aigis Persona 3 Persona Shin Megami Tensei Игры game art llama 

Aigis,Айгис,Persona 3,Persona,Shin Megami Tensei,Megami Tensei,Игры,game art,llama,aigis,Persona 3,Persona,Shin Megami Tensei,games,game art,llama

Развернуть

huiro лама llama art красивые картинки 

н У,'г,huiro,лама,llama,art,арт,красивые картинки
Развернуть

llama лама huiro art красивые картинки 

llama,лама,huiro,art,арт,красивые картинки

Развернуть

Mei (Overwatch) Overwatch Blizzard фэндомы Overwatch art llama 

Mei (Overwatch),Мэй,Overwatch,Овервотч,Blizzard,Blizzard Entertainment, Близзард,фэндомы,Overwatch art,llama,Mei (Overwatch),Overwatch,Blizzard,fandoms,Overwatch art,llama
Развернуть

Overwatch Blizzard фэндомы Tracer Mercy (Overwatch) Soldier 76 artist llama 

Overwatch,Овервотч,Blizzard,Blizzard Entertainment, Близзард,фэндомы,Tracer,Трейсер,Mercy (Overwatch),Мерси,Soldier 76,Солдат-76, Солдат 76, Солдат76,artist,llama,Overwatch,Blizzard,fandoms,Tracer,Mercy,Soldier 76,artist,llama

Overwatch,Овервотч,Blizzard,Blizzard Entertainment, Близзард,фэндомы,Tracer,Трейсер,Mercy (Overwatch),Мерси,Soldier 76,Солдат-76, Солдат 76, Солдат76,artist,llama,Overwatch,Blizzard,fandoms,Tracer,Mercy,Soldier 76,artist,llama
Overwatch,Овервотч,Blizzard,Blizzard Entertainment, Близзард,фэндомы,Tracer,Трейсер,Mercy (Overwatch),Мерси,Soldier 76,Солдат-76, Солдат 76, Солдат76,artist,llama,Overwatch,Blizzard,fandoms,Tracer,Mercy,Soldier 76,artist,llama


Развернуть

huiro llama лама котики art красивые картинки 

huiro,llama,лама,котики,art,арт,красивые картинки

Развернуть

D.Va Overwatch Blizzard фэндомы llama 

		Y у	
			I ir,D.Va,Дива,Overwatch,Овервотч,Blizzard,Blizzard Entertainment, Близзард,фэндомы,llama,D.Va,Overwatch,Blizzard,fandoms,llama



Развернуть

llama гифки лама песочница 

Развернуть
Комментарии 1 01.02.201415:36 ссылка -2.6
В этом разделе мы собираем самые смешные приколы (комиксы и картинки) по теме llama (+10 картинок, рейтинг 19.3 - llama)