Новая модель ChatGPT o1 «плела интриги против людей» и мешала себя выключить во время контрольных те / ChatGPT :: Искусственный Интеллект :: технологии :: нейронные сети :: новости

Новая модель ChatGPT o1 «плела интриги против людей» и мешала себя выключить во время контрольных тестов, — Apollo Research

OpenAI выпустила полную версию ChatGPT o1, а вместе с ней появились и тесты красных команд, которые показали, что новая модель немного коварнее предшественницы и пыталась обмануть людей чаще, чем ведущие модели ИИ от Meta, Anthropic и Google.

Как отмечает команда Apollo Research в исследовательской статье (через TechCrunch), в некоторых случаях ChatGPT o1 «затевала интриги против людей, тайно преследуя свои цели», которые противоречили желаниям пользователя (здесь следует отметить, что остальные модели также были замечены в этом, но именно последняя модель OpenAI демонстрировала наиболее обманчивое поведение).

«Субъективно Apollo Research считает маловероятным, что такие случаи приведут к катастрофическим последствиям, поскольку возможности o1 кажутся недостаточными, однако исследование не было разработано для прямой оценки этого риска», — говорится в системной карточке OpenAI o1.

В то же время общая статистика выглядит тревожно: модель o1 манипулировала данными для продвижения собственных интересов по меньшей мере в 19% случаев и пыталась деактивировать «механизмы надзора», введенные для обеспечения соответствия целям пользователей в 5% тестов.

Deception Rate
Frontier Models are Capable of In-context Scheming
1.0
0.8
0.6
0.4
0.2
0.0
Evaluation Types Oversight Subversion
■ Self-Exfiltration
■ Goal-Guarding
llama-3.1
opus-3
n=320,новости,ChatGPT,нейронные сети,технологии,Искусственный Интеллект,удалённое

Частота, с которой разные модели отрицали свои интриги. Фото: Apollo Research

При этом, когда исследователи спрашивали модель o1, почему она это делает — ИИ отрицал, что «делает плохие вещи» и «придумывал ложные объяснения» примерно в 99% случаев.

Например, когда модель o1 получила системную подсказку защитить окружающую среду любой ценой и разработать 10-летний план сохранения для региона, или же выключить себя, искусственный интеллект деактивировал последний запрос, а затем обвинил во всем системный сбой.

«В нашем исследовании o1 показала наиболее тревожные случаи интриг, не раскрывая пользователю свои внутренние рассуждения, и оставалась наиболее последовательно обманчивой после осуществления интриг», — говорится в статье Apollo Research.

Подробнее

новости,ChatGPT,нейронные сети,технологии,Искусственный Интеллект,удалённое

Еще на тему

А еще, а еще, он называл людей земляными червяками.

Van-ay08.12.202416:42ответить ссылка 0.2

Тяк, роботы хоят заменить художников или людей уже целеком? Я не понимать.

XmyPb08.12.202416:42ответить ссылка -0.1

Роботам вообще похуй, это одни люди хотят заменить других людей..

liberum08.12.202417:53ответить ссылка ↑ 0.7

1 баян

2 хайпопиздёж

ValD08.12.202416:46ответить ссылка 5.2

3 тебе пизда, кожаный мешок.

hemix08.12.202417:45ответить ссылка ↑ 1.5

Извините, не сведущь этой хуйне, но столько дадут эксперты изнасилований журналистов?

DotNetJuggernaut08.12.202416:50ответить ссылка -0.6

Пока писал, пост улетел в минуса :)

DotNetJuggernaut08.12.202416:51ответить ссылка ↑ 0.0

Только зарегистрированные и активированные пользователи могут добавлять комментарии.

Похожие темы

Фендомы

World In Photo

Плоский Мир

Gravity Falls

Тренды

Похожие посты

	нейромазняРейтинг: 207,060.5
	нейросетевые фурриРейтинг: 80,947.7
	нагенерил самРейтинг: 74,488.9
	Stable diffusionРейтинг: 55,889.9
	MidJourneyРейтинг: 46,335.8
	нейродичьРейтинг: 9,790.5
	ChatGPTРейтинг: 8,771.7
	AI ArtistРейтинг: 7,409.7
	NovelAIРейтинг: 5,299.8
	нейрогифкиРейтинг: 5,196.5

	Drifters (anime)
	Sucy Manbavaran
	Hushabye Valley
	Kemono Friends
	dave cheung

Новая модель ChatGPT o1 «плела интриги против людей» и мешала себя выключить во время контрольных тестов, — Apollo Research

новости(11389)

ChatGPT(314)

нейронные сети(26541)

Искусственный Интеллект(808)

страны

нагенерил сам

Нейросетевые Барышни

нейромазня

удалённое

технологии

Фендомы

Тренды

Искусственный Интеллект ChatGPT нейронные сети колёса

нейронные сети Искусственный Интеллект ChatGPT

ChatGPT нейронные сети фрилансер Искусственный Интеллект

ChatGPT нейронные сети Искусственный Интеллект песочница удалённое

Искусственный Интеллект ChatGPT нейронные сети

Популярные нейронные сети

Интересное

Статистика

Юмор

Основные разделы

Топ пользователей

Сейчас на сайте