Новый ИИ от "Microsoft" может имитировать голос любого человека с помощью 3 секунд аудиозаписи / длиннотекст :: deep fakes :: длиннопост :: DeepFakes :: Deepfake :: VALL-E :: нейросети :: Microsoft (Майкрософт) :: технологии :: наука и техника

Новый ИИ от "Microsoft" может имитировать голос любого человека с помощью 3 секунд аудиозаписи

Модель преобразования текста в речь может так же сохранять эмоциональный тон диктора и акустическое окружение.

г Вас беспокоят из ' службы безопасности . Сбербанка... >,наука и техника,технологии,Microsoft,Майкрософт,нейросети,VALL-E,DeepFakes,Deepfake,deep fakes,длиннопост,длиннотекст

Исследователи "Microsoft" анонсировали новую модель ИИ для преобразования текста в речь под названием "VALL-E", которая может точно имитировать голос человека, после того как ей предоставят трехсекундный образец аудиозаписи. Как только она запоминает конкретный голос, "VALL-E" может синтезировать аудиозапись того, как этот человек говорит что угодно, и сделать это таким образом, чтобы сохранить эмоциональный тон говорящего.

Его создатели предполагают, что "VALL-E" может быть использован для высококачественных приложений преобразования текста в речь, редактирования речи, когда запись человека может быть отредактирована и изменена на основе текстовой расшифровки (заставляя его говорить то, чего он изначально не говорил), и создания аудиоконтента в сочетании с другими генеративными моделями ИИ, такими как GPT-3.

"Microsoft" называет "VALL-E" "нейронным языковым кодеком" ("neural codec language model"). Она основана на технологии под названием "EnCodec", которую "Meta" анонсировала в октябре 2022 года. В отличие от других методов преобразования текста в речь, которые обычно синтезируют речь путем манипулирования волновыми формами, "VALL-E" генерирует дискретные коды "аудиокодеков" из текста и акустических образцов. По сути, он анализирует, как звучит человек, разбивает эту информацию на дискретные компоненты (называемые "лексемами") благодаря "EnCodec" и использует обучающие данные для соответствия тому "знанию" о том, как бы звучал этот голос, если бы он произносил другие фразы за пределами трехсекундного образца. Или, как "Microsoft" выражается в документе "VALL-E":

«Для синтеза персонализированной речи (например, "нулевого TTS" ("zero-shot TTS")) "VALL-E" генерирует соответствующие акустические лексемы на основе акустических лексем 3-секундной записи и образца фонемы, которые ограничивают информацию о дикторе и содержании соответственно. Наконец, сгенерированные акустические лексемы используются для синтеза конечной формы сигнала с помощью соответствующего декодера нейронного кодека».

"Microsoft" обучила возможности синтеза речи "VALL-E" на аудиотеке, собранной компанией "Meta", под названием "LibriLight". Она содержит 60 000 часов англоязычной речи от более чем 7 000 дикторов, в основном взятых из аудиокниг "LibriVox", являющихся общественным достоянием. Чтобы "VALL-E" выдал хороший результат, голос в трехсекундном образце должен точно соответствовать голосу в обучающих данных.

На сайте, посвященном примерам "VALL-E", "Microsoft" предоставляет десятки аудиопримеров модели ИИ в действии. Среди примеров "Speaker Prompt" – это трехсекундная аудиозапись, предоставленная "VALL-E", которую он должен имитировать. "Базовая истина" – это уже существующая запись того же диктора, произносящего определенную фразу для сравнения (своего рода "контроль" в эксперименте). "Базовая линия" – это пример синтеза, обеспечиваемого обычным методом синтеза текста в речь, а образец "VALL-E" – это результат работы модели "VALL-E".

Personalized Speech VALL-E Text Prompt Text for synthesis >1 i|m|i t I* 4 Acoustic Prompt 3-second enrolled recording,наука и техника,технологии,Microsoft,Майкрософт,нейросети,VALL-E,DeepFakes,Deepfake,deep fakes,длиннопост,длиннотекст

Блок-схема "VALL-E", предоставленная исследователями "Microsoft".

При использовании "VALL-E" для получения этих результатов исследователи передали в "VALL-E" только трехсекундный образец "Speaker Prompt" и текстовую строку (то, что они хотели, чтобы сказал голос), и сравнивали образец "Ground Truth" с образцом "VALL-E". В некоторых случаях эти два образца очень близки. Некоторые результаты "VALL-E" кажутся сгенерированными компьютером, но другие могут быть приняты за речь человека, что и является целью модели.

Помимо сохранения тембра голоса и эмоционального тона диктора, "VALL-E" может также имитировать "акустическую среду" аудиообразца. Например, если образец получен из телефонного разговора, то в синтезированном аудиовыходе будут имитироваться акустические и частотные свойства телефонного разговора. Образцы "Microsoft" (в разделе "Синтез разнообразия") демонстрируют, что "VALL-E" может генерировать вариации тона голоса, изменяя случайное "зерно", используемое в процессе генерации.

Возможно, из-за способности "VALL-E" потенциально быть использованным для обмана, "Microsoft" не предоставила код "VALL-E" для экспериментов другим, поэтому возможность непосредственно проверить возможности "VALL-E" – отсутствует. Исследователи, похоже, осознают потенциальный социальный вред, который может принести эта технология. В заключении статьи они пишут:

«Поскольку "VALL-E" может синтезировать речь, которая сохраняет звучание диктора, это может нести потенциальные риски неправильного использования модели, такие как подмена идентификации голоса или выдача себя за конкретного диктора. Чтобы снизить такие риски, можно построить модель обнаружения, позволяющую определить, был ли аудиоклип синтезирован "VALL-E". Мы также будем применять принципы "Microsoft AI Principles" на практике при дальнейшей разработке моделей».

Подробнее
г Вас беспокоят из ' службы безопасности . Сбербанка... >
Personalized Speech VALL-E Text Prompt Text for synthesis >1 i|m|i t I* 4 Acoustic Prompt 3-second enrolled recording
наука и техника,технологии,Microsoft,Майкрософт,нейросети,VALL-E,DeepFakes,Deepfake,deep fakes,длиннопост,длиннотекст

Еще на тему

Microsoft(833)

нейросети(27295)

DeepFakes(127)

длиннопост(43367)

Развернуть

Комментарии 3511.01.202317:32ссылка12.1

ссылка на гифку

monolit96311.01.202317:35ответить ссылка 15.1

"Биометрическая идентификация по голосу – надежна!" — говорили они...

Kasyan66611.01.202317:36ответить ссылка ↑ 20.7

Здравствуйте вас беспокоит Г. Греф, вы стали миллиардным клиентом Сбера)

Akamist11.01.202317:37ответить ссылка 6.6

Скоро будет звонить телефон, а там это

ссылка на гифку

Cubec11.01.202317:39ответить ссылка 24.1

на до будет загадку про а и б загадывать

MacAaron11.01.202319:17ответить ссылка ↑ 0.6

Ну и отлично.
Пусть автоответчик разговаривает с позвонившими, не отвлекая меня от важных дел, джоя, анимешек всяких.
Плюс отдельный сценарий разговора для коммивояжеров и иеговистов.

Myste-Puck-Meist12.01.202301:19ответить ссылка ↑ 0.7

Ага, значит скоро мне прилетит реклама типа - поздравь друга голосом знаменитости без смс и регистрации

Petroff_05511.01.202317:42ответить ссылка 2.3

Нет, тебе позвонит Цой, поздравит и предложит поздравить друзей по доступной цене.

RaptorAnton13.01.202311:51ответить ссылка ↑ 0.0

Наконец-то нормальная озвучка порно модов на скайрим

наука и техника,технологии,Microsoft,Майкрософт,нейросети,VALL-E,DeepFakes,Deepfake,deep fakes,длиннопост,длиннотекст

Maximum99711.01.202317:50ответить ссылка 21.8

давно уже нанимают актрис для озвучивания порно-модов в скайриме. Причем бывает в 3 вариантах. А вот мужиков да, все еще не озвучивают.

SWaad11.01.202317:55ответить ссылка ↑ 0.6

Ну видимо я играю в порно моды для "гурманов", там я встречал только синт войсом.

Maximum99711.01.202318:01ответить ссылка ↑ 1.2

"в 3 вариантах" в смысле 3 актрисы на все порно моды скайрима?

asd07211.01.202318:03ответить ссылка ↑ 0.3

Прям как в аниме:) Одни и те же сейю в каждом тайтле.

Shoorsh11.01.202318:59ответить ссылка ↑ 3.6

И все мужики.

warrcan11.01.202321:30ответить ссылка ↑ 0.0

Это только в русской озвучке хентая

asd07211.01.202322:23ответить ссылка ↑ 0.0

Привет новая волна мошенников !

saymontaker11.01.202317:54ответить ссылка 1.6

Скайнет напечатает кому надо денег, сама позвонит и что хочешь нарисует. Пока рано прям уничтожать, но хаос сеять можно весело.

MaXM00D11.01.202317:56ответить ссылка 0.0

Кстати, а что если смешать ее с этим: https://old.reactor.cc/post/5417252 + добавить ChatGPT для генерации текста песни?

Kasyan66611.01.202317:59ответить ссылка 0.1

То получишь вокалоидов, только с ещё менее адекватным текстом

asd07211.01.202318:04ответить ссылка ↑ 10.6

А можыт... нинада?

Nameless11.01.202318:25ответить ссылка 1.1

Теперь можно будет продавать свой голос для озвучки, даже работать не надо: записал семпл и выложил на сток.

9N3CdpaGC11.01.202318:32ответить ссылка 1.2

А ещё можно использовать голоса умерших актёров озвучки

vsaR1SK11.01.202318:39ответить ссылка ↑ 1.9

Ослепший старый Майкрософт ночью по лесу бродил...

Jokerfer11.01.202319:17ответить ссылка ↑ 1.4

Я бы от лишних пары альбомов КиШа не отказался бы

Dimcore11.01.202320:56ответить ссылка ↑ 0.8

А кто отказалсябы?

Jokerfer11.01.202321:00ответить ссылка ↑ 0.0

Продавать голос? Покупать? Это не про разработчиков нейронок, просто возьмут тонны записей с ютуба и будет вам тысячи голосов на любой вкус и цвет. Уже по случаю с нейрорисунками ясно что даже автор по которому нейронке учится не указывается.

DeedreiwV211.01.202319:56ответить ссылка ↑ 0.1

Удачи ИИ различать голос одного и того же человека в разных состояниях.

Atin Di'kut11.01.202318:39ответить ссылка 0.4

Как говорил Петр Гланц: «СУКАНАХ». ИИ уже начал войну с художниками и теперь готовится напасть на актеров озвучки. Ну реально, я уже хочу закидать его семплами Репетура, Гланца и Кузнецова и посмотреть, как он справится

ATOMIKO11.01.202319:09ответить ссылка 1.1

Полонского забыл!

AlxK11.01.202322:07ответить ссылка ↑ -0.1

ATOMIKO11.01.202322:22ответить ссылка ↑ -0.5

а это может неплохо помочь бедным студиям озвучивать игры где есть только текст и ни какого войсовера
например покемонов )))

VEGETKO11.01.202319:24ответить ссылка 0.3

Сначала создадим ебанигу что будет идеально подделывать голос, затем выпустим распознаватель подделки. Пописка 19.99$ в месяц!

warrcan11.01.202321:32ответить ссылка 0.1

Получается можно будет улучшить связь кардинальным образом, получая и распознавая голос, передать только текст и на другой стороне его преобразовать обратно в речь звучащую как собеседник но без шумов и максимально реализуя возможности воспроизводящего оборудования. Но делать это придется на лету, и да, как-то придется решать проблему подделывания

mexem12.01.202300:29ответить ссылка 1.0

Как-то попробовать уже можно?

agri12.01.202320:30ответить ссылка 0.0

Нет, там сказали. что т.к. могут сделать всякие нехорошие штуки, то, пока конт-сетку не сделают, публиковать не будут.

Kasyan66613.01.202302:53ответить ссылка ↑ 0.0

Только зарегистрированные и активированные пользователи могут добавлять комментарии.

Похожие темы

наука

страны

Знаменитости

нейронные сети

Актеры и Актрисы

технологии

наука и техника

длиннотекст

Deepfake

deep fakes

VALL-E

Фендомы

Anime

Моя Україна

Mortal Kombat

Тренды

Похожие посты

$which is the cheapest \/ Searching for: cheapest honda car v/ Generating answers for you... The cheapest Honda car for 2023 is the Civic Sport which starts at around $24,650 according to TrueCar Ad 1 . The HR-V is also on the inexpensive side of Honda's lineup and starts at $25,095 Ad 1 . I ho$

подробнее»

подробнее»

$FakeApp □ X Train Merge Paths Encoder C:\Users\Downtoads\pycc Decoder A: C:\Users\Downloads\pycc Decoder B: C:\Users\Downloads\pycc Data A: C:\Users\Dowmloads\pycc Data B: C:\Users\Downloads\pycc Options Batch Size: w Save Period: 100 Start$

подробнее»

	OptionalTypo
	Yu-kyo
	Dagashi Kashi
	Pleasure Room Art
	Invincible (Image)