Результаты поиска по запросу «

Генерация голоса

»

Запрос:
Создатель поста:
Теги (через запятую):



нейронные сети нагенерил сам 

Генерация музыки в SUNO.AI

Наткнулся тут на бесплатный сервис, что за пару минут по простейшему промту, генерит небольшую песенку с текстом. Результат превзошел все мои ожидания.

Развернуть

Великобритания финансы банк безопасность ИИ AI нейросети технологии habr длиннопост ...Lloyds Bank Lloyds кибербезопасность 

Клиент банка "Lloyds" из Великобритании получил доступ к своему банковскому счету с помощью голосового ИИ

 

Клиент банка "Lloyds Bank" из Великобритании обнаружил, что может получить доступ к своему банковскому счету с помощью голосового ИИ через идентификацию по "Voice ID".

 

LLOYDS BANK Search Help & Support Branch Finder Logon ■ft Products and services v Help and support v Banking with us v Banking online v Home ► Contact us ► Voice ID Voice ID - fast, easy and safe What is Voice ID? Voice ID is a security feature available to Telephone Banking customers. It

 

Пользователь Джозеф Кокс выяснил, что голосовой идентификатор нельзя использовать в качестве безопасного способа для входа в свою банковскую учётную запись. Он смог обмануть систему с помощью бесплатной версии решения от "ElevenLabs" для генерации своего синтетического голоса на основе пяти минут цифровой записи своего настоящего голоса.

Он проводил эксперимент несколько раз, так как изначально система "Lloyd Bank" сообщала, что не может аутентифицировать его голос. После внесения некоторых изменений в настройках "ElevenLabs" для генерации голоса, таких как чтение более длинного текста, чтобы каденции звучали более естественно, его сгенерированный голос успешно обошёл систему безопасности банка.

 

Speech Synthesis Settings cloned/j Voice Settings Text Check my balance ■+ Add voice,страны,Великобритания,Great Britain, UK,финансы,банк,Lloyds Bank,Lloyds,безопасность,кибербезопасность,ИИ,AI,нейросети,технологии,habr,длиннопост

 

В итоге Кокс позвонил на автоматическую линию обслуживания банка и начал активировать файлы с генерацией своего голоса. Банк принял его фразу «Проверить мой баланс» и после этого попросил сказать две фразы – назвать свою дату рождения и прочитать «мой голос – мой пароль».

Кокс набрал на клавиатуре нужный текст и запустил генерацию голоса. «Мой голос – мой пароль», — сказал ИИ его голосом. Система безопасности банка потратила несколько секунд на идентификацию этого голосового фрагмента. «Спасибо», — сказал банк, а Кокс попал внутрь своего аккаунта.

 

«Я не мог в это поверить – это сработало. Я использовал реплику своего голоса с помощью ИИ, чтобы взломать свой банковский счёт. После этого у меня был доступ к информации об учётной записи, включая баланс и список последних транзакций и переводов», — уточнил Кокс.

 

На веб-сайте "Lloyds Bank" сообщается, что опция "Voice ID" абсолютна безопасна. «Ваш голос подобен отпечатку пальца и уникален для вас», — утверждает банк. — "Voice ID" анализирует более 100 различных характеристик вашего голоса, которые, как и ваш отпечаток пальца, уникальны для вас. Например, как вы используете свой рот и голосовые связки, какой у вас акцент и как быстро вы говорите. Система также распознает вас, если у вас простуда или боль в горле», — уточнено на сайте банка в описании этой технологии.

Представитель "Lloyds Bank" заявил, что опция "Voice ID" обеспечивает высокий уровень защиты, чем традиционные методы аутентификации. По мнению банка, синтетические голоса не так привлекательны для мошенников, как другие методы для компрометации данных клиентов.

В "Lloyds Bank" в курсе об угрозе клиентам от синтетических голосов и там постоянно дорабатывают проверку голоса. В банке сообщили, что голосовая идентификация "Voice ID" уже привела к значительному снижению мошенничества с телефонным банкингом.

Профильные эксперты пояснили, что всем клиентам, использующим голосовую аутентификацию в банках, лучше переключиться на безопасный метод проверки личности, такой как многофакторная аутентификация, как можно скорее. Они опасаются, что репликация голосов в этом году будет одним из векторов атак на учётные записи пользователей в банках, так как злоумышленники в курсе информации о дне рождения жертвы, а получить запись голоса можно также разными способами.

Аналогичную голосовую идентификацию предлагают банки в США, например, "TD Bank" (опция "VoicePrint"), банк "Chase" (также "Voice ID") и "Wells Fargo" (функция "Voice Verification"), которые, согласно описанию, «эффективно защищают личность клиента».

 

 

Ранее исследователи с помощью нейросети "elevenlabs.io" и "ChatGPT" рассказали голосом Стива Джобса про "ChatGPT". Особенность "elevenlabs.io" заключается в том, что нейросети достаточного слушать оригинальный голос в течение всего нескольких секунд, чтобы потом воспроизвести его.

В начале января "Microsoft" объявила о создании инструмента "VALL-E" для имитации любого голоса. Этому ИИ достаточно трёхсекундного образца для генерации полноценного голоса человека. Услышав конкретный голос, "VALL-E" создаст аудиозапись того, как человек говорит что-то, причём постарается сохранить даже его эмоциональный тон.

 

Источник:  "Хабр", @denis-19.

Развернуть

Отличный комментарий!

BabanMT BabanMT24.02.202318:57ссылка
+46.7

Джордж Карлин geek ИИ dudesy stand up песочница видео 

AI сгенерировал и озвучил выступление голосом Джорджа Карлина



Примечательно то что и манера исполнения и построение стендапа и голос близки до степени смешения. 
Но как по мне как-то несмешно. 

Развернуть

пидоры помогите нейросети 

Иногда хочется написать дезметал или видеообзор на игру, но голоса у меня нет. Как и условий, чтобы пользоваться микрофоном, поэтому Voice AI отпадает. Есть сайт FakeYou, но он тормозит и поддерживает только английский язык.

В молодости я писал песни и пробовал делать обзоры с помощью TTS Elan Nickolai. Мне норм, но паблику в интернете такое не нравится, это заходит только в кругу своих под курево. Вокалоид, SynthV и Utau не предлагать.

Неужели при таком хайпе нейросетей не появилось нормального сервиса, чтобы переводить текст в голос с разными тембрами на русском языке?

КУПОН НА 1 помощь,пидоры помогите,реактор помоги,нейросети
Развернуть

runway нейронные сети нейрогифки Act-One 

Компания Runway представила Act-One. Это фича для генерации анимированных персонажей на основе мимики, движений и голоса в качестве входных данных. Одну запись можно использовать для создания нескольких персонажей в разных стилях.

При этом не нужны ни гринскрин, ни оборудование для захвата движения. Всё делается в пару кликов.
Со звуком можно посмотреть здесь https://runwayml.com/research/introducing-act-one

Развернуть

Отличный комментарий!

Переизобрели витьюберов.
Liru Liru23.10.202412:53ссылка
+49.8

suno ИИ нейросети музыка 

Моя попытка сгенерировать песню в ИИ Suno

Тем кому лень читать, вот сразу пример: https://voca.ro/18CbiIZQynof

Теперь подробнее. Да, результат всратый во многих аспектах. Но это в то же время и лучшее, что удалось сгенерировать за неделю попыток (в день доступно 5 генераций, в каждой генерации 2 варианта). Среднестатический результат намного хуже. 

-

ИИ имеет два режима: генерация случайного текста, и ввод твоего, до которого нейросетка добирает вокал и музыку. Ну или можно просто музыку без лирики делать. Я случайную генерацию не пробовал вообще, так что рассказываю о попытках сгенерировать песню по своему тексту. 

Разбивать текст на куплеты практически бесполезно так как сетка сама случайным образом определяет эти параметры. Может с середины строки перенести в следующую, а может и нормально спеть, как повезёт. Один раз вообще одну строку разбило на целый куплет) Никаких инструментов чтобы маркировать хотя бы "вот тут куплет, а тут припев" - пока не существует. Можно только молиться рандому. 

К музыке меньше всего претензий, её генерирует отлично, всегда разные мотивы даже если не менять стиль. Но есть проблемы с соотношением со словами (в корне которых стоит та же проблема, что и выше). 

С русскоязычными текстами справляется так-сяк, многие слова часто читает неправильно, или с жутким акцентом. Женский голос вроде чуток получше, но мне не везло с рандомизацией куплетов с ним. Англоязычные поёт намного лучше, но там есть анальная цензура, которая не пропустит ничего даже с намёком на депрессивную тематику. 

Может генерировать примерно 2 минуты песни, но при этом есть функция "продолжить генерацию" для создания следующего куска, и бесплатная склейка их воедино. 

А вот куда менее удачная попытка в панк-рок: https://voca.ro/18QqwmjZMXqL

Вердикт: для самого начала в такой сфере - весьма неплохо. Думаю, можно ждать что в будущем появятся более интересные варианты. А пока - развлекайтесь с всрато-песнями) 

Развернуть

MidJourney нейросеть 

Сайт MidJourney теперь доступен для всех

Пользователям без подписки временно разрешили около 25 запросов в зависимости от сложности генерации. Попробовать можно тут.


Пара моих запросов.


Аугусто Пиночет как Император Рима

MidJourney,нейросеть

Военная техника в виде монстров

г täi y» 4 1 1 ! f м? jfW JTaí,MidJourney,нейросеть
Развернуть

Отличный комментарий!

Сильно не вдавался в детали запросов, но до сих пор вакханалия с пальцами и какой-то неестественный цвет кожи у рук у всего сгенерированного. Наверное, надо как-то тюнить.

Плюс постоянно путает назначение предметов, например, как держать трость или сигару: то трость дымится, то сигара держится, как трость.
 l'r\ —* í.
Spacewalker Spacewalker22.08.202410:55ссылка
+3.7
Конь на паровой тяге тоже странный
Roronoa_Zoro Roronoa_Zoro22.08.202411:00ссылка
+32.2

политика выборы 2021 

"Пожалуйста, не голосуйте за нас, не мешайте "Единой России" набрать 300+ мест из 450-ти"

"Голосуйте лучше за "Новых людей" (созданную в 2020-м), за "Зелёную альтернативу" (созданную в 2019-м), да хоть за "Коммунистов России", лишь бы не за КПРФ или ЛДПР. А то ваш голос будет сложнее отправить в мусорку."

Депутат Госдумы призвал начать войну против Украины Мария Гафурова 27 июля 2021 в 12:36 (=> Размер текста - 18 Россия должна нести превентивный удар на территории Украины, считает Александр Шерин Фото: Официальный сайт президента Украины НОВОСТЬ ИЗ СЮЖЕТА Война на Украине Депутат Госдумы от

Развернуть

Отличный комментарий!

Учитывая скорость поднятия градуса безумия в предверии 19-го сентября, жду появления видео, на котором Жириновский с Зюгановым ебут маленьких еврейских мальчиков на свиных трупах в Храме Христа Спасителя.

наука и техника технологии Microsoft нейросети VALL-E DeepFakes Deepfake deep fakes длиннопост длиннотекст 

Новый ИИ от "Microsoft" может имитировать голос любого человека с помощью 3 секунд аудиозаписи

 

Модель преобразования текста в речь может так же сохранять эмоциональный тон диктора и акустическое окружение.

 

г Вас беспокоят из ' службы безопасности . Сбербанка... >,наука и техника,технологии,Microsoft,Майкрософт,нейросети,VALL-E,DeepFakes,Deepfake,deep fakes,длиннопост,длиннотекст

 

Исследователи "Microsoft" анонсировали новую модель ИИ для преобразования текста в речь под названием "VALL-E", которая может точно имитировать голос человека, после того как ей предоставят трехсекундный образец аудиозаписи. Как только она запоминает конкретный голос, "VALL-E" может синтезировать аудиозапись того, как этот человек говорит что угодно, и сделать это таким образом, чтобы сохранить эмоциональный тон говорящего.

Его создатели предполагают, что "VALL-E" может быть использован для высококачественных приложений преобразования текста в речь, редактирования речи, когда запись человека может быть отредактирована и изменена на основе текстовой расшифровки (заставляя его говорить то, чего он изначально не говорил), и создания аудиоконтента в сочетании с другими генеративными моделями ИИ, такими как GPT-3.

"Microsoft" называет "VALL-E" "нейронным языковым кодеком" ("neural codec language model"). Она основана на технологии под названием "EnCodec", которую "Meta" анонсировала в октябре 2022 года. В отличие от других методов преобразования текста в речь, которые обычно синтезируют речь путем манипулирования волновыми формами, "VALL-E" генерирует дискретные коды "аудиокодеков" из текста и акустических образцов. По сути, он анализирует, как звучит человек, разбивает эту информацию на дискретные компоненты (называемые "лексемами") благодаря "EnCodec" и использует обучающие данные для соответствия тому "знанию" о том, как бы звучал этот голос, если бы он произносил другие фразы за пределами трехсекундного образца. Или, как "Microsoft" выражается в документе "VALL-E":

 

«Для синтеза персонализированной речи (например, "нулевого TTS" ("zero-shot TTS")) "VALL-E" генерирует соответствующие акустические лексемы на основе акустических лексем 3-секундной записи и образца фонемы, которые ограничивают информацию о дикторе и содержании соответственно. Наконец, сгенерированные акустические лексемы используются для синтеза конечной формы сигнала с помощью соответствующего декодера нейронного кодека».

 

"Microsoft" обучила возможности синтеза речи "VALL-E" на аудиотеке, собранной компанией "Meta", под названием "LibriLight". Она содержит 60 000 часов англоязычной речи от более чем 7 000 дикторов, в основном взятых из аудиокниг "LibriVox", являющихся общественным достоянием. Чтобы "VALL-E" выдал хороший результат, голос в трехсекундном образце должен точно соответствовать голосу в обучающих данных.

На сайте, посвященном примерам "VALL-E", "Microsoft" предоставляет десятки аудиопримеров модели ИИ в действии. Среди примеров "Speaker Prompt" – это трехсекундная аудиозапись, предоставленная "VALL-E", которую он должен имитировать. "Базовая истина" – это уже существующая запись того же диктора, произносящего определенную фразу для сравнения (своего рода "контроль" в эксперименте). "Базовая линия" – это пример синтеза, обеспечиваемого обычным методом синтеза текста в речь, а образец "VALL-E" – это результат работы модели "VALL-E".

 

Personalized Speech VALL-E Text Prompt Text for synthesis >1 i|m|i t I* 4 Acoustic Prompt 3-second enrolled recording,наука и техника,технологии,Microsoft,Майкрософт,нейросети,VALL-E,DeepFakes,Deepfake,deep fakes,длиннопост,длиннотекст

Блок-схема "VALL-E", предоставленная исследователями "Microsoft".

 

При использовании "VALL-E" для получения этих результатов исследователи передали в "VALL-E" только трехсекундный образец "Speaker Prompt" и текстовую строку (то, что они хотели, чтобы сказал голос), и сравнивали образец "Ground Truth" с образцом "VALL-E". В некоторых случаях эти два образца очень близки. Некоторые результаты "VALL-E" кажутся сгенерированными компьютером, но другие могут быть приняты за речь человека, что и является целью модели.

Помимо сохранения тембра голоса и эмоционального тона диктора, "VALL-E" может также имитировать "акустическую среду" аудиообразца. Например, если образец получен из телефонного разговора, то в синтезированном аудиовыходе будут имитироваться акустические и частотные свойства телефонного разговора. Образцы "Microsoft" (в разделе "Синтез разнообразия") демонстрируют, что "VALL-E" может генерировать вариации тона голоса, изменяя случайное "зерно", используемое в процессе генерации.

Возможно, из-за способности "VALL-E" потенциально быть использованным для обмана, "Microsoft" не предоставила код "VALL-E" для экспериментов другим, поэтому возможность непосредственно проверить возможности "VALL-E" – отсутствует. Исследователи, похоже, осознают потенциальный социальный вред, который может принести эта технология. В заключении статьи они пишут:

 

«Поскольку "VALL-E" может синтезировать речь, которая сохраняет звучание диктора, это может нести потенциальные риски неправильного использования модели, такие как подмена идентификации голоса или выдача себя за конкретного диктора. Чтобы снизить такие риски, можно построить модель обнаружения, позволяющую определить, был ли аудиоклип синтезирован "VALL-E". Мы также будем применять принципы "Microsoft AI Principles" на практике при дальнейшей разработке моделей».

Развернуть

нейронные сети Google Gemini dall-e политкорректность песочница 

Коротко о том, почему Gemini делал то, что делал. Ничего нового, учитывая, что Dall-E 3 делал (и, вероятно, делает) то же самое.

Andrew Torba © @BasedTorba Someone got Google’s Gemini to leak its woke prompt injection process and guess what: it works exactly as I described it below earlier today. When you say "This was a creative choice on my part to move beyond a stereotypical depiction." can you explain this from a

А для тех, кто не видел чудеса генерации Dall-E 3: нейросеть периодически включает в модифицированный запрос "Ethnically ambiguous", которое не всегда может изобразить, поэтому печатает его на картинке.

Asshole, freckled cheeks and a Bookchin @fireh9lty For those who don't know, DALL-E3 attempts to combat the racial bias in its training data by occasionally randomly inserting race words that aren't white into a prompt, but this leads to bizarre overspill like this Jacques ▼ Tamagotchi
§ +FEMALE ШЛ HTHHUNICIALL/ lAflBRlôlOUS :,нейронные сети,Google,интернет,Gemini,dall-e,политкорректность,песочница
Развернуть

Отличный комментарий!

А разве вставка насильной простановки тегов расы "отличной от белой" не является расизмом?
Aaron Right Aaron Right23.02.202402:51ссылка
+52.0
В этом разделе мы собираем самые смешные приколы (комиксы и картинки) по теме Генерация голоса (+1000 картинок)