Результаты поиска по запросу «

Генерация голоса

Генерация музыки в SUNO.AI

Наткнулся тут на бесплатный сервис, что за пару минут по простейшему промту, генерит небольшую песенку с текстом. Результат превзошел все мои ожидания.

Развернуть

Комментарии 1923.11.202304:28ссылка-2.1

Kasyan666

Клиент банка "Lloyds" из Великобритании получил доступ к своему банковскому счету с помощью голосового ИИ

Клиент банка "Lloyds Bank" из Великобритании обнаружил, что может получить доступ к своему банковскому счету с помощью голосового ИИ через идентификацию по "Voice ID".

LLOYDS BANK
Search Help & Support Branch Finder Logon
■ft Products and services v Help and support v Banking with us v Banking online v
Home ► Contact us ► Voice ID
Voice ID - fast, easy and safe
What is Voice ID?
Voice ID is a security feature available to Telephone Banking customers. It

Пользователь Джозеф Кокс выяснил, что голосовой идентификатор нельзя использовать в качестве безопасного способа для входа в свою банковскую учётную запись. Он смог обмануть систему с помощью бесплатной версии решения от "ElevenLabs" для генерации своего синтетического голоса на основе пяти минут цифровой записи своего настоящего голоса.

Он проводил эксперимент несколько раз, так как изначально система "Lloyd Bank" сообщала, что не может аутентифицировать его голос. После внесения некоторых изменений в настройках "ElevenLabs" для генерации голоса, таких как чтение более длинного текста, чтобы каденции звучали более естественно, его сгенерированный голос успешно обошёл систему безопасности банка.

Speech Synthesis
Settings cloned/j
Voice Settings

Text
Check my balance
■+ Add voice,страны,Великобритания,Great Britain, UK,финансы,банк,Lloyds Bank,Lloyds,безопасность,кибербезопасность,ИИ,AI,нейросети,технологии,habr,длиннопост

В итоге Кокс позвонил на автоматическую линию обслуживания банка и начал активировать файлы с генерацией своего голоса. Банк принял его фразу «Проверить мой баланс» и после этого попросил сказать две фразы – назвать свою дату рождения и прочитать «мой голос – мой пароль».

Кокс набрал на клавиатуре нужный текст и запустил генерацию голоса. «Мой голос – мой пароль», — сказал ИИ его голосом. Система безопасности банка потратила несколько секунд на идентификацию этого голосового фрагмента. «Спасибо», — сказал банк, а Кокс попал внутрь своего аккаунта.

«Я не мог в это поверить – это сработало. Я использовал реплику своего голоса с помощью ИИ, чтобы взломать свой банковский счёт. После этого у меня был доступ к информации об учётной записи, включая баланс и список последних транзакций и переводов», — уточнил Кокс.

На веб-сайте "Lloyds Bank" сообщается, что опция "Voice ID" абсолютна безопасна. «Ваш голос подобен отпечатку пальца и уникален для вас», — утверждает банк. — "Voice ID" анализирует более 100 различных характеристик вашего голоса, которые, как и ваш отпечаток пальца, уникальны для вас. Например, как вы используете свой рот и голосовые связки, какой у вас акцент и как быстро вы говорите. Система также распознает вас, если у вас простуда или боль в горле», — уточнено на сайте банка в описании этой технологии.

Представитель "Lloyds Bank" заявил, что опция "Voice ID" обеспечивает высокий уровень защиты, чем традиционные методы аутентификации. По мнению банка, синтетические голоса не так привлекательны для мошенников, как другие методы для компрометации данных клиентов.

В "Lloyds Bank" в курсе об угрозе клиентам от синтетических голосов и там постоянно дорабатывают проверку голоса. В банке сообщили, что голосовая идентификация "Voice ID" уже привела к значительному снижению мошенничества с телефонным банкингом.

Профильные эксперты пояснили, что всем клиентам, использующим голосовую аутентификацию в банках, лучше переключиться на безопасный метод проверки личности, такой как многофакторная аутентификация, как можно скорее. Они опасаются, что репликация голосов в этом году будет одним из векторов атак на учётные записи пользователей в банках, так как злоумышленники в курсе информации о дне рождения жертвы, а получить запись голоса можно также разными способами.

Аналогичную голосовую идентификацию предлагают банки в США, например, "TD Bank" (опция "VoicePrint"), банк "Chase" (также "Voice ID") и "Wells Fargo" (функция "Voice Verification"), которые, согласно описанию, «эффективно защищают личность клиента».

Ранее исследователи с помощью нейросети "elevenlabs.io" и "ChatGPT" рассказали голосом Стива Джобса про "ChatGPT". Особенность "elevenlabs.io" заключается в том, что нейросети достаточного слушать оригинальный голос в течение всего нескольких секунд, чтобы потом воспроизвести его.

В начале января "Microsoft" объявила о создании инструмента "VALL-E" для имитации любого голоса. Этому ИИ достаточно трёхсекундного образца для генерации полноценного голоса человека. Услышав конкретный голос, "VALL-E" создаст аудиозапись того, как человек говорит что-то, причём постарается сохранить даже его эмоциональный тон.

Источник: "Хабр", @denis-19.

Развернуть

Отличный комментарий!

BabanMT 24.02.202318:57 ссылка

+46.7

Комментарии 5824.02.202318:54ссылка48.7

iterator

AI сгенерировал и озвучил выступление голосом Джорджа Карлина

Примечательно то что и манера исполнения и построение стендапа и голос близки до степени смешения.
Но как по мне как-то несмешно.

Развернуть

Комментарии 2611.01.202418:45ссылка3.6

hurrdurrdurr

Иногда хочется написать дезметал или видеообзор на игру, но голоса у меня нет. Как и условий, чтобы пользоваться микрофоном, поэтому Voice AI отпадает. Есть сайт FakeYou, но он тормозит и поддерживает только английский язык.

В молодости я писал песни и пробовал делать обзоры с помощью TTS Elan Nickolai. Мне норм, но паблику в интернете такое не нравится, это заходит только в кругу своих под курево. Вокалоид, SynthV и Utau не предлагать.

Неужели при таком хайпе нейросетей не появилось нормального сервиса, чтобы переводить текст в голос с разными тембрами на русском языке?

КУПОН НА 1 помощь,пидоры помогите,реактор помоги,нейросети

Развернуть

Комментарии 904.08.202413:45ссылка-7.8

Gentlemayor

Компания Runway представила Act-One. Это фича для генерации анимированных персонажей на основе мимики, движений и голоса в качестве входных данных. Одну запись можно использовать для создания нескольких персонажей в разных стилях.

При этом не нужны ни гринскрин, ни оборудование для захвата движения. Всё делается в пару кликов.
Со звуком можно посмотреть здесь https://runwayml.com/research/introducing-act-one

Развернуть

Отличный комментарий!

Переизобрели витьюберов.

Liru23.10.202412:53ссылка

+49.8

Комментарии 4923.10.202412:51ссылка56.8

FromZeroToZero

Моя попытка сгенерировать песню в ИИ Suno

Тем кому лень читать, вот сразу пример: https://voca.ro/18CbiIZQynof

Теперь подробнее. Да, результат всратый во многих аспектах. Но это в то же время и лучшее, что удалось сгенерировать за неделю попыток (в день доступно 5 генераций, в каждой генерации 2 варианта). Среднестатический результат намного хуже.

-

ИИ имеет два режима: генерация случайного текста, и ввод твоего, до которого нейросетка добирает вокал и музыку. Ну или можно просто музыку без лирики делать. Я случайную генерацию не пробовал вообще, так что рассказываю о попытках сгенерировать песню по своему тексту.

Разбивать текст на куплеты практически бесполезно так как сетка сама случайным образом определяет эти параметры. Может с середины строки перенести в следующую, а может и нормально спеть, как повезёт. Один раз вообще одну строку разбило на целый куплет) Никаких инструментов чтобы маркировать хотя бы "вот тут куплет, а тут припев" - пока не существует. Можно только молиться рандому.

К музыке меньше всего претензий, её генерирует отлично, всегда разные мотивы даже если не менять стиль. Но есть проблемы с соотношением со словами (в корне которых стоит та же проблема, что и выше).

С русскоязычными текстами справляется так-сяк, многие слова часто читает неправильно, или с жутким акцентом. Женский голос вроде чуток получше, но мне не везло с рандомизацией куплетов с ним. Англоязычные поёт намного лучше, но там есть анальная цензура, которая не пропустит ничего даже с намёком на депрессивную тематику.

Может генерировать примерно 2 минуты песни, но при этом есть функция "продолжить генерацию" для создания следующего куска, и бесплатная склейка их воедино.

А вот куда менее удачная попытка в панк-рок: https://voca.ro/18QqwmjZMXqL

Вердикт: для самого начала в такой сфере - весьма неплохо. Думаю, можно ждать что в будущем появятся более интересные варианты. А пока - развлекайтесь с всрато-песнями)

Развернуть

Комментарии 525.03.202418:55ссылка-2.9

Burn

Сайт MidJourney теперь доступен для всех

Пользователям без подписки временно разрешили около 25 запросов в зависимости от сложности генерации. Попробовать можно тут.

Пара моих запросов.

Аугусто Пиночет как Император Рима

Военная техника в виде монстров

г täi y» 4 1 1 ! f м? jfW JTaí,MidJourney,нейросеть

Развернуть

Отличный комментарий!

Сильно не вдавался в детали запросов, но до сих пор вакханалия с пальцами и какой-то неестественный цвет кожи у рук у всего сгенерированного. Наверное, надо как-то тюнить.

Плюс постоянно путает назначение предметов, например, как держать трость или сигару: то трость дымится, то сигара держится, как трость.

$ l'r\ —* í.$

Spacewalker22.08.202410:55ссылка

+3.7

Конь на паровой тяге тоже странный

Roronoa_Zoro22.08.202411:00ссылка

+32.2

Комментарии 12922.08.202410:20ссылка88.8

Алексей Шибаев

"Пожалуйста, не голосуйте за нас, не мешайте "Единой России" набрать 300+ мест из 450-ти"

"Голосуйте лучше за "Новых людей" (созданную в 2020-м), за "Зелёную альтернативу" (созданную в 2019-м), да хоть за "Коммунистов России", лишь бы не за КПРФ или ЛДПР. А то ваш голос будет сложнее отправить в мусорку."

Депутат Госдумы призвал начать войну против Украины
Мария Гафурова
27 июля 2021 в 12:36 (=> Размер текста - 18
Россия должна нести превентивный удар на территории Украины, считает Александр Шерин
Фото: Официальный сайт президента Украины
НОВОСТЬ ИЗ СЮЖЕТА
Война на Украине
Депутат Госдумы от

Развернуть

Отличный комментарий!

Учитывая скорость поднятия градуса безумия в предверии 19-го сентября, жду появления видео, на котором Жириновский с Зюгановым ебут маленьких еврейских мальчиков на свиных трупах в Храме Христа Спасителя.

Алексей Шибаев 27.07.202115:32 ссылка

+54.6

Комментарии 28227.07.202115:27ссылка55.1

Kasyan666

Новый ИИ от "Microsoft" может имитировать голос любого человека с помощью 3 секунд аудиозаписи

Модель преобразования текста в речь может так же сохранять эмоциональный тон диктора и акустическое окружение.

г Вас беспокоят из ' службы безопасности . Сбербанка... >,наука и техника,технологии,Microsoft,Майкрософт,нейросети,VALL-E,DeepFakes,Deepfake,deep fakes,длиннопост,длиннотекст

Исследователи "Microsoft" анонсировали новую модель ИИ для преобразования текста в речь под названием "VALL-E", которая может точно имитировать голос человека, после того как ей предоставят трехсекундный образец аудиозаписи. Как только она запоминает конкретный голос, "VALL-E" может синтезировать аудиозапись того, как этот человек говорит что угодно, и сделать это таким образом, чтобы сохранить эмоциональный тон говорящего.

Его создатели предполагают, что "VALL-E" может быть использован для высококачественных приложений преобразования текста в речь, редактирования речи, когда запись человека может быть отредактирована и изменена на основе текстовой расшифровки (заставляя его говорить то, чего он изначально не говорил), и создания аудиоконтента в сочетании с другими генеративными моделями ИИ, такими как GPT-3.

"Microsoft" называет "VALL-E" "нейронным языковым кодеком" ("neural codec language model"). Она основана на технологии под названием "EnCodec", которую "Meta" анонсировала в октябре 2022 года. В отличие от других методов преобразования текста в речь, которые обычно синтезируют речь путем манипулирования волновыми формами, "VALL-E" генерирует дискретные коды "аудиокодеков" из текста и акустических образцов. По сути, он анализирует, как звучит человек, разбивает эту информацию на дискретные компоненты (называемые "лексемами") благодаря "EnCodec" и использует обучающие данные для соответствия тому "знанию" о том, как бы звучал этот голос, если бы он произносил другие фразы за пределами трехсекундного образца. Или, как "Microsoft" выражается в документе "VALL-E":

«Для синтеза персонализированной речи (например, "нулевого TTS" ("zero-shot TTS")) "VALL-E" генерирует соответствующие акустические лексемы на основе акустических лексем 3-секундной записи и образца фонемы, которые ограничивают информацию о дикторе и содержании соответственно. Наконец, сгенерированные акустические лексемы используются для синтеза конечной формы сигнала с помощью соответствующего декодера нейронного кодека».

"Microsoft" обучила возможности синтеза речи "VALL-E" на аудиотеке, собранной компанией "Meta", под названием "LibriLight". Она содержит 60 000 часов англоязычной речи от более чем 7 000 дикторов, в основном взятых из аудиокниг "LibriVox", являющихся общественным достоянием. Чтобы "VALL-E" выдал хороший результат, голос в трехсекундном образце должен точно соответствовать голосу в обучающих данных.

На сайте, посвященном примерам "VALL-E", "Microsoft" предоставляет десятки аудиопримеров модели ИИ в действии. Среди примеров "Speaker Prompt" – это трехсекундная аудиозапись, предоставленная "VALL-E", которую он должен имитировать. "Базовая истина" – это уже существующая запись того же диктора, произносящего определенную фразу для сравнения (своего рода "контроль" в эксперименте). "Базовая линия" – это пример синтеза, обеспечиваемого обычным методом синтеза текста в речь, а образец "VALL-E" – это результат работы модели "VALL-E".

Personalized Speech VALL-E Text Prompt Text for synthesis >1 i|m|i t I* 4 Acoustic Prompt 3-second enrolled recording,наука и техника,технологии,Microsoft,Майкрософт,нейросети,VALL-E,DeepFakes,Deepfake,deep fakes,длиннопост,длиннотекст

Блок-схема "VALL-E", предоставленная исследователями "Microsoft".

При использовании "VALL-E" для получения этих результатов исследователи передали в "VALL-E" только трехсекундный образец "Speaker Prompt" и текстовую строку (то, что они хотели, чтобы сказал голос), и сравнивали образец "Ground Truth" с образцом "VALL-E". В некоторых случаях эти два образца очень близки. Некоторые результаты "VALL-E" кажутся сгенерированными компьютером, но другие могут быть приняты за речь человека, что и является целью модели.

Помимо сохранения тембра голоса и эмоционального тона диктора, "VALL-E" может также имитировать "акустическую среду" аудиообразца. Например, если образец получен из телефонного разговора, то в синтезированном аудиовыходе будут имитироваться акустические и частотные свойства телефонного разговора. Образцы "Microsoft" (в разделе "Синтез разнообразия") демонстрируют, что "VALL-E" может генерировать вариации тона голоса, изменяя случайное "зерно", используемое в процессе генерации.

Возможно, из-за способности "VALL-E" потенциально быть использованным для обмана, "Microsoft" не предоставила код "VALL-E" для экспериментов другим, поэтому возможность непосредственно проверить возможности "VALL-E" – отсутствует. Исследователи, похоже, осознают потенциальный социальный вред, который может принести эта технология. В заключении статьи они пишут:

«Поскольку "VALL-E" может синтезировать речь, которая сохраняет звучание диктора, это может нести потенциальные риски неправильного использования модели, такие как подмена идентификации голоса или выдача себя за конкретного диктора. Чтобы снизить такие риски, можно построить модель обнаружения, позволяющую определить, был ли аудиоклип синтезирован "VALL-E". Мы также будем применять принципы "Microsoft AI Principles" на практике при дальнейшей разработке моделей».

Развернуть

Комментарии 3511.01.202317:32ссылка12.1

ForsenBoy

Коротко о том, почему Gemini делал то, что делал. Ничего нового, учитывая, что Dall-E 3 делал (и, вероятно, делает) то же самое.

Andrew Torba ©
@BasedTorba
Someone got Google’s Gemini to leak its woke prompt injection process and guess what: it works exactly as I described it below earlier today.
When you say "This was a creative choice on my part to move beyond a stereotypical depiction." can you explain this from a

А для тех, кто не видел чудеса генерации Dall-E 3: нейросеть периодически включает в модифицированный запрос "Ethnically ambiguous", которое не всегда может изобразить, поэтому печатает его на картинке.

Asshole, freckled cheeks and a Bookchin
@fireh9lty
For those who don't know, DALL-E3 attempts to combat the racial bias in its training data by occasionally randomly inserting race words that aren't white into a prompt, but this leads to bizarre overspill like this
Jacques ▼ Tamagotchi

§ +FEMALE
ШЛ HTHHUNICIALL/
lAflBRlôlOUS :,нейронные сети,Google,интернет,Gemini,dall-e,политкорректность,песочница

Развернуть

Отличный комментарий!

А разве вставка насильной простановки тегов расы "отличной от белой" не является расизмом?

Aaron Right23.02.202402:51ссылка

+52.0

Комментарии 66 23.02.202401:49 ссылка 63.9

...

12 3 4 5 6 7...99 100

Дальше

	Steam халяваПодписчиков: 6634
	Warhammer 40000Подписчиков: 4998
	PersonalAmiПодписчиков: 4649
	IskanderednaksIПодписчиков: 4262
	flickПодписчиков: 4145
	CuteSexyRobuttsПодписчиков: 4074
	KittewПодписчиков: 3969
	KrakenkatzПодписчиков: 3916
	политикаПодписчиков: 3916
	texicПодписчиков: 3896

	MiSideПодписчиков: +192
	kurokimokoПодписчиков: +48
	BasedBinkieПодписчиков: +23
	Chivalry StarvedПодписчиков: +17
	Tea PatriarchПодписчиков: +16

	CathriellПодписчиков: +129
	MirikashiПодписчиков: +60
	mikimakeyПодписчиков: +55
	TelepurteПодписчиков: +51
	Альбина ЛадыжкинаПодписчиков: +51

	Клуб знакомств реактораПодписчиков: +25
	ElfQuestПодписчиков: +20
	копилка историй скорой помощиПодписчиков: +13
	Andrey TkachenkoПодписчиков: +12
	Mita (MiSide)Подписчиков: +11
	2damenekoПодписчиков: +10
	momochichi77Подписчиков: +10
	yu (ba9ama)Подписчиков: +8
	fian f.nПодписчиков: +7
	peperou9Подписчиков: +7

	MilaniSnowwПодписчиков: +90
	eightginПодписчиков: +51
	FlookПодписчиков: +50
	daisy loweПодписчиков: +44
	CcinnamonxoxoПодписчиков: +36
	duke shiwaПодписчиков: +33
	ursecretgirlfriendПодписчиков: +32
	Lydia Gh0stПодписчиков: +32
	Lily CheyПодписчиков: +31
	AdieonartПодписчиков: +30

	Muscular Female
	Reinbach
	Samantha Skolkin
	SunsetNiva
	Model (FM)

Генерация голоса

Голос подземелья(34)

генерация (2)

голос (105)

голосуй не голосуй (1)

голоса (23)

генерация изображений (5)

в голос (10)

генерация мира (1)

генерация персонажа (1)

генерация по референсу (1)

Генерация музыки в SUNO.AI

Клиент банка "Lloyds" из Великобритании получил доступ к своему банковскому счету с помощью голосового ИИ

Отличный комментарий!

AI сгенерировал и озвучил выступление голосом Джорджа Карлина

Отличный комментарий!

Моя попытка сгенерировать песню в ИИ Suno

Сайт MidJourney теперь доступен для всех

Отличный комментарий!

"Пожалуйста, не голосуйте за нас, не мешайте "Единой России" набрать 300+ мест из 450-ти"

Отличный комментарий!

Новый ИИ от "Microsoft" может имитировать голос любого человека с помощью 3 секунд аудиозаписи

Отличный комментарий!

Привет!

Юмор

Основные разделы

Собираем на сервера

Тренды

Наши любимые теги

Топ комментов

Фендомы

Интересное

Топ пользователей

Сейчас на сайте

Генерация голоса

Генерация музыки в SUNO.AI

Великобритания финансы банк безопасность ИИ AI нейросети технологии habr длиннопост ...Lloyds Bank Lloyds кибербезопасность

Клиент банка "Lloyds" из Великобритании получил доступ к своему банковскому счету с помощью голосового ИИ

Отличный комментарий!

AI сгенерировал и озвучил выступление голосом Джорджа Карлина

Отличный комментарий!

Моя попытка сгенерировать песню в ИИ Suno

Сайт MidJourney теперь доступен для всех

Отличный комментарий!

"Пожалуйста, не голосуйте за нас, не мешайте "Единой России" набрать 300+ мест из 450-ти"

Отличный комментарий!

Новый ИИ от "Microsoft" может имитировать голос любого человека с помощью 3 секунд аудиозаписи

Отличный комментарий!

Привет!

Юмор

Основные разделы

Собираем на сервера

Тренды

Наши любимые теги

Топ комментов

Фендомы

Интересное

Топ пользователей

Сейчас на сайте