Разработчик собрал видео-ассистента с поддержкой множественных персонажей.
" Работает на 3060 12 GB, Nvidia на 8 GB, скорее всего, тоже хватит.
Из-за записи экрана есть небольшие задержки.Без записи и на английском языке полная задержка от голосовой команды до видео ответа - всего 1.5 секунды! "
Код, exe, инструкция:https://github.com/Mozer/talk-llama-fast
Автор пишет: " Talk-llama-fast с поддержкой wav2lip:
- добавил поддержку XTTSv2 и wav-streaming.
- добавил липсинк с видео через wav2lip-streaming.
- уменьшил задержки везде где только мог.
- русский язык и UTF-8.
- поддержка множественных персонажей.
- остановка генерации при обнаружении речи.
- команды: Google, стоп, переделай, удали всё, позови.
Под капотом:
- STT: whisper.cpp large
- LLM: Mistral-7B-v0.2-Q5_0.gguf
- TTS: XTTSv2 wav-streaming
- lipsync: wav2lip-streaming
- Google: langchain google-serp "
Подробнее
talk-llama-fast wav2lip - неформальный видео-ассистент на русском
talk-llama-fast v0.1.3 - informal video assistant [en]
talk-llama-fast - инструкция на русском
нейронные сети,talk-llama-fast,голосовой помощник,github
Долгожданная утопия, где у самого нищего крестьянина не менее трёх рабов
власть развращает, бесконечная власть развращает бесконечно, а наши нищие крестьяне и так не образец добродетели
Нет, не правильно. Не поэтому.
Шторы шьет.
Собрал ИИ-сучку-цундере которую можно заткнуть. Ниплоха.