Артикли
Личные наблюдения - Нейросети очень требовательны к артиклям
И если вы хлебушек, прям как я, и не видите разницы между (MAN), (A MAN) и (THE MAN) - вас ждёт много мороки, чтобы добиться нужного результата
Да, я мог бы эти знания почерпнуть в каких нибудь мануалах и обучающих видео, но камон! ) Кто лезет в инструкции, пока всё и так понятно? )
Разбираться в процессе куда веселее )
Примеры генерации с артиклем и без него
Еще на тему
Но если за это не цепляться, то да, любой текст слегка уводит результат, и порядок слов тоже на это влияет. Просто пол это не четкий параметр для нейронки, и латентное пространство не поделено пополам между м/ж. Если хочешь м, то делай (м:1.2) например. Я к тому что не надо бегать с артиклями, если хочешь что-то усилить. Для этого есть синтакс усиления.
Словно они слегка недорисованы
Генерю на старенькой 1080, но вполне хватает для старта. Была идея создавать визуал для настольно-ролевых, чтобы потом монтировать в видосы в виде анимированного комикса - этим как раз сейчас и занимаюсь.
Развернуть у себя можно было только Stable Diffusion, поэтому за него и взялся. Очереди и ограничения в других нейронках это не вариант, когда понимаешь что будет много неудачных генераций. Так что пошёл курить мануалы по поводу. И повезло что было решение почти из коробки - идеальный инструмент для старта Easy Diffusion.
Минимум настроек чтобы заблудиться, разворачивается на твоём компе, работает из браузера. Все нужные настройки в комплекте. Подгружаешь нужные модели и экспериментируешь с промптами. Ничего сложного с виду. Дьявол кроется в деталях.
Хотелось для проекта уникальный стиль. И не брать же готовый, верно? Чё я, лох какой то, чтоб всё готовенькое брать? Пошёл курить как обучать модель стиля. Нашёл описание блокнота, который разворачивается на гугл-коллабе, и тренирует тебе модель.
И вот тут я поел говна знатно. Потому что требовалось для начала отобрать правильно изображения для тренировки. И даже работы одного и того же художника стоит сильно просеивать, иначе получится шляпа - как у меня в первые разы. Плюс нужно давать описание каждой картинке, и делать это правильно, чтобы сеть понимала на что обращать внимание. К тому же нельзя слишком много изображений давать, но и слишком мало не стоит (из 900 сохранённых работ художника через все этапы просеивания выбрал всего 50). Потом правильно выставлять настройки для обучения - а тут мнений ёбаная гора. Причём как это водится - любой еблан считает что его мнение верное, но пояснить за него нихера не может. К тому же проблема с самим гугл-коллабом, который может на середине обучения просто послать тебя в жопу и завершить сеанс, и если ты не настроил промежуточные сохранения - начинай всё заново в следующие сутки, потому что время ограничено.
С горем пополам короче обучил стиль, и он даже выдавал удовлетворительные результаты. Это я потом уже нашёл реально крутого спеца, который рассказывал про ВСЕ параметры и за что они отвечают при обучении, и понял насколько хуёво обучил свою модель. Но результаты она выдавала, и иногда даже крутые. Хотя всё конечно зависело от правильного промпта и удачи.
И вот когда я стал переходить к реально сложным сценам - начались проблемы. Ладно ещё руки. Это пол беды. Позы. Простые позы генерировать легко. А вот сложные сцены с несколькими персонажами это уже огромная боль...
Начал искать варианты как правильно делать, и окунулся в ещё одну плоскость - controlnet. Это ещё одна неебаться какая большая тема, и в моей ED для работы с ней крайне ограниченные инструменты. Вот это уже была проблема...
Начал искать другую оболочку для сервака. Нашёл модульную AUTOMATIC1111. Прикольный инструмент, но пиздецки перегруженный всякими ползунками, настройками, вкладками и всем подряд.
Потратил неделю наверное, чтобы попытаться привыкнуть и настроить под себя. А оно ещё и обновляется постоянно. Те туториалы, которые были актуальными пол года назад уже нихера не работают. Надо прям поизъёбываться, чтобы всё работало.
Плюнул, и совершенно случайно, без мануалов, понял как использовать ControlNet в привычном Easy Diffusion. Да, функционал в нём ограниченнее получается - но он есть. Может потом будет чуть больше времени и я таки доебу AUTOMATIC1111, и смогу привыкнуть к нему. Но пока что буду работать с ED.
Потом открыл для себя Civitai - архив моделей всех видов, и нашёл для себя как раз новую модель чекпоинта, которая всё делает в виде красивых комиксов. А мой херовенько-обученный стиль идеально зашёл, чтобы сделать стиль модели чуть шероховатой, как мне и нравится.
Сейчас потихоньку буду раскуривать controlnet, потому что без него в сложных генерациях никуда, это прям хлеб с маслом. Надеяться что при нужном описании всё встанет по местам - это как ждать чуда с небес.
По поводу заработка - ничего не могу сказать.
Я делаю просто потому что хочу делать. Давно хотел свою игру записать и выложить, но не хотел делать "как у всех". Этот формат меня устраивает. А когда делаешь проект, главное чтобы нравилось внутреннему критику.
Ну а что до публики - свой зритель всегда найдётся. Буду просто делать, не ожидая что выстрелит. Если проект обретёт популярность, то будет приятно. Если нет - я на неё и не рассчитывал
Да, без контролнета вообще ничего не сделаешь, только дефолтные позы, либо упрашивать сетку в промпте и надеяться на чудо. И мне тоже нравится что после столько времени я нашел нормальное хобби с непахаными полями развития.
Щас чуть позже напишу, что я выяснил, пока шерстил плагины и прочее.
2. Вообще если охота прям инженерить процесс, то надо вкуривать ComfyUI. Он с одной стороны технический овердохуя, но с другой там наглядно видно, что куда с чем связано, и как это работает. Это я оставил на далекое будущее, когда автоматик начнет мешаться под ногами.
3. Чтобы говорить сд, куда что рисовать, используют https://github.com/hako-mikan/sd-webui-regional-prompter Он позволяет разбить картинку на регионы (колонки + строки) и для каждого региона написать свой промпт. При этом это не просто несколько пикч склеивается, он реально каким-то образом бесшовно их соединяет.
4. Обязательно поставь civitai helper, если ЕД позволяет. Это плагин которым можно качать, обновлять и скачивать иконки для чеков, ти, лор и прочего, просто скопировав ссылку на страницу модели цивитая. Качать и заносить модели руками мне было очень муторно, особенно когда их много перебираешь. И еще когда лор очень много, лучше их разложить по папкам.
5. Чтобы "осмотреться" вокруг одного промпта, можно юзать X/Y/Z плот. Очень удобно для понимания что делает тот или иной параметр, и как он плавает относительно других. Но на 1080 это конечно была та еще веселуха, я на время батча покурить уходил и чай заварить.
Вроде пока все, удачной генерации мужик!
6. (На самом деле "0.") *Обязательно* убедись что ты юзаешь sdp-no-mem ИЛИ стоят xformers 0.0.20. Плюс torch 2.0+ и свежие нвидиевские дрова - это ускоряет генерацию раза в полтора. Но это очень техническая хрень, так что лучше перед этим сделать бакап папки за минусом чеков и лор. Алсо, sdp-no-mem или xformers меняют сиды, так что репродукции старых пикч не будет (но с новыми все будет норм). Полный гайд тут https://www.reddit.com/r/StableDiffusion/comments/1476xt3/list_of_all_the_ways_to_improve_performance_for/ (у меня этих ссылок уже целая папка блин)
7. Для анимации говорящих лиц я успешно заюзал плагин для SadTalker. Он из картинки + звуковой дорожки с голосом делает гиф/видео говорящей головы. Там ничо сложного, просто подумал для игры твоей может пригодится. Но генерит он это все годами конечно. Требует чтобы ffmpeg был установлен и доступен в путях.
Из того что я сам еще не трогал, но в курсе что надо бы вкурить:
- У контролнета есть три юнита, подозреваю что для контроля разных частей пикчи
- Почему-то у меня виснет ESRGAN апскейл (латентный и ланкос нормально работают)
- Openpose Editor чтобы не искать референс контролнета в яндексе, а рисовать самому. https://github.com/fkunn1326/openpose-editor Хотя можно и онлайн позогенераторы юзать