Артикли / нейроарт :: личное сделал сам :: нейронные сети :: личное

Артикли

Личные наблюдения - Нейросети очень требовательны к артиклям

И если вы хлебушек, прям как я, и не видите разницы между (MAN), (A MAN) и (THE MAN) - вас ждёт много мороки, чтобы добиться нужного результата

Да, я мог бы эти знания почерпнуть в каких нибудь мануалах и обучающих видео, но камон! ) Кто лезет в инструкции, пока всё и так понятно? )

Разбираться в процессе куда веселее )

Примеры генерации с артиклем и без него

Подробнее

личное,нейроарт,нейронные сети,личное сделал сам

Еще на тему

нейронные сети(27191)

Развернуть

Комментарии 825.09.202308:50ссылка0.4

У тебя просто чекпоинт склонен генерить баб, вот малые изменения его и перевозбуждают. То же самое с лорами, см. например https://joyreactor.cc/post/5645157#comment28387569
Но если за это не цепляться, то да, любой текст слегка уводит результат, и порядок слов тоже на это влияет. Просто пол это не четкий параметр для нейронки, и латентное пространство не поделено пополам между м/ж. Если хочешь м, то делай (м:1.2) например. Я к тому что не надо бегать с артиклями, если хочешь что-то усилить. Для этого есть синтакс усиления.

e38m4 25.09.202310:17 ответить ссылка 0.1

* имелось ввиду (man:1.2)

e38m4 25.09.202310:19 ответить ссылка ↑ 0.1

Синтаксис использую, по необходимости. Но тут был именно прикол в минимальном отличии, без изменения веса ) Кстати очень доволен результатом получившегося стиля от скачанного чекпоинта + собственноручно обученной лоры. Оригинальный чек слишком глянцевые и вылизанные результаты выдаёт, а лора превращает арты в раскрашенные карандашные скетчи.
Словно они слегка недорисованы

kagarot 25.09.202311:19 ответить ссылка ↑ 0.0

Поделись плиз бэкграундом в этой теме. Я недавно в это вкатился, сам техномужик, не дизайнер, не артист. Но меня это как-то зацепило, чувствую потенциал именно в сложных/глубоких подходах. Аж купил 4070ти себе недавно, ни разу не пожалел. На этом чо-нибудь заработать можно [будет] вообще? Просто то, что я вижу в интернетах, это обычно простые промпты. Как Хреновина говорит "быстро нажать кнопку и все". Не понимаю что там артисты разнылись про плагиат, ведь чтобы сделать нормальную пикчу, по запросу, а не рандомную, надо быть полупрограммистом, полу-промпт инженером А тема-то глубокая и интересная, плюс мы только на заре всего этого.

e38m4 25.09.202312:32 ответить ссылка ↑ 0.0

УУУ... будет много букаф )

Генерю на старенькой 1080, но вполне хватает для старта. Была идея создавать визуал для настольно-ролевых, чтобы потом монтировать в видосы в виде анимированного комикса - этим как раз сейчас и занимаюсь.

Развернуть у себя можно было только Stable Diffusion, поэтому за него и взялся. Очереди и ограничения в других нейронках это не вариант, когда понимаешь что будет много неудачных генераций. Так что пошёл курить мануалы по поводу. И повезло что было решение почти из коробки - идеальный инструмент для старта Easy Diffusion.

Минимум настроек чтобы заблудиться, разворачивается на твоём компе, работает из браузера. Все нужные настройки в комплекте. Подгружаешь нужные модели и экспериментируешь с промптами. Ничего сложного с виду. Дьявол кроется в деталях.

Хотелось для проекта уникальный стиль. И не брать же готовый, верно? Чё я, лох какой то, чтоб всё готовенькое брать? Пошёл курить как обучать модель стиля. Нашёл описание блокнота, который разворачивается на гугл-коллабе, и тренирует тебе модель.

И вот тут я поел говна знатно. Потому что требовалось для начала отобрать правильно изображения для тренировки. И даже работы одного и того же художника стоит сильно просеивать, иначе получится шляпа - как у меня в первые разы. Плюс нужно давать описание каждой картинке, и делать это правильно, чтобы сеть понимала на что обращать внимание. К тому же нельзя слишком много изображений давать, но и слишком мало не стоит (из 900 сохранённых работ художника через все этапы просеивания выбрал всего 50). Потом правильно выставлять настройки для обучения - а тут мнений ёбаная гора. Причём как это водится - любой еблан считает что его мнение верное, но пояснить за него нихера не может. К тому же проблема с самим гугл-коллабом, который может на середине обучения просто послать тебя в жопу и завершить сеанс, и если ты не настроил промежуточные сохранения - начинай всё заново в следующие сутки, потому что время ограничено.

С горем пополам короче обучил стиль, и он даже выдавал удовлетворительные результаты. Это я потом уже нашёл реально крутого спеца, который рассказывал про ВСЕ параметры и за что они отвечают при обучении, и понял насколько хуёво обучил свою модель. Но результаты она выдавала, и иногда даже крутые. Хотя всё конечно зависело от правильного промпта и удачи.

И вот когда я стал переходить к реально сложным сценам - начались проблемы. Ладно ещё руки. Это пол беды. Позы. Простые позы генерировать легко. А вот сложные сцены с несколькими персонажами это уже огромная боль...

Начал искать варианты как правильно делать, и окунулся в ещё одну плоскость - controlnet. Это ещё одна неебаться какая большая тема, и в моей ED для работы с ней крайне ограниченные инструменты. Вот это уже была проблема...

Начал искать другую оболочку для сервака. Нашёл модульную AUTOMATIC1111. Прикольный инструмент, но пиздецки перегруженный всякими ползунками, настройками, вкладками и всем подряд.

Потратил неделю наверное, чтобы попытаться привыкнуть и настроить под себя. А оно ещё и обновляется постоянно. Те туториалы, которые были актуальными пол года назад уже нихера не работают. Надо прям поизъёбываться, чтобы всё работало.

Плюнул, и совершенно случайно, без мануалов, понял как использовать ControlNet в привычном Easy Diffusion. Да, функционал в нём ограниченнее получается - но он есть. Может потом будет чуть больше времени и я таки доебу AUTOMATIC1111, и смогу привыкнуть к нему. Но пока что буду работать с ED.

Потом открыл для себя Civitai - архив моделей всех видов, и нашёл для себя как раз новую модель чекпоинта, которая всё делает в виде красивых комиксов. А мой херовенько-обученный стиль идеально зашёл, чтобы сделать стиль модели чуть шероховатой, как мне и нравится.

Сейчас потихоньку буду раскуривать controlnet, потому что без него в сложных генерациях никуда, это прям хлеб с маслом. Надеяться что при нужном описании всё встанет по местам - это как ждать чуда с небес.

По поводу заработка - ничего не могу сказать.
Я делаю просто потому что хочу делать. Давно хотел свою игру записать и выложить, но не хотел делать "как у всех". Этот формат меня устраивает. А когда делаешь проект, главное чтобы нравилось внутреннему критику.

Ну а что до публики - свой зритель всегда найдётся. Буду просто делать, не ожидая что выстрелит. Если проект обретёт популярность, то будет приятно. Если нет - я на неё и не рассчитывал

kagarot 25.09.202313:07 ответить ссылка ↑ 0.0

Ахаха, я примерно то же путь прошел, только начал с автоматиком на 1080, но еще не тренил (читал что это муторно). А еще я сидел на адсл до недавнего времени, и любое "нук попробую" означало часы ожидания. С нормальным интернетом и видяхой конечно небо и земля просто.
Да, без контролнета вообще ничего не сделаешь, только дефолтные позы, либо упрашивать сетку в промпте и надеяться на чудо. И мне тоже нравится что после столько времени я нашел нормальное хобби с непахаными полями развития.
Щас чуть позже напишу, что я выяснил, пока шерстил плагины и прочее.

e38m4 25.09.202313:15 ответить ссылка ↑ 0.1

1. В общем первое, что я понял, это то что лоры кардинально меняют картинку. То есть если ты "бороздишь" латентное пространство в поисках нужного, то лучше сразу включать лору, иначе при ее подключении все изменится. Но частенько лоры искажают сам чек, а работать интересно конечно больше с чеком. Тут работает момент, который я описывал в посте Хреновины. Плагин называется https://github.com/cheald/sd-webui-loractl (он для автоматика, не знаю как для ЕД). Вкратце, он вместо статичного my_lora:0.5 позоляет делать ее вес динамическим во времени, так что сначала чек прорисовывает свою основу, и только потом лора накидывает концепции. Минус - в нехилом замедлении генерации. Также тут важен синтакс [a : b : stage], который до stage генерит "a", а после stage генерит "b". Так можно кейворды лор подключать тоже не сразу, а вовремя. Это стандартный синтакс вроде https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features#prompt-editing хотя может и автоматика. Но почти все - его клоны на самом деле, так что шансы высокие.

2. Вообще если охота прям инженерить процесс, то надо вкуривать ComfyUI. Он с одной стороны технический овердохуя, но с другой там наглядно видно, что куда с чем связано, и как это работает. Это я оставил на далекое будущее, когда автоматик начнет мешаться под ногами.

3. Чтобы говорить сд, куда что рисовать, используют https://github.com/hako-mikan/sd-webui-regional-prompter Он позволяет разбить картинку на регионы (колонки + строки) и для каждого региона написать свой промпт. При этом это не просто несколько пикч склеивается, он реально каким-то образом бесшовно их соединяет.

4. Обязательно поставь civitai helper, если ЕД позволяет. Это плагин которым можно качать, обновлять и скачивать иконки для чеков, ти, лор и прочего, просто скопировав ссылку на страницу модели цивитая. Качать и заносить модели руками мне было очень муторно, особенно когда их много перебираешь. И еще когда лор очень много, лучше их разложить по папкам.

5. Чтобы "осмотреться" вокруг одного промпта, можно юзать X/Y/Z плот. Очень удобно для понимания что делает тот или иной параметр, и как он плавает относительно других. Но на 1080 это конечно была та еще веселуха, я на время батча покурить уходил и чай заварить.

Вроде пока все, удачной генерации мужик!

6. (На самом деле "0.") *Обязательно* убедись что ты юзаешь sdp-no-mem ИЛИ стоят xformers 0.0.20. Плюс torch 2.0+ и свежие нвидиевские дрова - это ускоряет генерацию раза в полтора. Но это очень техническая хрень, так что лучше перед этим сделать бакап папки за минусом чеков и лор. Алсо, sdp-no-mem или xformers меняют сиды, так что репродукции старых пикч не будет (но с новыми все будет норм). Полный гайд тут https://www.reddit.com/r/StableDiffusion/comments/1476xt3/list_of_all_the_ways_to_improve_performance_for/ (у меня этих ссылок уже целая папка блин)

7. Для анимации говорящих лиц я успешно заюзал плагин для SadTalker. Он из картинки + звуковой дорожки с голосом делает гиф/видео говорящей головы. Там ничо сложного, просто подумал для игры твоей может пригодится. Но генерит он это все годами конечно. Требует чтобы ffmpeg был установлен и доступен в путях.

Из того что я сам еще не трогал, но в курсе что надо бы вкурить:
- У контролнета есть три юнита, подозреваю что для контроля разных частей пикчи
- Почему-то у меня виснет ESRGAN апскейл (латентный и ланкос нормально работают)
- Openpose Editor чтобы не искать референс контролнета в яндексе, а рисовать самому. https://github.com/fkunn1326/openpose-editor Хотя можно и онлайн позогенераторы юзать

e38m4 25.09.202313:57 ответить ссылка ↑ 0.1

Ля, большое спасибо ) раскурю полученное, буду делиться результатами потихоньку )

kagarot 25.09.202320:54 ответить ссылка ↑ 0.3

Только зарегистрированные и активированные пользователи могут добавлять комментарии.

Похожие темы