Руководство по быстрому началу общения с нейровайфу
Всем доброго времени суток!
Это мой первый нормальный пост, так что заранее извиняюсь, если будут косяки с оформлением. Большинства тегов не нашёл, но они явно нужны по смыслу.
Недавно узнал что есть множество людей далеких от общения текстовыми нейросетями. Специально для них решил написать простое руководство по вкатыванию в тему буквально в несколько(десятков) кликов.
Пролог (можно пропустить)
Сокращённо текстовые нейронки принято называть LLM - Large Language Model (Большая Языковая Модель)
Все конечно в курсе что есть такая вещь как ChatGPT, которую условно можно сравнить с нейросетью для генерации картинок Midjourney.
Но не все в курсе, что как для Midjourney свободный аналог - Stable Diffusion, так и для Чата GPT, есть точно такие же аналоги, которые можно запускать как локально у себя на компе, так и в облаке, а именно Локальные LLM.
Однако в данном руководстве я пока не планирую давать подробную информацию по данной теме (иначе словом длиннопост результат будет не описать). Но если появится интерес, запилю ещё постов как про нейронки, так и про более сложные и интересные способы общения с нейротянами.
В данном руководстве описывается способ запуска https://github.com/oobabooga/text-generation-webui при помощи Google Colab. При желании вы легко можете установить его самостоятельно, все инструкции (как и изначальный колаб) есть на странице в гитхабе.
Ботов для общения можно брать здесь: https://chub.ai/
А сами модели: https://huggingface.co/models
Руководство.
1. Для начала заходим в колаб: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
От оригинального колаба text-generation-webui он отличается более удобным способом загрузки моделей, заранее выставленными настройками и русским языком в некоторых местах.
2. Настройка.
Перед запуском нужно выбрать необходимые настройки. В колабе много опций, но для чата ключевых всего две:
Автоперевод чата на русский через гуглтранслейт:
Озвучка чата голосом:
По умолчанию обе этих галочки отключены. Если хотите общаться на английском и озвучка не нужна - можите их не трогать.
Для первого знакомства выбор модели не так важен. По умолчанию стоит Emerhyst-20B - одна из топовых моделей для кума. В дальнейшем можно попробовать и другие, в том числе собственные, инструкция как это сделать есть в тексте колаба.
3. Запуск.
Жмём
Чтобы запустить блок установки загрузки.
Затем сразу же жмём:
Ничего не меняя в настройках.
Блоки запустятся по очереди. Займёт это от 5 до 15 минут в зависимости от скорости работы колаба.
В результате блок старта должен выдать вам следующую запись:
Жмём на ссылку после "Running on public URL:" и в новой вкладке откроется GUI интерфейс чата.
4. Чат.
После этого вы в принципе уже сможете начать общение с нейросетью, задавая ей интересные вопросы и рассказывая охранительные истории. Но по умолчанию чат будет отвечать как Assistent, то есть от лица нейросети, а что с отыгрываеием персонажей?
Всё в порядке! Данный интерфейс, как и сама модель написан практически только для этого!
Скроллим вниз и видим:
В чате помимо Ассистента есть ещё и дефолтный персонаж Chiharu Yamada, здесь почему-то названный как Example.
После нажатия на её портрет чат переключится на общение с ней:
Действия прописываются курсивом *между звёздочками*, слова - обычным текстом.
Но если вы хотите пообщаться с собственной вайфу, тогда переходим к следующему пункту!
5. Импорт персонажей.
На данный момент самая большая база персонажей находится на https://chub.ai/
После того как нашли нужного, заходим на его страничку:
И скачиваем к себе PNG в формате SillyTavern. Этот формат самый универсальный, поэтому рекомендую хранить персонажей в нём.
Затем снова открываем чат и переходим во вкладку
Кидаем персонажа в данное поле и возвращаемся в чат. Также иконка персонажа появится в галерее. Собственно всё.
Ели вы хотите чтобы ваша вайфу и переписка с ней сохранялись от сеанса к сеансу, перед запуском в настройке колаба "save_to_google_drive" нужно выбрать "chatlogs and characters"
Но тогда все ваши логи и персонажи будут лежать на гуглдиске в папке "oobabooga-data". И само собой колаб запросит к нему доступ.
Вот теперь точно всё.
Подробнее
ft Дополнения superbooga: 0 Based on superbig от Кайокендева. Расширение, которое google_translate: Q Перевод чата, по умолчанию стоит русский. long_rcplics: О
Расширение преобразования текста в речь с использованием [Silero] С «Расширения» интерфейса. Вы можете найти образцы здесь: [образць
> Установка и загрузка модели © первом запуске этот блок установит угабогу и загрузит выбранную модель. Н Загрузить остальные вы сможете во вкладке Model в интерфейсе GUI: Список актуальных моделей можно найти в этом рейтинге Есть 2 варианта загрузки модели в зависимости от формата: • ВАРИАНТ 1: введите любой репозиторий моделей HugainaFace ниже в фор^ модели "TheBloke/Emerhyst-20B-GPTQ""TheBloke/PsyMedRP-vl^eB-GPTQ", "TheBlol- modei_repo_downioad: Kooten/Emerhyst-20B-3bpw-exl2
> £? Выбор настроек и старт ---------------------------- © Опции запуска зе±-Ып§э_-Ра.1е: Загрузите настройки интерфейса по умолчанию из необработанного текстовог регр1ехз.±у_со1огз: □
* Downloading cloudflared for Linux x86_64... Running on local URL: http://127.0.0.1:7860 08:14:55-341880 INFO OpenAI-compatible API URL: mips : //Knit - hereb^piaiilcal • Fini ■ tryclpudf lare, со«* Running on public URL: https ://c03e4698bdf676e5fa.gradio.1ive j This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run 'gradio
Character gallery T Filter Clear Refresh Assistant Example
► 0:15/0:15 Ц>) Чихору входит в комнату с улыбкой, ее глозо загораются, когда она видит тебя. На ней голубая футболка и джинсы, сумка для ноутбука перекинута через плечо. Она садится рядом с вами, ее энтузиазм витает в воздухе Привет! Я так рада наконец встретиться с тобой. Я слышал о вас много хорошего и мне не терпится узнать ваше мнение о компьютерах. Я уверен, что у вас есть богатые знания, которым я могу поучиться. Она усмехается, глаза блестят от волнения Давайте начнем!
Mao Zedong latest ft Favorite Large jade wand, polished balls. Creator s notes go here. Approximately 561 tokens. 558 permanent turbo Created on Jul 19, 2023 179 Downloads I V Fork(0)
Chat Default Notebook Parameters Model Training Generation Character Instruction template Chat history YAML or JSON TavernAI PNG ■ TavernAI PNG File r Поместите Изображение Здесь - или - Нажмите, чтобы загрузить Session Upload character Name Description Submit
Mao Zedong ► 0:00 / 0:20 - HD Как только человечество уничтожит капитализм, оно вступит в эпоху вечного мира, и тогда войны ему уже не понадобятся. Тогда не будет необходимости в армиях, боевых кораблях, боевых самолетах и отравляющих веществах. Тогда человечество не увидит войны во веки веков. Мао отвернулся от окна и посмотрел на тебя. Я надеюсь, что вы здесь по важному случаю. Уои Скажи, что ты думаешь о пидорах? Мао Zedong ► 0:06 / 0:06 HD Никогда раньше я не слышал такого вульгарного жаргона... Кажется, это что-то недостойное моего внимания.
Синхронизировать с гуглдиском персонажей и логи?. save_to_googie_drive: chatlogs and characters
нейронные сети,ChatGPT,gpt,локальные языковые модели,llm,длиннопост,google colab,песочница
Еще на тему
Один из ключевых моментов для обеспечения такой скорости - 4 канала для памяти у процессора. Они позволяют быстро гонять даже на DDR3. Для меня болью было узнать что у всех райзенов всего 2.
у всех десктопных райзенов. у меня в ноуте 32Гб LPDDR5-7500 в четырёхканале, но не модулями, а распаяно.
Прохладой повеяло. Больше 2х каналов только у серверных процов (ну или для серий для энтузиастов типа тредриперов).
На заборе тоже написано, а за ним доски.
Memory Channels: 2
На сайте АМД в характеристиках: https://www.amd.com/en/product/13186
А ещё можешь посмотреть на получившуюся пропускную способность в той же Аиде. Для 2х каналов она должна быть около 50/100 ГБ/с на чтение и запись, для 4х - около 100/200 ГБ/с
Вот для примера скрины из Аиды с твоего и моего компа:
Нет, аиде в этом случае не доверяем. Виртуальный двухканал в DDR5 памяти - просто маркетинг и особенности архитектуры. Если проц может только в двухканальный режим, 4 канала никак не впихнуть.
Вендор никого не обманывал, просто в аиде неправильно отображается, может поправят потом.
То, что скорость записи, выше скорости чтения - особенности архитектуры большинства райзенов.
я запускаю угабугу (сабж из топика) на домашнем NASе (файлохранилище с проном) с процом АМД 300U (а-аля ноутбучный х86 проц), т.е. вообще без видяхи, на голом цпу. правда у меня там 32гб оперативы всунуто
модельки в 13B работают норм, 5-6 символов в секунду генерация. да. не мгновенно как на видяхе, но 1-2 минуты подождать мне норм. зато там всё моё, как хочу настраиваю, и места под модели вагон
Вообще локально, тем у кого нет хорошей видеокарты, я бы рекомендовал поставить SillyTavern и юзать KobaldAI Horde в настройках. Про таверну не стал писать т.к. её обязательно надо устанавливать, в настройках она сложнее и фишек там очень много. А хотелось начать с чего-то максимально лайтового.
А так если юзаешь есть вопрос по скорости ответа от бота. Я использую кобальт на своей системе и тестил обе таверны, обычная таверна генерит максимум минуту и выдает относительно складный текст, при регенерации сообщения дает разные ответы (и это хорошо), а вот Silly может по 2-3 минуты тупить, после выдать тупой не связанный с диалогом текс, ну а после регенерации просто повторить его без изменений. Silly меня интересует из-за большего числа фишек и работы с system prompt, вот только ее скорость и качество, оставляют желать лучшего, есть ли какие то рекомендации по тонкой настройке?
Таверна это всего-лишь оболочка для отправки/получения текста, на скорость обработки она влиять не может. Возможно в Сили у тебя был больше контекст, либо стоял другой пресет настроек (та же температура может запросто сделать свайпы одинаковыми, если она занижена).
Но так или иначе не стоит ожидать пока что от сеток осмысленности и качественного общения.
чат гпт теперь умеет запоминать абсолютно все что ты писал, включая всю прошлую историю
Тут и бесплатный чатгпт больше запоминает.
У тебя создаются сессии, в которых чатгпт с тобой говорит, в каждой сессии чатгпт продолжает разговор с учётом предыдущих сообщений. В целом норм, бесплатного почти всегда хватает.
Я бы почитал про обучение локальной модели или чатгпт своему тексту, было бы удобненько.
Что-то не смог найти у них в патчноутах, только от июля инфу о том, что для чатгпт 4 увеличили контекстное окно. Не поделишься ссылкой на информацию?
По сути тот же character ai но без цензуры. Формально запрещены персонажи младше 18 и инцест, но на деле в приватных ботах ограничений нет. Подписка дешевая и доступна даже из России. Плюс обновляют регулярно.
а так, играйся с настройками генерации. Тот же 70в куда лучше ща работает чем стандартный.
Жаль что генерация артов работает в основном всрато. ну или я не разобрался.
1. Авторы кум-сервисов в основном используют те же локальные модели, просто заранее настроенные. То есть это те же яйца, но:
+ настраивать ничего не надо
- Часто юзают слабые модели и обновляют не особо регулярно, работает и хорошо. В то время как в локалках сейчас убийцы чата ЖПТ выходят каждые пару недель (пока не убили но дамажат временами знатно).
ЧАИ исключение, т.к. начал развиваться ещё до появления локалок и у него свой путь.
2. Если вы "переросли" локалки, то логичнее переходить на крупные нейросети, GPT4 или Claude, с использованием SillyTavern. Ни один сервис и близко не стоит с возможностями этой связки.
Я бы с удовольствием перешел на такую модель выходи она подешевле и без танцев с бубном в моей стране.
А ты чего бы хотел, например?
Я например недавно играл карточку Ферн, которая изначально пыталась забрать у меня непотребное заклинание, потом начал троллить её вместе с Фрирен, на что она обиделась и "ушла", оставив меня вместе с Фрирен, которая изначально в карточке вообще не была прописана.
Чаще наоборот возникает проблема что модель начинает гнать отсебятину, не обращая внимания на "канон" из карточки.
Заранее спасибо за ваши труды.
P.S Не парься за оформление, главное наполнение. Но если что, пиши и мы поможем чем сможем в оформлении.
Да, сравнение в действиях и личных впечатлениях тут бы больше подошло.
Например эта модель лучше подходит для ванилы, эта через чур уходит образное описание, а эта для фуррей))
2. Локалки пока ещё не убили GPT4, но вот GPT3.5 турбо уже вполне. Лично тестировал несчастные 7В Мистрали в сравнении с Трубой, пара штук действительно удивили результатами.
Вот, играйся. Вообще никакого гемороя нет. Все аккуратно, понятно и структурировано.
Промты\персонажи в масках. Там нужно только копировать тебе нужное и вставить.
https://github.com/LiLittleCat/awesome-free-chatgpt/blob/main/README_en.md
Хорошие файнтюны:
https://huggingface.co/TheBloke/Silicon-Maid-7B-GGUF
https://huggingface.co/TheBloke/Toppy-M-7B-GGUF
Хотя это смотря что понимать под свежестью. "Новые" модели чаще всего делаются на основе каких-нибудь базовых LLama 2 или Мистраля, дополненных новыми данными. Но чаще всего это данные на основе постов с фочана, свежих порнофанфиков, материалов по геникологии (да натыкался на такую шизомодель лол, но ничего интересного не смог из неё выжать), а те же последние новости мало кого интересуют. Но Мистрали появились относительно недавно, возможно их можно считать новыми.
П.С. Не все моделлеры занимаются дегенератством. В последнее время, например, стало модно дообучать модели на основе автоматических бесед с GPT4 и Cloude, практически реверс инжиниринг крупных моделей. Это дало нехилый буст сообразительности и креатива локалкам.
П.П.С. Есть ещё отдельный сорт мудаков, обучающих модели на разных логических тестах, чтобы выйти с ними в топы рейтингов. Именно по этому все топы сейчас забиты 7В файнтьюнами Мистралей.
А то я ничего не понимаю как оно работает. Запускается через раз с ошибками. Работает пол часа-час и вылетает.
Надо лишние вкладки и игру выключать наверное)
Работает полностью на ресурсах Google Colab, тратить твои ресурсы могут только вкладки браузера с интерфейсом, но тут уже к твоей системе вопросы. В принципе это дело и с телефона можно также запустить.
Google Colab может выкидывать например за не активность, за ним следить надо. А вообще в колабе тебе даётся 4 часа времени для каждого гугл акка.
а что же делать не яблокодрочерам
https://www.comss.ru/page.php?id=11635
https://bingai.pro/
https://github.com/bingsydney/bingextension
Там в принципе написано что это, зачем и как юзать, при желании разберёшься.
Есть ещё способ подключения Бинга к Таверне, но там всё гораздо сложнее.
Это "чудо" потянет даже смартфон, интерфейс оптимизирован. Всё что нужно это браузер и гугл акк.
WARNING: The following packages were previously imported in this runtime:
[pydevd_plugins]
You must restart the runtime in order to use newly installed versions.
Пытался перезапустить по всплывающей кнопке, но ничего толком не меняется, никаких ссылок не появляется.
Вывода этой ошибки избежать не получилось, но всё должно и так прекрасно работать.
Сделал два блока вместо одного чтобы:
Можно было качать по очереди разные модели перезапуская БЛОК УСТАНОВКИ.
И отдельно перезагружать web-ui, в случае любых проблем, не начиная установку заново, перезапуская только БЛОК ЗАПУСКА.
(на самом деле между первым и вторым есть ещё один - для запасного туннеля, можно его не трогать, но даже если запустишь - ничего страшного не случится.)
ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
torchaudio 2.1.0+cu121 requires torch==2.1.0, but you have torch 2.1.2 which is incompatible.
torchdata 0.7.0 requires torch==2.1.0, but you have torch 2.1.2 which is incompatible.
torchtext 0.16.0 requires torch==2.1.0, but you have torch 2.1.2 which is incompatible.
torchvision 0.16.0+cu121 requires torch==2.1.0, but you have torch 2.1.2 which is incompatible.
Вопросы с зависимостями это по большей части к Угабоге, я просто прописал установку того что они указали в requirements.txt.
torchaudio 2.1.0+cu121 requires torch==2.1.0, but you have torch 2.1.2 which is incompatible.
torchdata 0.7.0 requires torch==2.1.0, but you have torch 2.1.2 which is incompatible.
torchtext 0.16.0 requires torch==2.1.0, but you have torch 2.1.2 which is incompatible.
torchvision 0.16.0+cu121 requires torch==2.1.0, but you have torch 2.1.2 which is incompatible.
Successfully installed torch-2.1.2
WARNING: The following packages were previously imported in this runtime:
[torch,torchgen]
You must restart the runtime in order to use newly installed versions.
Там специально прописано устанавливать именно эту версию торча, т.к. с ней лучше работает.
Если всё запускается, то на такие сообщения внимания не обращай. Я даже уведомление об этом в консоли прописал...
ImportError: /usr/local/lib/python3.10/dist-packages/exllamav2_ext.cpython-310-x86_64-linux-gnu.so:
undefined symbol:
_ZN3c107WarningC1ENS_7variantIJNS0_11UserWarningENS0_18DeprecationWarningEEEERKNS_14SourceLocationES
sb
Вы кстати новые модели в колабе не катаете? Неплохо бы список обновить, я давно не занимался локалками и не в курсе что сейчас ТОП.
Подключай колаб к таверне через АПИ, это работает нормально, либо жди пока тоннели наладятся.
https://desune.moe/aichared/
и пересохранить как PNG.
А в убе обычно сразу появляются, в крайнем случае можно интерфейс перезагрузить.
Попробуй уменьшить контекст, по умолчанию грузится с 8к. Можешь в настройках таверны, а если не поможет, то в самой убе во вкладке Model.
Вообще изучи настройки ExLlamav2 и Llama.cpp, если хочешь на cpu запускать. Это полезно, сможешь, например, загрузить несколько моделей и сам на ходу их менять.
Я конечно прописал предустановки для автозагрузки, но они не всегда идеальны.
Тут всё есть: https://github.com/oobabooga/text-generation-webui/wiki/04-%E2%80%90-Model-Tab