Как настроить SillyTavern? / боты :: нейросети :: SillyTavern :: пидоры помогите (реактор помоги)

Как настроить SillyTavern?

Осведомлённое товарищество, вопрошаю поскольку больше обратиться не к кому, а мои знания английского не позволяют точно интерпретировать смысл иностранных гайдов. Кое-как с горем пополам, жопой раком об косяк, установил да настроил себе SillyTavern, а также отобрал фандомных ботов, чтобы имели понятие об контексте своего происхождения и могли ответить на лорные вопросы. И только собрал библиотек, начал полноценное РП в духе Войны Миров по Уэллсу, как эти синтетические гниды начинают отвечать за меня... Дайте пожалуйста совет, каким образом настроить персонажей, дабы перестали отвечать и действовать за пользователя, заодно поделитесь разными мудростями на сей счёт, например какие модели ИИ использовать для ботов.

ссылка на гифку пидоры помогите,реактор помоги,нейросети,SillyTavern,боты

Подробнее

пидоры помогите,реактор помоги,нейросети,SillyTavern,боты

Еще на тему

пидоры помогите(7866)

нейросети(28029)

Развернуть

Комментарии 2520.07.202311:08ссылка8.2

Топ вариант нынче это GPT-4, но больно уж дорого.

Отучить говорить за тебя можно:
1) в первом сообщении должен быть минимум действий от лица пользователя, а лучше вообще без них
2) редактируй их ответы - как только отвечает за тебя, убирай этот абзац, либо отсылай запрос повторно. (Повторяемые элементы дают боту стимул повторять их еще больше. С этим трудно боротся, но 100% решения цикличности нет.)
3) постарайся искренне ролеплеить. Чем лучше написан твой пост, тем лучше на него ответит бот.
4) Jailbreak - очень сильно поведение бота зависит от джейлбрейка. Это не панацея, но попробуй добавить строчку в духе "Always reply from viewpoint of {{char}}. Never reply and never act as {{user}}."
5) напрямую скажи в сообщении, что ты хочешь от бота, добавив в конце своего ответа что-то в духе. "(OOC: write the next reply as {{char}})" OOC = out of character, используется в онлайн-ролеплее.

Вообще, сейчас бесплатных годных решений немного. Пару месяцев можно было жить с Claude через Slack, но золотые времена прошли и сейчас тамошняя модель зацензурена по шею.

Moonik 20.07.202311:49 ответить ссылка 2.8

Спасибо тебе мил человек, только относительно последних двух вариантов, можно поподробнее? В частности, куда персонажам эти строчки прописывать, именно в моём сообщении, или вписывать в их сообщение или вообще корневой файл?

Xenopunk 20.07.202312:04 ответить ссылка ↑ 0.0

Первое сюда (либо в Main Prompt).
... возможно, у локальных моделей такого поля нет, не уверен.

"OOC" просто в сообщение, отдельной строкой. После генерации ответа, можно отредактировать свое старое сообщение, чтобы повторно не отправлять этот кусок (экономит токены + есть шанс, что модель тебе точно так же в этом формате ответит, что вряд ли желаемо).

Click slider numbers to input manually.
Wrap entire user message in quotes before sending.
Leave off if you use quotes manually for speech.
Replace empty message
Send this text instead of nothing when the text box is empty.
Main prompt
Overridden by the Character Definitions.
The main

Moonik 20.07.202312:36 ответить ссылка ↑ 0.6

Благодарствую.

Xenopunk 20.07.202312:45 ответить ссылка ↑ 0.0

Кого из этого списка моделей порекомендуете?

JS
KoboldAI Horde
• Avoid sending sensitive information to the Horde. Review the Privacy statement
• Register a Horde account for faster queue times
• Learn how to contribute your idle GPU cycles to the Horde
■ Adjust context size to worker capabilities
□ Adjust response length to worker

Xenopunk 20.07.202314:00 ответить ссылка ↑ 0.0

"GPT-4, но больно уж дорого"

Ну как дорого, если не срать мусорными реквестами нонстоп, то более-менее. Особенно с учетом того, что и качество на выходе не в пример выше, чем у "фришных" аналогов

Models with 8k context lengths (e.g. gpt-4 and gpt-4-0314), the price is:
$0.03/1k prompt tokens
$0.06/1k sampled tokens

Models with 32k context lengths (e.g. gpt-4-32k and gpt-4-32k-0314), the price is:
$0.06/1k prompt tokens
$0.12/1k sampled tokens

Shroom 20.07.202313:30 ответить ссылка ↑ 0.0

лучше tavernai поставь, сили прикольная но со своими проблемами, например Multigen в таверне работает нормально, тут как раз твоя проблема, отключи Multigen. Основная проблема всех этик моделек это убогий контекст (память) максимально 2000 токенов, поэтому смотри на наполнение характера, иногда попадаются с контекстом в 1500 токенов, соответственно твой чат будет ограничен памятью в 500 токенов.
Все онлайн сервисы зацензурены, локально мне зашел koboldAI (для 4 bit свой форк) самое без проблемно работающее, ну и локльные модели это видеопамять (cpu медленно, но можно смотри koboldccp более простое и koboldai), модели 2.7B сразу в топку, лучше всего 30B 4bit влезают в 24Гб карты от нвидии ( и да для нейросетей никаких АМД, гемора многои не факт что заработает). Сейчас можно 3090 взять 50к+-. По самим моделям лидеры https://chat.lmsys.org/ тут же можно потестить, есть https://lite.koboldai.net/# от сообщества. Как-то так.

Scav 20.07.202311:58 ответить ссылка 0.7

А где отключается Multigen? Да, я по образованию хлебушек...

Xenopunk 20.07.202312:05 ответить ссылка ↑ 0.0

где то в настройках ищи (вверху иконки), там еще ниже значения 50 и 70 по моему, не помню, а посмотреть негде. Кстати силли мне понравилась возможностью группового чата, когда ты с несколькими общаешься, но опять все упирается в контекст.

Scav 20.07.202312:31 ответить ссылка ↑ 0.6

Кого из этого списка моделей порекомендуете?

Xenopunk 20.07.202314:01 ответить ссылка ↑ 0.0

все что выше 13B, в принципе чем больше тем лучше, маленькие очень часто в повтор сваливаются, horde это от комьюнити, очередь, медленно )

Scav 20.07.202314:26 ответить ссылка 0.6

Мне кажется, или накануне из KobolaAI Horde удалили все модели выше 13b, за исключением Henk717 на 33b? Это баг, профилактика, патч или они намеренно их вырезали для бабла? Если так, то какая у меня альтернатива, если у меня GTX 1050 и 16ГБ оперативной?

Xenopunk 23.07.202317:36 ответить ссылка ↑ 0.0

хорде это пользователи держат модели, никто не запустил значит нет, продажи токенов вроде нету, можешь зарабатывать хостя модели или например оценивая фото, локально 2,7B но это совсем не интересное

Scav 23.07.202318:22 ответить ссылка ↑ 0.6

В каком плане пользователи... То бишь, за них реальные люди отвечают, или просто дают процы в своих компах как сервер?

Xenopunk 23.07.202318:42 ответить ссылка ↑ 0.0

процы, видяхи дают использовать, кто-то текстовые модели расшаривает, кто-то SD, наверно можно и купить api ключ на котором нафармленно, но это у пользователей, официально не продается

Scav 24.07.202307:28 ответить ссылка ↑ 0.6

вообще я пробовал разные, когда была карта на 8Gb юзал 13b 4bit и 6B не квантованные, для чата лучше брать GPT или пигмалион, сейчас надо пробовать llama2 вышла на этой неделе, ну и в скором времени будут модели и чат, и стори. Вторая лама которая на 70b по качеству говорят как chatgpt 3.5, но размер конечно )
и вот попробуйте локально https://huggingface.co/TheBloke/Llama-2-13B-chat-GGML, нужно 10Гб +-, через koboldccp

Scav 20.07.202314:35 ответить ссылка 0.0

Что-то я эту ламу2 погонял, она в русский пока не смогла. Надо ждать пока её сольют с чем-нибудь, что умеет в русский. Английских и так жопой жуй.
Гонял на проце, llama.cpp. Долго но работает и чисто оценить можно.
Жаль, что https://huggingface.co/IlyaGusev похоже забил на модели. У него самые классные русские модели.

z10dey 20.07.202318:16 ответить ссылка ↑ 0.0

тестил я его ламу, ну такое, мне не зашло+цензура, русский похож на опенассистента
ллама2 тоже с цензурой

Scav 20.07.202319:12 ответить ссылка ↑ 0.0

Извиняюсь за дезу. Чистая Ллама2 действительно без русиша наглухо. Но если брать https://huggingface.co/TheBloke/Llama-2-13B-chat-GGML то там русский есть. Корявый местами, даже в q8, но работает. Цензуры не заметил, хотя он и теребонькает периодически про незаконность но тем не менее отвечает.

z10dey 20.07.202321:50 ответить ссылка ↑ 0.0

Кстати ещё понравилась https://huggingface.co/TheBloke/Luna-AI-Llama2-Uncensored-GGML
Она хоть и 7В но цензуры не заметно. Хотя тупенькая, да. Но зато быстрее в 2 раза почти чем 13В (у меня 3.24 токена в секунду).

z10dey 20.07.202322:39 ответить ссылка ↑ 0.0

а вот свежая новость https://huggingface.co/ai-forever/ruGPT-3.5-13B сбер выпустил новую модель, вот это я думаю будет интересно.
"Количество параметров - 13 миллиардов, Длина контекста - 2048 токенов. На 1 символ уходит примерно 4 токена"

Scav 20.07.202315:53 ответить ссылка 0.6

А ты зайди в файлы. 3 месяца назад их выложили. Это уже не свежая.

z10dey 20.07.202318:14 ответить ссылка ↑ 0.0

ну по телеге только сегодня разошлось, так что будем тестить и если нормально то ждать 4bit

Scav 20.07.202319:13 ответить ссылка ↑ 0.0

Несколько хороших линков.Лично я сейчас предпочитаю связку koboldcpp юзать с силли таверной и квантование в диапазоне q3-q5.Моделей много перепробовал, но остановился на Chronos Hermes 13B.
https://rentry.co/ALLMRR
https://rentry.co/ayumi_erp_rating
https://rentry.co/PygmalionLinks