Итак, появилась модель которая превосходит GPT 3.5 в переводе с японского на английский.
Хотел добавить тег визуальных новелл, но он заблочен. Поэтому пощу без него, всё же помимо визуальных новелл оно переводит всё, что попадает в буффер обмена, поэтому пригодится и для иных целей.
Модель - https://huggingface.co/lmg-anon/vntl-llama3-8b-gguf
kobold.cpp - Releases · LostRuins/koboldcpp · GitHub
Сам textractor - Releases · Artikash/Textractor (github.com)
Исходники (Дисклеймер: я не прогромист/веб разработчик лучше не смотреть можно получить инфаркт) - https://drive.google.com/file/d/1fYMY0PaO2aOsassFwA_WvJ8eOD-1HDf9/view?usp=sharing
Кому интересно - https://drive.google.com/file/d/1fYMY0PaO2aOsassFwA_WvJ8eOD-1HDf9/view?usp=sharing сам фронт.
Видео фрагмент с использованием другой модели.
За сим, сделал небольшой интерфейс для удобства, работает в паре с kobold.cpp и textractor. То есть берет японский текст из буффера обмена который предоставляет textractor и через апи кобольда переводит его.
Вполне себе шустро работает, нужно как минимум 8 гигабайт видеопамяти, чтобы полностью уместить 5 или 6 квант данной модели в памяти.
Подробнее
ffl Dataset Viewer Split (1) train • 59 rows Q, Search this dataset rank int64 llllllllll model string ■ lengths ■ll.a quant string - classes 1 59 1 11 46 7 values 1 openai/gpt-4o-2024-05-13 Unknown/Cloud 2 openai/gpt-4-turbo-2024-O4-09 Unknown/Cloud 3 deepseek/deepseek-chat Unknown/Cloud 4 lmg-anon/vntl-8b Q8_0 5 openai/gpt-3.5-turbo-1106 Unknown/Cloud 6 openai/gpt-3.5-turbo-0125 Unknown/Cloud 7 anthropic/claude-3-sonnet Unknown/Cloud 8 qwen/qwen-2-72b-instruct Unknown/Cloud 9 meta-llama/llama-3-70b-instruct Q5_K_M G Auto-converted to Parquet </> API ffl View in Dataset Viewer accuracy float64 ....hi.. sim_mean float64 ni.. sim_stdev float64 0.37 0.66 0.48 0.78 0.11 0.13 • 0.656037 0.779579 0.123542 0.653714 0.769782 0.116068 0.643727 0.773554 0.129826 0.630879 0.754616 0.123737 0.629558 0.744381 0.114823 0.62562 0.746318 0.120698 0.614717 0.734815 0.120099 0.613066 0.732585 0.11952 0.605975 0.727178 0.121203 ▼
^ísü. © Translation •== — □ X i iui i... j Edit Llama3: Mizuki TGood morning, Rikka. Hehe. You're all sweaty.] Edit Llama3: Rikka TYeah. I overslept.] Edit Llama3: Mizuki TYou were up late again, weren't you?] Edit Llama3: Rikka TWell, I was playing on my phone and it was so much fun...] Edit Llama3: Mizuki TYou say that every day. Just give up and go to sleep already.] Edit Regenerate )адо будет проверить. Settings
нейронные сети,переводчик,сделал сам,нарисовал сам, сфоткал сам, написал сам, придумал сам, перевел сам
LLaMA это довольно известная модель от Meta, я её ранее запускал у себя и пытался разговаривать с ней. Тут LLaMA модифицированная или обычная?
Для контекста, я ранее говорил про модель Sugoi + Sugoi Translator Toolkit. С Sugoi Translator Toolkit можно использовать как оффлайн модель, так и онлайн переводчики.
https://blog.sugoitoolkit.com/sugoi-offline-model-v4-0-showcase/
https://archive.org/details/sugoi-toolkit-v-8.0-public-link-1234324
Онлайн переводчики: дипл выдерживает несколько запросов прежде чем говорит тебе, отдохни друг. И полчаса ты в бане. Гугл тоже не самый хороший переводчик. Ну и самый главный минус, они не используют контекст, без контекста перевод с японского намного хуже.
Оффлайн переводчик: Он там офигенный, но опять проблема того, что не понимает контекст. А так очень быстро работает если через ct2 запускать.
А вот это уже интересно. Учитывая, что большинство VN являются эроге, а любые онлайн переводчики неохотно переводят текст с сексуальным контекстом, это весомый плюс.
Тот же бинг вообще очень неохотно переводит пошлые словечки.
Хм, может тогда стоит потом попробовать как-нибудь прикрутить эту вещь для перевода хентайной манги. Там именно что OCR критично нужен. Sugoi Translator Toolkit ещё и для манги используется.
Хотя если бы кто заморочился с датасетом и обучением то стало бы возможно и на карточке с 8 гигами врам запустить, но это никому не нужно, плюс нужно достаточное количество денег для обучения.
Я ее пробовал на Rance X. Простенькие новеллы и мангу удобно просматривать.
Так что я сомневаюсь в пользе от этой вещи для визуальных новелл.
Ну так-то есть тайтлы где куча-куча ебли, но там есть неплохой сюжет. Та же Эйфория. Серия Yami no Koe. В целом тайтлы от Black Cyc, Clockup.
Ради интереса сейчас глянул на vndb. Японских визуальных новелл в базе 32097 штук, из них 21058 с еблей. В 2/3 японских визуальных новелл присутствует секс.
А вот что VN, где ебля ради ебли обычно особого внимания не заслуживают - согласен (впрочем, и это не всегда справедливо, та же Euphoria к примеру). Тем не менее во многих VN ебля есть, даже если она не является центром сюжета. Saya no Uta, Tsukihime, Fate/stay night и т.д.
Пост уже отредачить не смогу.
>появилась модель которая превосходит GPT 3.5
Эта модель называется GPT 4о и тем более GPT 4
Локальная модель
А дальше заголовка мы читать не умеем? Я даже ссылку на модель дал.
Твоё замечание глупое. А больше всего на свете я ненавижу тупость. Сорян но у меня от этого пригорает.
Для RenPy игр есть условно-бесплатное решение: https://fazx.itch.io/visual-novel-translator, позволяющее переводить разными способами (захват экрана, экстракт, инъекция) на лету. Поддерживает несколько сервисов переводов (Google, Bing, DeepL и т.д.)
Для Unity бесплатное решение, работающее как плагин: https://github.com/bbepis/XUnity.AutoTranslator. Работает через инъекцию. Поддерживает различные сервисы перевода.
Алсо, q4 норм или лучше q5?
Лучше q5. Ообу низя, я еще не реализовал переключение апишек. Плюс у кобольда есть такая киллерфича как context shift, чего в ообе нет. А оно достаточно важно ибо когда заполнится контекст, каждая новая фраза будет ощутимо долго переводится.
BallonsTranslator/doc/how_to_add_new_translator.md at dev · dmMaze/BallonsTranslator · GitHub
Там в принципе написано как добавить свой переводчик, но расход видеопамяти вероятно увеличится.
Владельцы не rtx карточек продолжат пользоваться машинным переводом.
У меня не ртх карточка. У меня обычная 1080. Можно на самом деле и на меньшей видеопамяти, просто так не вся модель влезет в память и скорость меньше будет. Да и можно конечно запустить это на процессоре, если у тебя ddr5 с хорошей частотой и норм проц, то будет даже не так уж и медленно. Либо же на амд или интел видяшке через вулкан.
А вообще уже 24 год, моя видяшка то уже ничего не тянет почти. 3060 не так дорого стоит. Но я коплю на 4090.
Плюс, модели работают на ЦП, только сильно медленнее. Зато ОЗУ можно навалить хоть 64 гб, благо она щас дешевая.
Я буду вам очень благодарен
Зато более менее читаемый и понятный перевод. Приходится идти на компромиссы.