Предложение по функционалу баянометра
Добавить функционал, который будет читать тексты с мемов на джое и сопостовлять их с новыми картинками и показывать в процентном соотношении совпадение текстов, например: "текст пересекается на 90%"Приведу пример:
http://joyreactor.cc/post/4328439
и мой пост через пару часов:
http://joyreactor.cc/post/4328962
я наловил минусов за баян, что по сути правильно. но я не первый год на реакторе и все свои посты я всегда проверяю на двух баянометрах.
Еще на тему
ну а по парсингу текста есть много готовых решений, первая линка в гугле:
https://medium.com/@MicroPyramid/extract-text-with-ocr-for-all-image-types-in-python-using-pytesseract-ec3c53e5fc3a
https://habr.com/ru/post/205398/
И что у нас говориться в примере? 190 хешей на ОДНУ картинку, на ОДНУ КАРТИНКУ, КАРЛ! Даже если максимально упростить алгоритм, не выходит меньше 40 хешей на картинку. Да и 40 это мало, потому что появляется уйма ложно-положительных срабатываний, а даже если бы и хватало, это 200 миллионов хешей, и это только на картинки, не считая гифки. Как искать быстро по такому количеству данных? Дерево, и предварительным разбором, только для этого нужно все это дерево хранить в оперативной памяти, и дополнять на лету. Дайте сервер с 32GB оперативы - я попробую чтото сделать, а так, без вариантов, к сожалению. Точнее сказать как. Варианты есть, но поиск одной гифки занимает 6-7 минут. Вот и все
Сколько постов с текстами и картинкой "Вы напугали деда", при этом с совершенно разным текстом самого поста. Они тоже баян?
"Это остается за юзером". На юзера может вывалиться 50 постов с сообщением, что пост с таким текстом на картинке уже был. Ты серьезно думаешь что ктото будет проверять эти 50 постов?
Ну крч. Идея конечно имеет право на существования, но вот как ее вообще реализовать и внедрить - это отдельный вопрос на который я даже не могу представить внятного ответа. Тут просто для картинок, обычных блядь картинок, большая часть не хочет использовать баянометр, а ты говоришь про текст на картинках
но я основную боль уловил. сервака с нужными характеристиками у меня для этого, к сожалению нет и в ближайшее время не предвидится. спасибо за подробные ответы.