@ExtraDJ, стоит ли нам ждать баянометр и когда?
в принципе, пока ты там в глубокой отладке, я могу попробовать на коленке за недельку-другую поднять поиск по phash со своими нюансами и запустить его у себя (если кто расскажет мне как с одного адреса спарсить все картинки реактора, не улетая в автобан по IP).
ну и опрос, насколько это актуально
в принципе, пока ты там в глубокой отладке, я могу попробовать на коленке за недельку-другую поднять поиск по phash со своими нюансами и запустить его у себя (если кто расскажет мне как с одного адреса спарсить все картинки реактора, не улетая в автобан по IP).
ну и опрос, насколько это актуально
Нужен ли третий баянометр?
Да, ExtraDJ набрал донатов и спился нахуй, а кармадрочеры не видят берегов | |
|
429 (60.3%) |
Нет, я ньюфаг и то, что для других баяны, для мня ново | |
|
83 (11.7%) |
Нет, я кармадрочер и баянометр мне будет только мешать | |
|
25 (3.5%) |
Это я, ExtraDJ, и со дня на день я запущу баянометр 2.0 вновь | |
|
175 (24.6%) |
Еще на тему
postId тут автоинкрементный, поэтому достаточно просто каждые n минут брать последний спарсенный пост и проходить увеличивая значение в адресе пока не получишь в ответ 404, например,
последний пост в у нас в бд - 3216667
http://old.reactor.cc/post/3216668 - 200 OK, разбираем на картинки
http://old.reactor.cc/post/3216669 - 200 ОК, разбираем на картинки
http://old.reactor.cc/post/3216670 - 404 Not Found, спим минутку-другу.
гифки можно бить на кадры и считать хеш для каждого кадра, но...
не знаю, может это и есть та самая проблема, из-за которой ExtraDJ до сих пор не выкатил обновленный баянометр (хотя я думаю, что проблема скорее в том, что Чем дольше я работаю с PHP, тем сильнее убеждаюсь в том, какая же это помойка. Короче новый баянометр будет написан на nodejs с использованием websocket(c) ).
короче о гифках я пока не думал и меня больше интересуют нюансы поиска дистанции хешей в бд.
первый баянометр, насколько я помню, работал очень-очень резво, сравнивая со вторым, и хотелось бы знать его секрет. ну да StackOverflow driven development топ методология и, я думаю, я что-то с ее помощью таки соображу:)
"Чем дольше я работаю с PHP, тем сильнее убеждаюсь в том, какая же это помойка. Короче новый баянометр будет написан на nodejs с использованием websocket(c) )." - ха ха ха
А если серьезно, пиши на чем хочешь, а бы работало.
"меня больше интересуют нюансы поиска дистанции хешей в бд." - а меня больше интересует есть ли какой то признак у уже существующих картинок, чтобы понять это баян или нет. тогда можно было бы попробовать сравнивать разные подходы.
и вообще надо запилить хакатончик!
не моя фраза, а автора прошлого баянометра:)
>а меня больше интересует есть ли какой то признак у уже существующих картинок, чтобы понять это баян или нет.
всмысле?
>тогда можно было бы попробовать сравнивать разные подходы.
вообще вариантов море. и считать pHash или что-то в этом духе и искать их дистанцию это самый примитивный, но это можно сделать относительно быстро, не закупая vds и мне не впадлу.
ну и предыдущие оба баянометра вроде работали по этому принципу и многих устраивало.
Единственное что, я хочу сделать возможность фильтрации SFW/NSFW. И тут немного я затух, ибо некоторые посты, хотя и являются NSFW не имеют такового тега, т.к. они имеют свой тег, который якобы тоже NSFW, например http://joyreactor.cc/tag/%D0%B0%D1%80%D1%82+%D0%B1%D0%B0%D1%80%D1%8B%D1%88%D0%BD%D1%8F
Какие вообще есть ВСЕ ещё теги которые являются NSFW? Эротика, сиськи... что ещё туда попадает? Я ручками просто заебусь их прописывать...
на момент парсинга еще может не быть nsfw тега. или наоборот он может быть, а его уберут.
еще можно жестко вырезать порно, но такое - только ручками.
кстати, тег по твоей ссылке не режется nsfw фильтром.
расскажи лучше как ты индексируешь хеши.
в смысле при переходе по тегу его не прячем как прон.
тебе нужно найти хеши, которые находятся на расстояннии от твоего, пусть hd < 5.
само собой, что твоя бд вряд ли дружит с BK или VP индексами.
а еще, скорее всего, ты даже не задавался таким вопросом.
в итоге ты имеешь таблицу на 3-5кк, по которой либо ты запускаешь SELECT * FROM hashes where pHash = 'my-hash', но ты проебываешь половину смысла использования pHash и половину картинок с особо жирными вотермарками, либо ты запускаешь поиск хешей с нужным расстоянием, что дает отличный результат, но вызывает фуллскан всей таблицы. да да, 3-5кк записей будут перебираться каждый раз.
короче думай над этим
в чем проблема проходить по 100-200 постов каждые 5 минут, начиная с последнего в бд + 1 ?
в чем проблема, если ты каждую минуту будешь так дергать и тратить 1-2 секунды, а остальные 58-59 простаивать? парсить страницы их не нужно, нагрузка на cpu минимальная, только на разбор заголовков.
Брать только первую картинку в расчёт или все? А если кто-то позже запостит только одну картинку которая есть в этом паравозе, считается ли тогда это баяном?
та то еще хуйня,
я полный sg фотосет лил http://old.reactor.cc/post/2740401
>Брать только первую картинку в расчёт или все?
офк все.
>А если кто-то позже запостит только одну картинку которая есть в этом паравозе, считается ли тогда это баяном?
само собой.
Заново парсер собирает весь реактор уже месяц, и работ осталось практически с гулькин нос. Так что скоро будет
про донаты то была шютка для привлечения внимания, не бери близко к сердцу). в духе будто бы ты из-за тех 13 долларов скрываешься в мексике)
если будет, то хорошо. все же у тебя была рабочая версия, которая справлялась со своей задачей. и значит, что у тебя будет несравнимо меньше косяков, чем если кто-нибудь набросал бы свой с нуля. поэтому приоритет отдается тебе и только тебе.
>я скорее всего выложу алгоритм поиска
кстати да, было бы здорово. на реакторе довольно много людей близких к теме и я думаю многим было бы интересно почитать. ну и лично мне было бы интересно узнать как ты решил проблему поиска хешей с расстоянием хемминга