@ExtraDJ, стоит ли нам ждать баянометр и когда? / баянометр

@ExtraDJ, стоит ли нам ждать баянометр и когда?
в принципе, пока ты там в глубокой отладке, я могу попробовать на коленке за недельку-другую поднять поиск по phash со своими нюансами и запустить его у себя (если кто расскажет мне как с одного адреса спарсить все картинки реактора, не улетая в автобан по IP).

ну и опрос, насколько это актуально

Подробнее
баянометр

Нужен ли третий баянометр?

Да, ExtraDJ набрал донатов и спился нахуй, а кармадрочеры не видят берегов
	429 (60.3%)
Нет, я ньюфаг и то, что для других баяны, для мня ново
	83 (11.7%)
Нет, я кармадрочер и баянометр мне будет только мешать
	25 (3.5%)
Это я, ExtraDJ, и со дня на день я запущу баянометр 2.0 вновь
	175 (24.6%)

Еще на тему

баянометр(177)

Развернуть

Комментарии 2726.08.201706:15ссылка13.2

интернет_не_нужон.gif

nonnname 26.08.201718:55 ответить ссылка ↑ -1.0

Тут уже 13 ExtraDJ'ев набралось. Походу кто-то пиздит.

Говножуй 26.08.201706:42 ответить ссылка 4.6

47 и продолжает расти - это кармасосы, которые не хотят палиться и не хотят возвращения баянометра.

RaptorAnton 26.08.201709:35 ответить ссылка ↑ -0.2

Даже если ты и сольешь все пикчи, тебе надо будет кроном дергать новые постояннно с постов. Без прямого доступа к серваку это жуткий гемор будет. Кстати, через пхэш гифки не прогонишь же?

Говножуй 26.08.201706:45 ответить ссылка 0.7

нуууу... в целом не слишком удобно, но не критично.
postId тут автоинкрементный, поэтому достаточно просто каждые n минут брать последний спарсенный пост и проходить увеличивая значение в адресе пока не получишь в ответ 404, например,
последний пост в у нас в бд - 3216667
http://old.reactor.cc/post/3216668 - 200 OK, разбираем на картинки
http://old.reactor.cc/post/3216669 - 200 ОК, разбираем на картинки
http://old.reactor.cc/post/3216670 - 404 Not Found, спим минутку-другу.

гифки можно бить на кадры и считать хеш для каждого кадра, но...
не знаю, может это и есть та самая проблема, из-за которой ExtraDJ до сих пор не выкатил обновленный баянометр (хотя я думаю, что проблема скорее в том, что Чем дольше я работаю с PHP, тем сильнее убеждаюсь в том, какая же это помойка. Короче новый баянометр будет написан на nodejs с использованием websocket(c) ).
короче о гифках я пока не думал и меня больше интересуют нюансы поиска дистанции хешей в бд.

первый баянометр, насколько я помню, работал очень-очень резво, сравнивая со вторым, и хотелось бы знать его секрет. ну да StackOverflow driven development топ методология и, я думаю, я что-то с ее помощью таки соображу:)

BlackJackBlack 26.08.201706:57 ответить ссылка ↑ 0.6

Чтобы не забанили по айпи, подними на сервачке тор проксю, и ходи через нее, каждые n+ random(m) проси прокю сделать новый айпи.

"Чем дольше я работаю с PHP, тем сильнее убеждаюсь в том, какая же это помойка. Короче новый баянометр будет написан на nodejs с использованием websocket(c) )." - ха ха ха
А если серьезно, пиши на чем хочешь, а бы работало.

"меня больше интересуют нюансы поиска дистанции хешей в бд." - а меня больше интересует есть ли какой то признак у уже существующих картинок, чтобы понять это баян или нет. тогда можно было бы попробовать сравнивать разные подходы.

и вообще надо запилить хакатончик!

jurka 26.08.201707:16 ответить ссылка ↑ -0.2

>А если серьезно, пиши на чем хочешь, а бы работало.
не моя фраза, а автора прошлого баянометра:)

>а меня больше интересует есть ли какой то признак у уже существующих картинок, чтобы понять это баян или нет.
всмысле?

>тогда можно было бы попробовать сравнивать разные подходы.
вообще вариантов море. и считать pHash или что-то в этом духе и искать их дистанцию это самый примитивный, но это можно сделать относительно быстро, не закупая vds и мне не впадлу.
ну и предыдущие оба баянометра вроде работали по этому принципу и многих устраивало.

BlackJackBlack 26.08.201707:29 ответить ссылка ↑ 0.1

где пункт "Единая Россия"?

hitmanrec 26.08.201708:28 ответить ссылка -0.6

Ты его уже выбрал

tipoima 26.08.201708:31 ответить ссылка ↑ 2.9

Токиотрийский

JIUNn 26.08.201709:15 ответить ссылка 0.0

Вот вопрос такой. Парсер постов я написал, работает отлично, с обычных картинок хеши генерирую, всё пашет. Остаётся лишь сделать хеш гифок и в планах ещё детектить Коубы и видосики с Ю\Рутуба, посредством хотя-бы сверки ссылки\ид.

Единственное что, я хочу сделать возможность фильтрации SFW/NSFW. И тут немного я затух, ибо некоторые посты, хотя и являются NSFW не имеют такового тега, т.к. они имеют свой тег, который якобы тоже NSFW, например http://joyreactor.cc/tag/%D0%B0%D1%80%D1%82+%D0%B1%D0%B0%D1%80%D1%8B%D1%88%D0%BD%D1%8F

Какие вообще есть ВСЕ ещё теги которые являются NSFW? Эротика, сиськи... что ещё туда попадает? Я ручками просто заебусь их прописывать...

phpjsdev 28.08.201716:41 ответить ссылка 0.0

по человечески ты с nsfw не разберешься никак.
на момент парсинга еще может не быть nsfw тега. или наоборот он может быть, а его уберут.
еще можно жестко вырезать порно, но такое - только ручками.
кстати, тег по твоей ссылке не режется nsfw фильтром.

расскажи лучше как ты индексируешь хеши.

BlackJackBlack 28.08.201717:42 ответить ссылка ↑ 0.0

>кстати, тег по твоей ссылке не режется nsfw фильтром.
в смысле при переходе по тегу его не прячем как прон.

BlackJackBlack 28.08.201717:45 ответить ссылка ↑ 0.0

Автоинкремент и pHash.

phpjsdev 28.08.201722:35 ответить ссылка ↑ 0.0

что автоинкремент и pHash?

тебе нужно найти хеши, которые находятся на расстояннии от твоего, пусть hd &lt 5.
само собой, что твоя бд вряд ли дружит с BK или VP индексами.
а еще, скорее всего, ты даже не задавался таким вопросом.

в итоге ты имеешь таблицу на 3-5кк, по которой либо ты запускаешь SELECT * FROM hashes where pHash = 'my-hash', но ты проебываешь половину смысла использования pHash и половину картинок с особо жирными вотермарками, либо ты запускаешь поиск хешей с нужным расстоянием, что дает отличный результат, но вызывает фуллскан всей таблицы. да да, 3-5кк записей будут перебираться каждый раз.

короче думай над этим

BlackJackBlack 28.08.201723:14 ответить ссылка ↑ 0.0

Есть ли какой-то вариант тут получить ПОСЛЕДНИЙ пост? Именно что-то типа /last или аналогичное?

phpjsdev 28.08.201722:35 ответить ссылка 0.0

офк нет, тут даже рсс на все посты нету.
в чем проблема проходить по 100-200 постов каждые 5 минут, начиная с последнего в бд + 1 ?

BlackJackBlack 28.08.201723:20 ответить ссылка ↑ 0.0

Сам подумай над этим принципом? Ты будет возможно делать 150 запросов в которых просто тупо будешь получать 404 ошибку ибо таких ещё просто не существует. Это не экономно, батенька!

phpjsdev 28.08.201723:29 ответить ссылка ↑ 0.0

150 запросов, на которые реактор отдаст пустые страницы это порядка секунды-двух.
в чем проблема, если ты каждую минуту будешь так дергать и тратить 1-2 секунды, а остальные 58-59 простаивать? парсить страницы их не нужно, нагрузка на cpu минимальная, только на разбор заголовков.

BlackJackBlack 28.08.201723:55 ответить ссылка ↑ 0.0

Опять же вот такой момент... например есть пост с овердохуя картинками, аля паравоз: http://joyreactor.cc/post/3219662
Брать только первую картинку в расчёт или все? А если кто-то позже запостит только одну картинку которая есть в этом паравозе, считается ли тогда это баяном?

phpjsdev 28.08.201723:26 ответить ссылка 0.0

>например есть пост с овердохуя картинками, аля паравоз: http://joyreactor.cc/post/3219662
та то еще хуйня,
я полный sg фотосет лил http://old.reactor.cc/post/2740401

>Брать только первую картинку в расчёт или все?
офк все.

>А если кто-то позже запостит только одну картинку которая есть в этом паравозе, считается ли тогда это баяном?
само собой.

BlackJackBlack 28.08.201723:57 ответить ссылка ↑ 0.0

У меня сейчас достаточно много сложностей в личной жизни, изза чего в очередной раз никак не могу закончить все это добро
Заново парсер собирает весь реактор уже месяц, и работ осталось практически с гулькин нос. Так что скоро будет

ExtraDJ 02.09.201721:46 ответить ссылка 0.0

На тему донатов. Все что я получил с момента отключения баянометра - 13$ на патреоне и 50 грн на webmoney, о чем готов предоставить скриншоты. Думаю очевидно, что это ни о чем)

ExtraDJ 02.09.201721:49 ответить ссылка ↑ 0.0

После создания нового баянометра я скорее всего выложу алгоритм поиска в общий доступ, на случай, если со мной чтото случиться, или просто ктото захочет сделать баянометр по личной коллекции

ExtraDJ 02.09.201722:08 ответить ссылка ↑ 0.0

привет. сорь, увидел сообщения еще вчера, но совсем вылетело из головы ответить на них.
про донаты то была шютка для привлечения внимания, не бери близко к сердцу). в духе будто бы ты из-за тех 13 долларов скрываешься в мексике)

если будет, то хорошо. все же у тебя была рабочая версия, которая справлялась со своей задачей. и значит, что у тебя будет несравнимо меньше косяков, чем если кто-нибудь набросал бы свой с нуля. поэтому приоритет отдается тебе и только тебе.

>я скорее всего выложу алгоритм поиска
кстати да, было бы здорово. на реакторе довольно много людей близких к теме и я думаю многим было бы интересно почитать. ну и лично мне было бы интересно узнать как ты решил проблему поиска хешей с расстоянием хемминга

BlackJackBlack 03.09.201713:45 ответить ссылка ↑ 0.0

Тем не менее тебе когда еще говорили - выложи старую рабочую версию и пили новую, была бы видимость работы были бы и донаты