reactor-crw парсер 

reactor-crw v0.1.0

Добрейший вечерочек. Новая версия reactor-crw и в ней уже используется graphql API реактора. Тот самый, на который, с недавних пор, переехала мобильная версия сайта. Ссылка на API.

Выглядит это следующим образом:

reactor-crw,парсер

На данный момент reactor-crw поддерживает два парсера, HTML и API. Оба доступны в виде подкоманд:
- ./reactor-crw html -p "http://joyreactor.cc/tag/Photo+art" - HTML версия
- ./reactor-crw api -t "Photo Art"  - API версия

Ограничения

Внимательный читатель заметил, что этап получения ссылок происходит дольше самого скачивания файлов. Хотя по идее мы ничего не парсим а сразу получаем нужный результат. Так происходит потому что у реактора довольно жесткие лимиты по запросам на API. Собственно, у меня получилось заблочить себя даже в плейграунде.

Таким образом, каждый новый запрос на API происходит с таймаутом в 2 секунды.

Что позволяет API парсер

На данный момент, только пакетное выкачивание тегов. По умолчания API отдает абсолютно все, что связано с тегом, поэтому, была добавлена поддержка заблокированных тегов и подписок пользователя. 

./reactor-crw api -t "Photo Art" -с "строка с куками"

Это уберет из результата все что у вас заблокировано. Но так же отфильтрует контент, на который нужно явно подписаться, что бы видеть. Куки нужно брать мобильной версии сайта.

Список всех флагов и их описание на странице github.

Изменения в версии 0.0.2

- Была добавлена поддержка socks5 и прокси (работает для HTML и API). Пример:
./reactor-crw api -t "tag name" --socks5 "socks5://127.0.0.1:9050"

- Значительно повысилась скорость обработки файлов. Теги, которые качались по 10-12 минут, сейчас тащатся за 2-3.

Скачать последнюю версию здесь. Если обнаружили ошибку или есть идея для нового функционала - создайте issue.

p.s. да, мы все знаем про Kelly.

Развернуть

reactor-crw парсер 

reactor-crw v0.0.2

Для лучшего понимания контекста см. пост reactor-crw.

Вдохновившись отзывами, комментариями и замечаниями к первой версии краулера, я постарался исправить почти все упомянутые проблемы и выкатил новый релиз. Далее приведен список наиболее критичных исправлений:

- отслеживание уже скачанных файлов. Теперь при приостановке клиента (по любой причине), имеющиеся файлы не будут перекачиваться заново.
- поддержка парсинга результатов поиска на реакторе. В предыдущей версии нельзя было передать страницу формата http://joyreactor.cc/search?q=games&user=&tags=pc%2C.
-
пофикшен баг при котором нельзя было скачивать теги с одной страницей (без указания флага -o, --single-page).
-  добавлена поддержка 32-битных версий windows.
- обновил readme с более подробными примерами и FAQ.

Большое спасибо всем кто обратил внимание на баги и отписал в комментарии или даже создал issue на странице проекта, а так же всем, кто просто попробовал эту поделку. Если у вас есть идеи/пожелания/замечания - создайте issue.

p.s. ну и тег добавил, что бы его можно было заблочить.

Развернуть

парсер сделал сам песочница reactor-crw 

Воспользовавшись избытком свободного времени и неисправимой привычкой лепить велосипеды, решил реализовать удобный, хотя бы для себя, способ выкачивания годноты с реактора. Плюс иметь возможность спасти то, что возможно уже завтра будет потерто копирастами или другими "обеспокоенными".

парсер,сделал сам,нарисовал сам, сфоткал сам, написал сам, придумал сам, перевел сам,песочница,reactor-crw

Я видел несколько схожих решений и они либо не уже поддерживаются, либо являются подключаемыми библиотеками. Какие-то generic решения я не искал (см. пункт про велосипеды).

Что это?

Это CLI crawler, для выкачивания изображений (включая фул), gif, mp4, webm из страницы, которую вы укажите и сохранит все куда скажете. Если crawler найдет на странице пагинацию, то он попытается выкачать каждую страницу. Хотя вы можете указать так не делать.

Ссылка на проект на github.

Как начать?

Скачайте билд и запустите его из командной строки (для windows тоже). Windows может ругаться потому как это хрен пойми чей билд. Мак может ругаться потому что не может проверить поставщика. Линуксу насрать. Выполните .\reactor-crw_0.0.1_Windows_64bit.exe --help (либо ознакомьтесь с доступными флагами на странице github).

Пример запуска на windows:

Краткий FAQ

В:Какие страницы можно передавать?
О:Любые. Передайте ссылку на тег и будет выкачан весь контент по нему. Или ссылку на закладки. Если передать ссылку на конкретный пост, не забудьте указать флаг -o (--single-page).
В:Почему некоторые изображения не скачались?
О:Если качаете NSFW, то не забудьте указать флагом свои куки (посмотреть куки можно в браузере).
В:Что делает флаг -w (--workers)?
О: Насколько шустро все отработает. Укажите слишком большое значение и реактор вас накажет. Для тега в ~4500 изображений я ставил 3.
В:Ничего не работает/не качает. Какая-то ошибка и все.
О:Текущая версия далека от идеала. Если поделитесь деталями ошибки - буду весьма признателен.
В:Можно ли человеческий UI для всего этого?
О:Можно. Если кто-то умеет в UI, то я только за.
Если остались вопросы, постараюсь ответить в комментариях.
Развернуть

школа stand-up Джимми Карр песочница 

школа,stand-up,Джимми Карр,песочница

 а Г. < % т •• • н г. Г •/. м • • • *•. «Я говорю: сын, % это уже третья школа за год». Ф - Hccora/rgrumb^e,школа,stand-up,Джимми Карр,песочница

«Может, работа учителя — не твоё?»,школа,stand-up,Джимми Карр,песочница


Развернуть

таксист картинка с текстом мат песочница 

Таксист, выслушав мое «я опаздываю», посоветовал сказать начальству «да мудак какой-то вез и не туда, блять, завез, час потратил». Отличная страна. Душевные люди. Все нравится.,таксист,картинка с текстом,мат,песочница
Развернуть

Черная Пантера черный юмор песочница 

Вам, наварное, интересно, почему я ношу черный костюм?
Это чтобы плохие парна не увидели, если он порвется!,Черная Пантера,черный,юмор,юмор в картинках,песочница
Развернуть

Звездные Войны фэндомы косплей 

Звездные Войны,Star Wars,фэндомы,косплей,star wars,fandoms,cosplay
Развернуть

Комиксы Cyanide&happiness Комиксы смешные картинки тест песочница 

I Cyanide and Happiness ® Explosm.net,Комиксы Cyanide&amp;happiness,Смешные комиксы,веб-комиксы с юмором и их переводы,смешные картинки,фото приколы,тест,песочница
Развернуть

субботник девушки метла песочница 

субботник,девушки,метла,песочница
Развернуть

гифки подруга Трусы песочница 

Развернуть