Скачивалка картинок с плашками
Короче захотелось мне в связи со всеми этими последними событиями, и тем к чему они могут привести, коечего качнуть с реактора. Чтобы было, на всякий пожарный. Задал вопрос тут http://joyreactor.cc/post/5114496#comment25031878 и получил ответы. Смог воспользоваться одним из них и таки накачал чего хотел. Но пока разбирался с этим делом немного поматерился неудобности обоих способов, и параллельно процессу поковырялся над своим вариантом "на коленках". И вот теперь думаю, что он тоже имеет право на жизнь. Плюсы: удобность и простота. Минусы: плашки на картинках и ненастраевоемость.
В общем вот, представляю вам Joyloader
Скачать: https://disk.yandex.ru/d/uoQRruzTDnPUVA
joyloader.exe - скомпилированный програмусик
joyloader.py - исходный кодик, если вам стремно запускать чужие экзешники (что оправдано), то вот компилируйте сами и пользуйтесь, заодно решается проблема с настраиваемостью, настраивайте.
Кто-то скажет, блин там писят строчек кода, нафик ты это принес? А я отвечу - а вот.
Для примера скрин с рабочей прогой.
Пишите замечания, благодарности, ругательства.
п.с Качает не только посты по тегам, но и просто фендомы, и даже комментарии пользователя, в общем походу все, где есть картинки и постраничность.
Подробнее
I A Не за1Щ|П1|П|1п *■ anime.reactor.cc/tag/Anime+Cosplay Главная > фэндомы > Anime > Anime Cosplay Anime Cosplay + подписаться По щисчиков: 955 Сообщений: 13072 Рейтинг постов: 92,305.6 Косплей (яп. =1 Основными прсфтипами i| детально воссоз "Макияжа и дииилни Q заблокировать * E:\Joyloader\joyloader.exe 7° U косу демонстрируется с максим Это парсер сайта joyreactor.cc - Собирает картинки, качает их в папку, перелистывает по страницам, пока те не кс - Плашка с логотипом реактора у картинок не удаляется - В файл log.txt записываются адреса сканов на случай ошибки Папка: Anime Cosplay Ссылка: http://anime.reactor.cc/tag/Anime+Cosplay anime.reactor.cc - PARSE URL: http://anime.reactor.cc/tag/Anime+Cosplay mokoiscat-Anime-Art-artist-Fujiwara-no-Mokou-7232411.jpeg mokoiscat-Anime-Art-artist-Fujiwara-no-Mokou-7232412.jpeg mokoiscat-Anime-Art-artist-Fujiwara-no-Mokou-7232413.jpeg mokoiscat-Anime-Art-artist-Fujiwara-no-Mokou-7232414.jpeg mokoiscat-Anime-Art-artist-Fujiwara-no-Mokou-7232415.jpeg mokoiscat-Anime-Art-artist-Fujiwara-no-Mokou-7232416.jpeg mokoiscat-Anime-Art-artist-Fujiwara-no-Mokou-7232417.jpeg Annie-Leonhardt-Shingeki-no-Kyojin-Anime-фэндомы-7227604.jpeg
joyreactor,реактор скачать,парсер,Joyloader
По твоей проблеме попробовал глянуть на мой компилятор, может там можно версию винды выбрать или что-то такое, но ничего не увидел (хотя не особо и шарю).
А отвалиться может легко. Так как особо не тестено. Что-то получилось предусмотреть, но наверняка еще есть варианты оборвать скачивание.
Вот так я впервые и прикоснулся к питону.
https://pastebin.com/i4qGpcdy
Спасибо, оригинальное решение)) 14 пикселей для человека, гигантский скачок для человечества!
Обновил архив.
Давно тебя видно не было =-=
Таки да, давненько, много чего в жизни произошло, и только начал нормально голову лечить да жизнь в порядок приводить, как вдруг ХЕРАК
img_data = requests.get(img.attr("src"), headers={"referer": "http:\\joyreactor.cc"}).content
gifs = d(".image span a.video_gif_source")
for gif in gifs.items():
nm = unquote(gif.attr("href").split("/")[-1])
for c in md: nm = nm.replace(c, "")
print(nm)
gif_data = requests.get(gif.attr("href")).content
with open(loadDir +'/'+ nm, 'wb') as handler: handler.write(gif_data)
А вот этот кусок должен гифки грузить?
Вот сам скрипт: https://pastebin.com/sBdxUiFN
Ждать когда twilightsparkle что-то более понтовое выкатит.
Ты пробовал заменить
img_data = requests.get(img.attr("src")).content
на
img_data = requests.get(img.attr("src"), headers={"Referer": img.attr("src")}).content
чтобы картинки грузились без вотермарки?
Спасибо, помогло, с этим способом все, и картинки и гифки грузятся без плашек.
Перезалил архив на диск.
Вечером еще пост сделаю с этими обновлениями. Может еще сделаю фильтр по рейтингу для скачивания. Пока в пост добавил еще тег Joyloader, чтобы было в куче.
Referer - это HTTP-заголовок, в котором клиент (браузер или твоя прога) рассказывает серверу (сайту), откуда он перешел на данный ресурс (картинку, страницу).
Реактор и ряд других сайтов форсят вотермарки в случае хотлинка (когда картинка на целевом сайте вставляется напрямую с сайта-источника), чтобы если уж целевой сайт экономит ресурсы по хранению изображений, пользуясь хранилищем другого сайта, то хотя бы его посетители будут видеть первоисточник. Побочный эффект: программы скачивания, которые не знают про Referer, тоже получают изображение с вотермаркой.
Добавление заголовка Referer заставляет реактор думать, что ты перешел на картинку, просматривая реактор, вотермарка не добавляется.
P.S. Даже элегантнее сделать {"Referer": url} вместо {"Referer": img.attr("src")}. Последний вариант хорош только для случаев, когда тебе заранее неизвестен контекст - страница, на которой размещено изображение.
Её можно изменить, если добавить в коде Multiprocessing и приобрести несколько прокси, что конечно же никто делать не будет.
Хотя я именно так джой-статистику собираю.
Чёрт, капец как удобно, я раньше часами картинки скачивал. iNji - моё к тебе уважение!
http://joyreactor.cc/post/4650258
У меня проще.
А секретки это в плане еротику? Еротику качает вроде.
на некоторых сайтах не очень работает (pixiv, например): при сохранении браузер начинает повторно запрашивать у ресурса картинки, при этом невозможно управлять паузами между скачиванием, ресурс после 20-50 картинки немножко банит IP скачивающего, в итоге только часть картинок сохраняется.
выход - после получения каждой картинки переводить её в base64 и прописывать в src, тогда html-файл получится весом в сотни мегабайт, но картинки лишь раз запрашиваются у сервера, потом из html их можно питончиком в несколько строчек выпарсить.
https://pastebin.com/rS77bHy0
Выкачивает и с секреток, без плашек. Чтобы из комментариев ещё сохранять - это нужно каждый пост отдельно грузить. Может, API есть, помнится - что-то такое было, тогда можно не грузить кучу ненужного html.
Можно сделать юзерскрипт, с кнопкой, получением URL автоматически и т.п.
Запускаю прогу, прописываю папку, ссылку. Жму Enter.
Создаётся папка, файл с логом. Но скрипт не срабатывает и просто закрывается. Что не так?
Починил, вроде снова работает, обновил архив на диске v1.4
Пытаюсь запарсить тег D-rex, видно по скачиваемым артам.
Блин, а ведь парсер-то ради секретных разделов и нужен был :)
Сорян за секретные разделы :( . Попробуй другие варианты по тегу "парсер".
Да я уж нашёл те, о которых тут речь и шла в общем-то. Тебе спасибо, что починил свой, комиксы так и эдак буду им качать.
Успехов!