*********************************************************************************** 参数说明: /Users/zhongming/PycharmProjects/meitulu/dist/xiurenji/xiurenji USAGE: spider -h <help> -a <all> -q <search> Arguments: -a <download all site images> -q <query the image with keywords> -h <display help text, just this> Option Arguments: -p <image download path> -s <site url eg: http://www.xiurenji.vip (no last backslash "/")> ***********************************************************************************
秀人集爬虫 【22.1.20】【Windows】
参数说明: **************************************************************************************************** USAGE: spider -h <help> -a <all> -q <search> Arguments: -a <download all site images> -q <query the image with keywords> -h <display help text, just this> Option Arguments: -p <image download path> -s <site url eg: http://www.xiurenji.vip (no last backslash "/")> ****************************************************************************************************
性感美女爬虫 Windows【22.01.11】
美图录 爬虫
**************************************************************************************************** _ _ ____ ___ | |__ __ _| |__ _ _ / __ \ _ __ ___ __ _ _ __ ___ / _ \| '_ \ / _` | '_ \| | | |/ / _` | '_ ` _ \ / _` | '__/ __| | (_) | |_) | (_| | |_) | |_| | | (_| | | | | | | (_| | | \__ \ \___/|_.__/ \__,_|_.__/ \__, |\ \__,_|_| |_| |_|\__,_|_| |___/ |___/ \____/ 美图录爬虫 Verson: 21.6.15 Blog: http://www.h4ck.org.cn **************************************************************************************************** **************************************************************************************************** [*] 2021-06-16 21:00:11 CAT: 开始分析分类信息...... [*] 2021-06-16 21:00:11 泳装: http://www.meitulu.cn/t/yongzhuang/ [*] 2021-06-16 21:00:11 可爱: http://www.meitulu.cn/t/keai/ [*] 2021-06-16 21:00:11 日本美女: http://www.meitulu.cn/t/ribenmeinv/
微信公众号文章爬虫
github上关于微信公众号文章的爬虫还是蛮多的,一搜一大把。基于各种技术,这里分享的是之前的做的基于selenium实现的方法。
要爬取的公众号列表修改wx_account.py下的内容
微信公众平台账号登录修改baby_wx_post_spider.py下的如下代码:
username='root@obaby.org.cn'# 账号
password='********'# 密码
如果要存储数据修改如下代码:
# add_wx_post(post_title, post_date, content, html_content, pcs, images_link_text, post_url, "2"
# wx_account, nickname, wx_intro)
print('在此处更新数据库')
登录方式说明:如果不指定账号密码可以直接扫码登录,但是扫码之后需要输入密码,反而更麻烦。
输出日志:
H:\PyCharmProjects\baby_wx_spider\venv\Scripts\python.exe H:/PyCharmProjects/baby_wx_spider/baby_wx_post_spider.py
****************************************************************************************************
Wechat Post Spider System
By:obaby
http://www.h4ck.org.cn
http://www.obaby.org.cn
http://www.findu.co
****************************************************************************************************
[*] System starting ..................
[*] Try to login with username:obaby.lh@163.com Password: ***************
[*] Please scan the qrcode to continue
[*] Scan the QRCode with your cell phone to login!!
[*] Spider starting.....................
[*] Current Wechat account is:
青岛文旅
[*] all passed!
[*] Link:http://mp.weixin.qq.com/s?__biz=MzU0NTc4OTI5MQ==&mid=2247490126&idx=1&sn=29a88b4ceef1cdbd6584702fdd46112a&chksm=fb66de4acc11575c946e802cb475845d7ff540d5a0d6da23834c0c4caa27bd3c3b7c2dd762e6#rd
在此处更新数据库
[*] Link:http://mp.weixin.qq.com/s?__biz=MzU0NTc4OTI5MQ==&mid=2247490126&idx=2&sn=87724f394f1533a23f50e5fddf7c88c1&chksm=fb66de4acc11575cb5c3a610371936a14f2743916b332f0bea3a3edc63dc2648351b386a0b95#rd
在此处更新数据库
[*] Link:http://mp.weixin.qq.com/s?__biz=MzU0NTc4OTI5MQ==&mid=2247490126&idx=3&sn=a9a3992058f069149102ea0fd9dae0b4&chksm=fb66de4acc11575c2c0ef3afe8c5de6c2e8b432c1b3d6c3e8d69f5cb439a85962517b147ee8b#rd
在此处更新数据库
项目地址: https://github.com/obaby/baby_wx_post_spider
PS: 代码如果发现bug,请自行修改!由于微信后台一直变化,所以如果代码不能运行,重新定位相关的元素更新xpath即可
missdica.com爬虫【美女图片爬虫】
韩国美女模特爬虫
对于美女的热爱无法自拔 😆 ,经常会去搜索一些美女图片,下载下来,然后找时间慢慢欣赏。主要用途是用作电脑桌面手机桌面,通常会百度或者bing去搜索下找到图片下载。相对来说能够直接用作桌面的图片并不多,多数是尺寸问题,并不是十分合适。但是即使不能直接用,可以用ps修改下图片尺寸,或者欣赏也是好的啊。 🙂
以前曾经从一个网站mzitu.com 爬了一些图片,但是最近访问的时候却发现网站挂了~~