秀人集爬虫 【21.9.21】【Windows】
xiurenji.exe 可执行文件名称 帮助: -h 显示帮助说明 必选参数: -a 整站爬取 -q 搜索爬取,针对关键字搜索之后对于搜索结果页进行爬取 可选参数: -p 指定下载目录,默认下载路径为当前exe所在目录下的images文件夹 -s 指定服务器地址,例如:http://www.xiurenji.vip url不要带最后的/
更新日志:
增加-s 参数支持: -s 指定服务器地址,例如:http://www.xiurenji.vip url不要带最后的/
秀人集爬虫
功能:支持全站爬取,搜索爬取。想下载什么内容自己定制,目前版本不支持独立页面下载,后续可能会考虑支持,目前我的目标是为了爬取整个网站,所以单页面下载功能不一定会做,即使做了也不一定什么时候会上。 参数说明:
xiurenji.exe 可执行文件名称 帮助: -h 显示帮助说明 必选参数: -a 整站爬取 -q 搜索爬取,针对关键字搜索之后对于搜索结果页进行爬取 可选参数: -p 制定下载目录,默认下载路径为当前exe所在目录下的images文件夹
美图录 爬虫
**************************************************************************************************** _ _ ____ ___ | |__ __ _| |__ _ _ / __ \ _ __ ___ __ _ _ __ ___ / _ \| '_ \ / _` | '_ \| | | |/ / _` | '_ ` _ \ / _` | '__/ __| | (_) | |_) | (_| | |_) | |_| | | (_| | | | | | | (_| | | \__ \ \___/|_.__/ \__,_|_.__/ \__, |\ \__,_|_| |_| |_|\__,_|_| |___/ |___/ \____/ 美图录爬虫 Verson: 21.6.15 Blog: http://www.h4ck.org.cn **************************************************************************************************** **************************************************************************************************** [*] 2021-06-16 21:00:11 CAT: 开始分析分类信息...... [*] 2021-06-16 21:00:11 泳装: http://www.meitulu.cn/t/yongzhuang/ [*] 2021-06-16 21:00:11 可爱: http://www.meitulu.cn/t/keai/ [*] 2021-06-16 21:00:11 日本美女: http://www.meitulu.cn/t/ribenmeinv/
妹子图爬虫
Ganlinmu Spider
微信公众号文章爬虫
github上关于微信公众号文章的爬虫还是蛮多的,一搜一大把。基于各种技术,这里分享的是之前的做的基于selenium实现的方法。
要爬取的公众号列表修改wx_account.py下的内容
微信公众平台账号登录修改baby_wx_post_spider.py下的如下代码:
username='root@obaby.org.cn'# 账号
password='********'# 密码
如果要存储数据修改如下代码:
# add_wx_post(post_title, post_date, content, html_content, pcs, images_link_text, post_url, "2"
# wx_account, nickname, wx_intro)
print('在此处更新数据库')
登录方式说明:如果不指定账号密码可以直接扫码登录,但是扫码之后需要输入密码,反而更麻烦。
输出日志:
H:\PyCharmProjects\baby_wx_spider\venv\Scripts\python.exe H:/PyCharmProjects/baby_wx_spider/baby_wx_post_spider.py
****************************************************************************************************
Wechat Post Spider System
By:obaby
http://www.h4ck.org.cn
http://www.obaby.org.cn
http://www.findu.co
****************************************************************************************************
[*] System starting ..................
[*] Try to login with username:obaby.lh@163.com Password: ***************
[*] Please scan the qrcode to continue
[*] Scan the QRCode with your cell phone to login!!
[*] Spider starting.....................
[*] Current Wechat account is:
青岛文旅
[*] all passed!
[*] Link:http://mp.weixin.qq.com/s?__biz=MzU0NTc4OTI5MQ==&mid=2247490126&idx=1&sn=29a88b4ceef1cdbd6584702fdd46112a&chksm=fb66de4acc11575c946e802cb475845d7ff540d5a0d6da23834c0c4caa27bd3c3b7c2dd762e6#rd
在此处更新数据库
[*] Link:http://mp.weixin.qq.com/s?__biz=MzU0NTc4OTI5MQ==&mid=2247490126&idx=2&sn=87724f394f1533a23f50e5fddf7c88c1&chksm=fb66de4acc11575cb5c3a610371936a14f2743916b332f0bea3a3edc63dc2648351b386a0b95#rd
在此处更新数据库
[*] Link:http://mp.weixin.qq.com/s?__biz=MzU0NTc4OTI5MQ==&mid=2247490126&idx=3&sn=a9a3992058f069149102ea0fd9dae0b4&chksm=fb66de4acc11575c2c0ef3afe8c5de6c2e8b432c1b3d6c3e8d69f5cb439a85962517b147ee8b#rd
在此处更新数据库
项目地址: https://github.com/obaby/baby_wx_post_spider
PS: 代码如果发现bug,请自行修改!由于微信后台一直变化,所以如果代码不能运行,重新定位相关的元素更新xpath即可