更新日志: 22.9.4 1.调整超时时间为10秒 2.换了个进度条 3.下载异常处理可能不生效的问题 22.4.12 增加-e early stop参数,配合整站爬取使用,单独无效.如果没有完成整站爬取不要使用该参数,终止逻辑过于简单粗暴。首次爬取尽量使用批处理死循环,开多进程处理。 22.1.18 1.兼容更新后的秀人集网站,支持搜索以及全站爬取。 2.修改默认域名为https://www.xiurenji.net(暂时可以不使用-s 参数)。 22.1.20 1.修复页面异常可能导致的异常终止 22.1.24 1.增加-r参数,支持分类重拍,可以开启多个进程进行爬取。说实话就是姐姐太懒了,不想写多线程。 2.增加-c参数,支持爬取特定分类,请直接-c 分类地址。具体参数见下方使用说明。
微图坊爬虫 [Chrome Support]【22.09.04】【Windows】
更新记录: 1. 修复了地址中由于/引起的404问题。
WordPress 自动发布文章
页面地址:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2021/11/01/01/110101001.html 最近需要使用最新的行政区划信息,虽然统计局公开了相关的数据,但是并没有提供数据文件。于是,就写了个爬虫把所有的数据爬取了一遍。生成的默认数据格式为json,另外提供了一个工具来把json转成csv。
微图坊爬虫 【22.06.07】【Windows】
Change Log:
1. Install newst chrome before use this program. 2. Open chrome and login to v2ph.com 3. The spider will auto stop after crawl 16 albums
(venv) PS F:\Pycharm_Projects\meitulu-spider> python .\v2ph.py Arguments: -a <download all site images> -q <query the image with keywords> -h <display help text, just this> Option Arguments: -p <image download path> -r <random index category list> -c <single category url> -e <early stop, work in site crawl mode only> -s <site url eg: https://www.v2ph.com (no last backslash "/")> ****************************************************************************************************
KU138爬虫 【22.05.23】【Windows】
**************************************************************************************************** USAGE: spider -h <help> -a <all> -q <search> Arguments: -a <download all site images> -q <query the image with keywords> -h <display help text, just this> Option Arguments: -p <image download path> -r <random index category list> -c <single category url> -e <early stop, work in site crawl mode only> -s <site url eg: https://www.v2ph.com (no last backslash "/")> ****************************************************************************************************
微图坊爬虫 【22.05.16】【Windows】
使用参数: **************************************************************************************************** USAGE: spider -h <help> -a <all> -q <search> Arguments: -a <download all site images> -q <query the image with keywords> -h <display help text, just this> Option Arguments: -p <image download path> -r <random index category list> -c <single category url> -e <early stop, work in site crawl mode only> -s <site url eg: https://www.v2ph.com (no last backslash "/")> ****************************************************************************************************
Windows PowerShell 版权所有 (C) Microsoft Corporation。保留所有权利。 尝试新的跨平台 PowerShell https://aka.ms/pscore6 无法加载文件 F:\Pycharm_Projects\meitulu-spider\venv\Scripts\activate.ps1,因为在此系统上禁止运行脚本。有关详细信息,请参阅 https:/go.microsoft.com/fwlink/?LinkID=135170 中的 about_Execution_Policies。 + CategoryInfo : SecurityError: (:) [],ParentContainsErrorRecordException + FullyQualifiedErrorId : UnauthorizedAccess PS F:\Pycharm_Projects\meitulu-spider>