由于爬虫比较多,有的爬虫在下载的时候没有处理网络问题或者图片本山链接错误导致的图片异常。有的是处理了的,不要问为什么没加异常检测,问就是懒。
下载的图片会出现下面的问题,其实预览的时候就会发下问题了,另外打开这个图片其实会显示404或者502之类的错误页面。所以写了一段处理代码,主要两个功能:
1.删除小文件,至于多小自己去调整代码 2.如果目录下所有的文件都有问题,删除文件后同时删除目录
由于爬虫比较多,有的爬虫在下载的时候没有处理网络问题或者图片本山链接错误导致的图片异常。有的是处理了的,不要问为什么没加异常检测,问就是懒。
下载的图片会出现下面的问题,其实预览的时候就会发下问题了,另外打开这个图片其实会显示404或者502之类的错误页面。所以写了一段处理代码,主要两个功能:
1.删除小文件,至于多小自己去调整代码 2.如果目录下所有的文件都有问题,删除文件后同时删除目录
更新记录: 1.修复txt文件url列表格式下载导致的windows下的文件名命名错误
m3u8_downloader.exe **************************************************************************************************** Verson: 23.03.04 m3u8_downloader -i <input m3u8 link> -o <output file> -p <out put path> -f <input file> -m <ffmpeg path> Need Arguments: -i <input m3u8 link> Option Arguments: -o <output file> -p <out put path> -f <input file> -m <ffmpeg path> ffmpeg:F:\Pycharm_Projects\m3u8_downloader\dist\m3u8_downloader\bin/ffmpeg.exe Blog: http://www.h4ck.org.cn Source Code: http://h4ck.org.cn/2020/01/基于ffmpeg的m3u8下载/ ****************************************************************************************************
C:\Users\obaby>F:\Pycharm_Projects\sexy_girl_spider\dist\ikmn\ikmn.exe **************************************************************************************************** USAGE: spider -h <help> -a <all> -q <search> -e <early stop> Arguments: -a <download all site images> -q <query the image with keywords> -h <display help text, just this> Option Arguments: -p <image download path> -r <random index category list> -c <single category url> -e <early stop, work in site crawl mode only> -s <site url eg: https://www.ikmn.vip (no last backslash "/")> ****************************************************************************************************
不知道有没有和姐姐我一样把所有美女的图片都下载下来的,如果没有下载的话可以通过博客的搜索功能搜索爬虫去下载妹子图片了哦。通过爬取的乱七八糟的各种网站,目前粗略的估计所有下载的图片大约有1T左右了。由于各个网站都是分别的下载的,所有下载后的图片会有很多重复的。想找一个图片处理工具,找了半天有个什么推荐的eagle的工具,还是收费的,可以免费试用一个月。结果我把下载的图片目录加进去直接卡死了。啊哈哈。这就离谱,所以如果没有图片处理需求的还是推荐picasa3,我也有发布一个补丁工具,真的是一代神器。
既然没有现成的工具,那就写一个吧,具体的要求:
1.能够把所有文件复制到同一个目录下(这不是废话嘛,就是为了干这个的啊) 2.能够过滤10k以下的非图片文件(多数是由于被爬取网站不稳定导致的下载失败,其实不是图片文件) 3.对于不同网站下载的同一个图片不要重复复制(通过计算文件md5的方法进行规避) 4.能够记录整理日志(当然啊,不然那么多文件中间关机了,岂不是得全部再来一遍) 主要就是上面的几个要求啦~~~
精品美女吧 爬虫 Verson: 22.12.23 Blog: http://www.h4ck.org.cn **************************************************************************************************** USAGE: spider -h <help> -a <all> -q <search> -e <early stop> Arguments: -a <download all site images> -q <query the image with keywords> -h <display help text, just this> ****************************************************************************************************
github在为支持私有项目之前,很多的代码都是基于bitbucket托管的。整体体验也还算ok。不过有段时间bitbucket服务貌似周期性被墙,尤其是登录跳转,异常的恶心。在bitbucket上托管的代码基本都是非公开的项目,包含各种图片站的爬虫,语音助理等。
Bitbucket 对于个人以及最多具有 5 位用户的小型团队是免费的,并提供无限制的公共和私人存储库。您还可以获得 LFS 的 1 GB 文件存储和 50 分钟的构建时间,以便开始使用 Pipelines。您可以在工作区与所有用户共享构建分钟数和存储。