生活对于某些人来说从来都不是一成不变,而诱惑也不是无中生有。星星之火可能就形成与那漫不经心的惊恐一撇,这一撇看到了一些让人血脉喷张的事情,也在内心中下了一颗萌动的种子,随时等着破土而出。尼采说过,当你在凝视深渊的时候,深渊也在凝视着你。之前对于这句话并没有太多的感觉,进而对于屠龙少年终成恶龙的论调也不屑一顾。
事情并不是总是那么的波澜不惊,之前对于各种色情内容的认知不过是日本,欧美的av。国产片基本都看不到,也许是因为语言,也许是因为肤色,也许是因为种族的问题。对于发生在欧美国家,日本等的各种小电影并没有什么过多的共情,觉得不过是一部色情影片而已,追求的也仅是感官和生理上的刺激。多年以前去泰国,去按摩的时候还想着能不能遇到人妖小姐姐,事实上并没有,给按摩的是一个大妈,手法很专业。按完了感觉也不错,说不上有什么失望,也说不上有什么惊喜。
前年开始,偶然的机会在一个论坛看到一篇分析福利app的帖子。在这之后,陆陆续续分析了数款福利app。然而并不是只是分析了算法,更深入的还爬取了各个网站的视频,把所有的数据收集到了一起(目前多数app加密算法都变了,数据不再增加)。
为了存这些数据,直接在亚马孙上开了一台服务器。基于这些数据也做了不少数据分析的文章。如果事情到此为止,可能也不会有任何的欲望。在分析完这些数据之后,还观看了无数的视频,也就是在这时候发现,现在国产色情影片的数量和拍摄速度异常惊人。也就是因为这,有无数的男性(从qq性别看)来加我,要麻豆区的视频下载地址。这也是为什么博客右侧用红字标注了不提供麻豆区视频下载,有了这条声明之后基本没有人加我qq来要视频了,整个世界清净了不少。
美女图片整理工具 V1.0
不知道有没有和姐姐我一样把所有美女的图片都下载下来的,如果没有下载的话可以通过博客的搜索功能搜索爬虫去下载妹子图片了哦。通过爬取的乱七八糟的各种网站,目前粗略的估计所有下载的图片大约有1T左右了。由于各个网站都是分别的下载的,所有下载后的图片会有很多重复的。想找一个图片处理工具,找了半天有个什么推荐的eagle的工具,还是收费的,可以免费试用一个月。结果我把下载的图片目录加进去直接卡死了。啊哈哈。这就离谱,所以如果没有图片处理需求的还是推荐picasa3,我也有发布一个补丁工具,真的是一代神器。
既然没有现成的工具,那就写一个吧,具体的要求:
1.能够把所有文件复制到同一个目录下(这不是废话嘛,就是为了干这个的啊) 2.能够过滤10k以下的非图片文件(多数是由于被爬取网站不稳定导致的下载失败,其实不是图片文件) 3.对于不同网站下载的同一个图片不要重复复制(通过计算文件md5的方法进行规避) 4.能够记录整理日志(当然啊,不然那么多文件中间关机了,岂不是得全部再来一遍) 主要就是上面的几个要求啦~~~
精品美女吧 爬虫【Windows】【22.12.23】
精品美女吧 爬虫 Verson: 22.12.23 Blog: http://www.h4ck.org.cn **************************************************************************************************** USAGE: spider -h <help> -a <all> -q <search> -e <early stop> Arguments: -a <download all site images> -q <query the image with keywords> -h <display help text, just this> ****************************************************************************************************
秀人美女网爬虫 【Windows】【22.12.09】
那些代码托管服务平台
github在为支持私有项目之前,很多的代码都是基于bitbucket托管的。整体体验也还算ok。不过有段时间bitbucket服务貌似周期性被墙,尤其是登录跳转,异常的恶心。在bitbucket上托管的代码基本都是非公开的项目,包含各种图片站的爬虫,语音助理等。
Bitbucket 对于个人以及最多具有 5 位用户的小型团队是免费的,并提供无限制的公共和私人存储库。您还可以获得 LFS 的 1 GB 文件存储和 50 分钟的构建时间,以便开始使用 Pipelines。您可以在工作区与所有用户共享构建分钟数和存储。
秀人美女网爬虫 【Windows】【22.12.03】
F:\Pycharm_Projects\meitulu-spider\venv\Scripts\python.exe F:\Pycharm_Projects\meitulu-spider\xrmnw.py **************************************************************************************************** 秀人美女网爬虫 Verson: 22.12.03 Blog: http://www.h4ck.org.cn **************************************************************************************************** USAGE: spider -h <help> -a <all> -q <search> Arguments: -a <download all site images> -q <query the image with keywords> -h <display help text, just this> Option Arguments: -p <image download path> -r <random index category list> -c <single category url> -e <early stop, work in site crawl mode only> -s <site url eg: http://www.xiurenji.vip (no last backslash "/")> ****************************************************************************************************
Python3 读取Chrome cookie
网上搜一下,读取cookie的基本都是这份代码。我也忘了是从那里抄来的了,这里贴一下 ,对于最新的chrome需要修改下路径:
# chrome 96 版本以下 # filename = os.path.join(os.environ['USERPROFILE'], r'AppData\Local\Google\Chrome\User Data\default\Cookies') # chrome96 版本以上 # filename = os.path.join(os.environ['USERPROFILE'], r'AppData\Local\Google\Chrome\User Data\default\Network\Cookies')
秀人集爬虫 【22.09.04】【Windows】
更新日志: 22.9.4 1.调整超时时间为10秒 2.换了个进度条 3.下载异常处理可能不生效的问题 22.4.12 增加-e early stop参数,配合整站爬取使用,单独无效.如果没有完成整站爬取不要使用该参数,终止逻辑过于简单粗暴。首次爬取尽量使用批处理死循环,开多进程处理。 22.1.18 1.兼容更新后的秀人集网站,支持搜索以及全站爬取。 2.修改默认域名为https://www.xiurenji.net(暂时可以不使用-s 参数)。 22.1.20 1.修复页面异常可能导致的异常终止 22.1.24 1.增加-r参数,支持分类重拍,可以开启多个进程进行爬取。说实话就是姐姐太懒了,不想写多线程。 2.增加-c参数,支持爬取特定分类,请直接-c 分类地址。具体参数见下方使用说明。