微信公众号文章爬虫

github上关于微信公众号文章的爬虫还是蛮多的,一搜一大把。基于各种技术,这里分享的是之前的做的基于selenium实现的方法。

要爬取的公众号列表修改wx_account.py下的内容

微信公众平台账号登录修改baby_wx_post_spider.py下的如下代码:

   
username='root@obaby.org.cn'# 账号
password='********'# 密码

如果要存储数据修改如下代码:

    
# add_wx_post(post_title, post_date, content, html_content, pcs, images_link_text, post_url, "2"
#             wx_account, nickname, wx_intro)
print('在此处更新数据库')

登录方式说明:如果不指定账号密码可以直接扫码登录,但是扫码之后需要输入密码,反而更麻烦。

输出日志:

H:\PyCharmProjects\baby_wx_spider\venv\Scripts\python.exe H:/PyCharmProjects/baby_wx_spider/baby_wx_post_spider.py
****************************************************************************************************
Wechat Post Spider System
By:obaby
http://www.h4ck.org.cn
http://www.obaby.org.cn
http://www.findu.co
****************************************************************************************************
[*] System starting ..................
[*] Try to login with username:obaby.lh@163.com Password: ***************
[*] Please scan the qrcode to continue
[*] Scan the QRCode with your cell phone to login!!
[*] Spider starting.....................
[*] Current Wechat account is:
青岛文旅
[*] all passed!
[*] Link:http://mp.weixin.qq.com/s?__biz=MzU0NTc4OTI5MQ==&mid=2247490126&idx=1&sn=29a88b4ceef1cdbd6584702fdd46112a&chksm=fb66de4acc11575c946e802cb475845d7ff540d5a0d6da23834c0c4caa27bd3c3b7c2dd762e6#rd
在此处更新数据库
[*] Link:http://mp.weixin.qq.com/s?__biz=MzU0NTc4OTI5MQ==&mid=2247490126&idx=2&sn=87724f394f1533a23f50e5fddf7c88c1&chksm=fb66de4acc11575cb5c3a610371936a14f2743916b332f0bea3a3edc63dc2648351b386a0b95#rd
在此处更新数据库
[*] Link:http://mp.weixin.qq.com/s?__biz=MzU0NTc4OTI5MQ==&mid=2247490126&idx=3&sn=a9a3992058f069149102ea0fd9dae0b4&chksm=fb66de4acc11575c2c0ef3afe8c5de6c2e8b432c1b3d6c3e8d69f5cb439a85962517b147ee8b#rd
在此处更新数据库

项目地址: https://github.com/obaby/baby_wx_post_spider

PS: 代码如果发现bug,请自行修改!由于微信后台一直变化,所以如果代码不能运行,重新定位相关的元素更新xpath即可

BroadlinkRM2 Domotizc Plugin插件

每次异常断电树莓派就挂了,之前以为是读写问题,这次停电前主动关机,然后,tm依然挂了。用fsck修复,无数的错误,修复完没有效果。于是重装,重装之后主要就是重新弄好domoticz的博联插件,于是就折腾了一番,把插件的问题进行了修复。

插件原始的wiki页面http://www.domoticz.com/wiki/plugins/BroadlinkRM2.html,已经无法访问了。 并且网上随便一搜,关于这个插件的文章都是四年以前的。新的内容基本没有,我不是插件的原始作者,只是进行了修改和完善。 感谢原作者开发的插件。 虽然一直在用这个插件,但是这个插件配置起来却一点都不轻松,插件依赖于broadlink库。 而这个库在树莓派上安装的时候,虽然能安装成功。但是安装 成功之后多数时间会找不到这个库,从而导致插件启动失败。
插件项目地址:
https://github.com/mjg59/python-broadlink 看项目简介现在已经支持Broadlink RM2, RM3 and RM4 series controllers 。
其实要解决库找不到的问题也简单,不要用pip之类的安装。直接将python-broadlink的broadlink目录拷贝到BroadlinkRM2目录下就可以解决这个问题。
插件进行库搜索的时候会搜索当前插件目录下的库,所以没有必要安装之后再去进行拷贝。 我这里集成的是旧版本的python-broadlink库,如果需要可以替换为新版的库。新版本我没有测试,如果测试ok可以提交个补丁进行说明。

Continue Reading

django raw_id_fields 显示名称而不是id(raw_id_fields: How to show a name instead of id)

为了防止页面加载的时候加载所有的Foreignkey到内存,django提供了一个raw_id_fields,该tupple内的数据将只展示id。虽然内存不加载了,但是基本没法看。不知道是个什么东西。

这尼玛tags和Porn model完全看不出是个什么东西。如果要展示相关的名称可以使用django-dynamic-raw-id

A Django admin raw_id_fields widget replacement that handles display of an object’s string value on change and can be overridden via a template

使用方法: https://pypi.org/project/django-dynamic-raw-id/

具体效果:

嗯,非常直观~ 测试环境:python 3.7.2 + django 3.7.2

Continue Reading

Django input value值被截断

搜索功能效果很奇怪,输入的关键词,在重新模板化的时候被截断了。查看源代码可以发现value变成了情趣,内衣没了。所以输入框就剩下了情趣。检查了一下发现模板少了两个引号。

源代码:

{% include "header.html" %}

只需要修改 value=”{{ q|safe }}”即可。

m3u8 下载工具 V20.6.01 [OSX]

功能与windows版本一致,使用之前需要安装ffmpeg,可以通过home brew 安装

 brew install ffmpeg

. 默认路径为/usr/local/bin/ffmpeg, 如果路径不是这个路径可以通过ls软连接或者-m 参数指定ffmpeg路径。

几个osx下打包遇到的坑:

  1. pyinstaller打包之后报错:FileNotFoundError: Tcl data directory ,我这里没有用到tcl相关的内容可以直接修改:env/lib/python3.7/site-packages/PyInstaller/loader/rthooks/pyi_rth_tkinter.py
    注释掉如下几行:

    #if not os.path.isdir(tcldir):
    #raise FileNotFoundError('Tcl data directory "%s" not found.' % (tcldir))
    #if not os.path.isdir(tkdir):
    #raise FileNotFoundError('Tk data directory "%s" not found.' % (tkdir))
  2. pyinstaller osx 和windows下的add-data参数的分割符不一样,windows平台为分号; osx为冒号:
Continue Reading

m3u8 下载工具 v20.6.01 [Windows]

更新日志:

  1. 支持 从cvs批量进行下载,csv内容包含两列:name link,如果使用csv格式进行下载,下载的文件名会自动以name列+crc32(link)进行命名。如果没有name那么还是以简化的link进行命名。
  2. 支持指定ffmpeg路径,通过-m参数可以指定运行自己的ffmpeg。
  3. 修复从列表下载文件可能重复的bug

csv文件结构:

Continue Reading

.mht文件图片解析工具

网上找了一下没有找到比较现成的好用的工具,找到一个mht-viewer 的windows下的查看工具,但是实际实用的时候发现啥都看不了,就是个文本编辑器?还是我打开的姿势不对?

并且对于中文目录和文件名直接无法显示,我都不知道查看的是什么东西,就这个还尼玛有付费版本?

搜索了一下发现了几个python脚本,实际使用效果也一般。网上搜索了一下并没有找到相关的文件格式的说明

直接查看文件就可以发现文件格式并不是十分复杂,于是可以遍历来解析文件中的图片

已经保存的图片如下:

Continue Reading

m3u8 下载工具 v20.5.14 [Windows]

更新功能:

1. 增加支持从文件读取下载链接功能,参数-f J:\Porn\202005\list\list.txt;

2. 支持直接从mp4,avi, mov, mpeg链接下载文件。列表下载过程中对于已经存在的文件会直接跳过(youtube-dl 支持从文件读取下载链接,但是下载过程中对于多个url最终字符一样的情况没有做处理,导致会误认为文件已经下载,没有找到用什么参数来修改下载后的文件名。例如下图的列表格式就无法下载文件,因为youtube-dl 直接吧下载的文件命名成了index.m3u8.mp4 。 下载其他连接的时候就会认为文件已经存在了。)。

文件格式如下:

实例: 

 m3u8_downloader.exe -f J:\Porn\202005\list\list.txt -p J:\Porn\202005\squirt 

使用-f参数的时候-o参数无效

Continue Reading