10行代码爬取安居客数据

2023年6月26日 17 条评论

一个项目，需要维护崂山区的小区建成年代信息。相关部门给的数据并不全，自己去找这些数据也比较麻烦，后来发现安居客有相关的信息，于是想着爬取一下。

关键的代码就下面这几行：

for i in range(1,20):
    bs  = BeautifulSoup(requests.get('https://qd.anjuke.com/community/laoshanqu/p' + str(i) + "/").content, "html.parser")
    info = bs.find_all('div', class_='li-info')
    for i in info:
        name = i.find('div', class_='li-title')
        year = i.find('span', class_='year')
        # if name:
        #     print(name.text)
        if year:
            print(name.text, '-', year.text)

如果直接用上面的代码去跑会被检测到。找了个代理工具proxypool，但是效果比较差，跑了一晚上都没找到一个可用的代理，不知道是网络问题还是什么问题导致的。

于是只能用最笨的办法，直接保存了20页的html数据进行分析：

所以这变成了一个半自动的项目，等有时间在家试试这个代理工具效果吧，可能是公司网络问题导致的。

完整代码：

from bs4 import BeautifulSoup
import time
import random

def get_build_year():
    # https://qd.anjuke.com/community/laoshanqu/p1/
    for i in range(1,20):
        body = ''
        filename = str(i)+ '.html'
        with open(filename) as f:
            body=f.read()
        bs  = BeautifulSoup(body, "html.parser")
        info = bs.find_all('div', class_='li-info')
        for i in info:
            name = i.find('div', class_='li-title')
            year = i.find('span', class_='year')
            # if name:
            #     print(name.text)
            if year:
                print(name.text, '-', year.text)


# 按间距中的绿色按钮以运行脚本。
if __name__ == '__main__':
    print_hi('PyCharm')
    get_build_year()

☆版权☆

* 网站名称：obaby@mars
* 网址：https://obaby.org.cn/
* 个性：https://oba.by/
* 本文标题：《10行代码爬取安居客数据》
* 本文链接：https://obaby.org.cn/2023/06/12349
* 短链接：https://oba.by/?p=12349
* 转载文章请标明文章来源，原文标题以及原文链接。请遵从《署名-非商业性使用-相同方式共享 2.5 中国大陆 (CC BY-NC-SA 2.5 CN) 》许可协议。

Python 爬虫

Previous Post Next Post

obaby

爱好广泛的火星小妖精，有问题欢迎留言交流啊~(✪ω✪) 爬虫类工具请先点击这个链接查看用法https://oba.by/?p=12240 闺蜜圈APP下载 https://guimiquan.cn

17 comments

obaby说道：

2023年6月26日 16:01

Google Chrome 102 Mac OS X 10.15 中国–山东–济南移动
数据下载：

https://www.123pan.com/s/ucY7Vv-pq6HA.html提取码:D223

回复
dujun说道：

2023年6月26日 17:44

Google Chrome 114 Mac OS X 10.15 中国–浙江–杭州电信/数据中心
安居客：你礼貌吗

回复
1. obaby说道：
  
  2023年6月26日 17:45
  
  Google Chrome 102 Mac OS X 10.15 中国–山东–济南移动
  我也很绝望啊，我能怎么办呢？
  
  回复
南香香说道：

2023年6月26日 21:30

Microsoft Edge 114 Windows 10 中国–陕西–汉中电信
我想到了我之前用java爬壁纸来着，把一个网站爬了快1一个g的照片哈哈哈哈

回复
1. obaby说道：
  
  2023年6月27日 08:59
  
  Google Chrome 102 Mac OS X 10.15 中国–山东–青岛移动
  你这个域名是认真的吗？好长啊
  
  回复
  1. 南香香说道：
    
    2023年6月27日 09:00
    
    Microsoft Edge 114 Windows 10 中国–陕西–汉中电信
    哈哈哈，那肯定是认真的呀，顺不
    
    回复
南香香说道：

2023年6月26日 21:30

Microsoft Edge 114 Windows 10 中国–陕西–汉中电信
哈哈哈哈你这个也很爽

回复
1. obaby说道：
  
  2023年6月27日 08:59
  
  Google Chrome 102 Mac OS X 10.15 中国–山东–青岛移动
  没有可靠的ip代理池，最后变成了体力活
  
  回复
Teacher Du说道：

2023年6月27日 10:42

Microsoft Edge 115 Windows 10 中国–北京–北京移动/中国移动北京分公司
买完房了你给我看这个！

回复
1. obaby说道：
  
  2023年6月27日 10:43
  
  Google Chrome 102 Mac OS X 10.15 中国–山东–济南移动
  来把，再买一套~~~
  
  回复
  1. Teacher Du说道：
    
    2023年6月27日 10:55
    
    Microsoft Edge 115 Windows 10 中国–北京–北京移动/中国移动北京分公司
    哈喽忙不？来广场呀~
    
    回复
    1. obaby说道：
      
      2023年6月27日 11:18
      
      Google Chrome 102 Mac OS X 10.15 中国–山东–济南移动
      注册了，没看到频道呢~~
      
      回复
      1. Teacher Du说道：
        
        2023年6月27日 11:19
        
        Microsoft Edge 115 Windows 10 中国–北京–北京移动/中国移动北京分公司
        已经第一时间加进来了！
        
        回复
      2. Dabenshi说道：
        
        2023年6月27日 13:57
        
        Google Chrome 114 Windows 10 中国–北京–北京电信
        嗷吼~嗷吼~频道呢~~
        
        回复
        
        obaby说道：
        
        2023年6月27日 14:32
        
        Google Chrome 102 Mac OS X 10.15 中国–山东–济南移动
        木有啊~~
        
        回复
老麦说道：

2023年6月28日 13:09

Google Chrome 114 Mac OS X 10.15 中国–广东–清远电信
爬了自用就算了，最骚的是你还分享了，哈哈哈。

回复
1. obaby说道：
  
  2023年6月28日 13:11
  
  Google Chrome 102 Mac OS X 10.15 中国–山东–济南移动
  哈哈哈。这个数据嘛，本身量不大，正好可以看下崂山区的房价。表里面少了个字段，就是房价趋势。整体都是下跌的
  
  回复