上节课中,给大家介绍了爬取流程,是先爬取列表,解析出详情页地址,再去详情页获取电影信息。这节课,我们就来搞定列表页的数据爬取。

代码示例

1、模块引入

# data/douban_crawler.py
import requests
from bs4 import BeautifulSoup
import re, json
from tqdm import tqdm
import traceback

2、定义爬虫类

class Crawler():
    pass

if __name__ == '__main__':
    crawler = Crawler()

3、循环创建列表url

观察发现,列表页面共有10页,所以我们需要通过循环,先把列表页的url地址创建出来。

if __name__ == '__main__':
    crawler = Crawler()
    for i in range(10):
        url = 'https://movie.douban.com/top250?start=%s&filter=' % str(i*25)
        print(url)

规范的爬取套路,应该是从入口页面进入,然后找分页节点,通过解析分页节点来获取全部列表页面,但在这个任务中,列表url有明显的规律,而且我们知道总数,所以就用循环的方式简单处理了。

本文链接:http://www.ichenhua.cn/edu/note/588

版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!