豆瓣爬虫 P2 循环构建豆瓣电影列表地址

陈华 • 2023年06月18日 • 实战项目 • 阅读 1120

上节课中，给大家介绍了爬取流程，是先爬取列表，解析出详情页地址，再去详情页获取电影信息。这节课，我们就来搞定列表页的数据爬取。

代码示例

1、模块引入

# data/douban_crawler.py
import requests
from bs4 import BeautifulSoup
import re, json
from tqdm import tqdm
import traceback

2、定义爬虫类

class Crawler():
    pass

if __name__ == '__main__':
    crawler = Crawler()

3、循环创建列表url

观察发现，列表页面共有10页，所以我们需要通过循环，先把列表页的url地址创建出来。

if __name__ == '__main__':
    crawler = Crawler()
    for i in range(10):
        url = 'https://movie.douban.com/top250?start=%s&filter=' % str(i*25)
        print(url)

规范的爬取套路，应该是从入口页面进入，然后找分页节点，通过解析分页节点来获取全部列表页面，但在这个任务中，列表url有明显的规律，而且我们知道总数，所以就用循环的方式简单处理了。

本文为陈华原创，欢迎转载，但请注明出处：http://www.ichenhua.cn/read/582

豆瓣爬虫 P2 循环构建豆瓣电影列表地址

代码示例

陈华编程

关于我们

合作平台

相关网站

联系我们