豆瓣爬虫 P1 豆瓣电影Top250数据爬取流程说明

陈华 • 2023年06月18日 • 实战项目 • 阅读 330

在这一章里面，我将带大家来爬取「豆瓣电影Top250」的数据，爬取到的数据，将作为后面知识图谱课程的素材。因为豆瓣没有反爬策略，所以爬取的过程比较简答。我们课上演示的是Top250的数据，大家如果有兴趣，想去爬取豆瓣上全量的电影数据，也是相同的套路，可以去酌情尝试。

入口地址：https://movie.douban.com/top250

爬取内容：电影标题、url、基本信息、评分、简介。

导演、编剧、主演这些页面，结构和解析方法基本一致，课上不重复演示，大家如果想进一步扩展，可以自己尝试。

1. 发送请求：使用Python的requests库向目标网站发送请求，获取网页源代码。

2. 解析网页：使用Python的BeautifulSoup库，和正则表达式，解析网页源代码，提取需要的数据。

3. 存储数据：将每一个电影的数据转成json格式，存储到本地文件中。

以上介绍的基本流程，是针对单个页面的，但是在这个爬取任务中，我们需要批量爬取多部电影数据。所以完整流程是，先找到列表页（索引页），解析列表页中单个电影的地址，再进入单个电影页面中，解析需要的电影信息。

最后，再补充说明一点，这个课程涉及的内容比较多，会用到requests、re、bs4这些模块。因为这个课程是一个项目课，所以课上不会细讲，正则表达式、bs4解析这些基础内容，如果大家不了解，可以针对性的去看一下相关的文档。

系统正则表达式课程：http://edu.ichenhua.cn/edu/course/12

如果是原生Python环境，需要安装以下依赖包，conda环境自带，无需重复安装。

pip install requests
pip install Beautifulsoup4

本文为陈华原创，欢迎转载，但请注明出处：http://www.ichenhua.cn/read/581