豆瓣爬虫 P3 爬取并解析电影列表页面

作者：陈华 • 发布时间：2023-06-18 • 阅读 744

前面课程中，我们已经构建好了列表页面的url地址，接下来就是获取html源码，然后解析出电影的详情页地址了。

1、requests获取页面源码

一般来说，用 requests.get() 方法，就能获取到页面源码，但豆瓣有个简单的反爬策略，他会判断是不是通过浏览器访问，所以我们要加一个UA头，伪装成一个浏览器的访问，UA头可以在网络面板查看。

内容不可见，请联系管理员开通权限。

2、封装方法

内容不可见，请联系管理员开通权限。

3、bs4解析电影节点

内容不可见，请联系管理员开通权限。

本节课内容，总体来说比较简单，但对于没接触过爬虫的同学来说，还是需要花一些时间，去了解requests、bs4这些基础包的使用方法。然后不参考我的代码，尝试独立完成这一部分代码。

本课程为收费课程，购买后可查看！