前面课程中,我们已经构建好了列表页面的url地址,接下来就是获取html源码,然后解析出电影的详情页地址了。

代码示例

1、requests获取页面源码

一般来说,用 requests.get() 方法,就能获取到页面源码,但豆瓣有个简单的反爬策略,他会判断是不是通过浏览器访问,所以我们要加一个UA头,伪装成一个浏览器的访问,UA头可以在网络面板查看。

内容不可见,请联系管理员开通权限。

2、封装方法

内容不可见,请联系管理员开通权限。

3、bs4解析电影节点

内容不可见,请联系管理员开通权限。

本节课内容,总体来说比较简单,但对于没接触过爬虫的同学来说,还是需要花一些时间,去了解requests、bs4这些基础包的使用方法。然后不参考我的代码,尝试独立完成这一部分代码。

本文链接:http://www.ichenhua.cn/edu/note/589

版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!