前面课程中,我们已经把容易获取的节点处理完了,目前,我们还剩下影片简介,和影片属性两块内容,接下来,我们就来解析这两块内容。

代码示例

1、解析影片简介

影片简介节点有三种情况:

1)有豆瓣标识符和展开全部:https://movie.douban.com/subject/1292052/

2)有豆瓣标识符,没有展开全部:https://movie.douban.com/subject/1292722/

3)只有介绍文本,没有标识符和展开全部:https://movie.douban.com/subject/30170448/

内容不可见,请联系管理员开通权限。

2、爬取导演信息

在使用正则匹配,解析bs4筛选出的节点时,可能会和html源码格式不完全相同,要以转化后的文本为准。

内容不可见,请联系管理员开通权限。

3、爬取导演信息

内容不可见,请联系管理员开通权限。

4、爬取编剧和主演信息

内容不可见,请联系管理员开通权限。

这节课的内容虽然不算太难,但我还是建议大家自己动手,去写一下这个匹配的过程。写代码是个手艺活,多练习、多趟坑,才能有进步。

本文链接:http://www.ichenhua.cn/edu/note/591

版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!