强烈建议你试试无所不能的chatGPT，快点击我

Scrapy爬取豆瓣读书全站

阅读量：6878 次

发布时间：2019-06-26

本文共 1343 字，大约阅读时间需要 4 分钟。

Scrapy爬取豆瓣读书全站

分析网页

首先打开，可以看到其中有很多的分类

豆瓣应该是一个比较好爬的网站，所有的数据都不是ajax加载的，我们打开谷歌的F12或者是火狐的FireBug可以很轻松的找到每一个分类的链接

这里我们使用scrapy中的一个,这个库的作用是会根据提供的限制，自动爬取和深入每一个页面并且提取需要的链接，如果想要找到每一个分类的url,只需Rule(LinkExtractor(allow='/tag/',restrict_xpaths="//div[@class='article']"),follow=True),这里的allow是一个正则表达式，用来筛选分类url,restrict_xpaths是限制在哪个结构中筛选url,这里限制的是在<div class='article'>这个盒模型中，follow表示是否深入，这里当然是要深入,这里就能得到每一个分类url了，自己可以在回调函数中测试下，输入所得的url,可以使用respose.url

得到所有的分类url，就可以继续深入到每一步作品所在的页面了，如下图!

但是我们需要不止是这一页，我们要爬的时全站，因此这里必须实现翻页，我们可以看到页面底部清楚的写着下一页，我们通过解析页面同样可以得到url,如下图所示

可以看到所有的url的规则，我们就可以用正则表达式限制，以获取我们的需要，我们可以写出翻页的代码

Rule(LinkExtractor(allow="\?start=\d+\&type=",restrict_xpaths="//div[@class='pa>ginator']"),follow=True),

最后一步就是打开每一部书的网页得到所需的信息了，我们就可以通过这里通过解析网页还是可以很清楚的知道url,这里就不再详细的说怎么解析了，这里可以看到所有的url都在li标签中，如下图

我们打开li标签可以很清楚的看大url的规律，因此这里还是用到上面说的库解析深入，连同上面的代码如下

Rule(LinkExtractor(allow='/tag/',restrict_xpaths="/ /div[@class='article']"),follow=True),#第一步Rule(LinkExtractor(allow="\?start=\d+\&type=",restrict_xpaths="//div[@class='pa>ginator']"),follow=True),  #第二步翻翻页Rule(LinkExtractor(allow="/subject/\d+/$",restrict_>xpaths="//ul[@class='subject-list']"),callback='parse_item')#得到所需网页的url

到了这里总算是大功告成了，下面就需要解析自己的所需要的信息了,这里附上网页

下面就是写自己解析代码了，这里就不需要详细的说了，详细内容请看,值得注意的是爬取的网页速度不要太快，豆瓣会禁IP的，这里可以采用一些反爬虫措施,如请求头的更换，ip地址的更换，下一篇会详细解说。

参考文档：

最后附上本人的,不要忘了给个star哦

转载地址：http://bngfl.baihongyu.com/

你可能感兴趣的文章

北京，北京！

有序的组合

MySQL----基本数据类型

wpgcms---详情页面数据怎么渲染

oracle数据库存储过程中NO_DATA_FOUND不起作用解决

node之版本号升级和管理

Java与设计模式-策略模式

tengine 的优化

C++编译器与链接器工作原理

软件缺陷分析-软件测试之犯罪心理学

Python实战之自己主动化评论

spring boot下使用logback或log4j生成符合Logstash标准的JSON格式

iOS面试题合集（77道）

hadoop安装及配置入门篇

[原] KVM 虚拟化原理探究（2）— QEMU启动过程

使用Java程序调用MatLab

什么是C++虚函数、虚函数的作用和使用方法

Atitit.cto 与技术总监的区别

关于【自证清白】

手把手教你crontab排障

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-02-02 05:55:56 当前IP: 18.225.234.226 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我