scrapy 2.3 蜘蛛

2021-06-03 10:48 更新

spider是定义一个特定站点（或一组站点）如何被抓取的类，包括如何执行抓取（即跟踪链接）以及如何从页面中提取结构化数据（即抓取项）。换言之，spider是为特定站点（或者在某些情况下，一组站点）定义爬行和解析页面的自定义行为的地方。

对于蜘蛛来说，抓取周期是这样的：

首先生成对第一个URL进行爬网的初始请求，然后指定一个回调函数，该函数使用从这些请求下载的响应进行调用。要执行的第一个请求是通过调用 start_requests() （默认）生成的方法 Request 对于中指定的URL start_urls 以及 parse 方法作为请求的回调函数。
在回调函数中，解析响应（网页）并返回 item objects ， Request 对象，或这些对象中的一个不可重复的对象。这些请求还将包含回调（可能相同），然后由scrappy下载，然后由指定的回调处理它们的响应。
在回调函数中，解析页面内容，通常使用选择器（但您也可以使用beautifulsoup、lxml或任何您喜欢的机制）并使用解析的数据生成项。
最后，从spider返回的项目通常被持久化到数据库（在某些 Item Pipeline ）或者使用 Feed 导出 .

尽管这个循环（或多或少）适用于任何类型的蜘蛛，但是为了不同的目的，有不同类型的默认蜘蛛被捆绑成 Scrapy 。我们将在这里讨论这些类型。

以上内容是否对您有帮助：

写笔记

我要补充

推荐文章