scrapy 2.3 选择器

2021-06-03 11:03 更新

当你抓取网页时，你需要执行的最常见的任务是从HTML源代码中提取数据。有几个库可以实现这一点，例如：

BeautifulSoup 在Python程序员中是一个非常流行的Web抓取库，它基于HTML代码的结构构造了一个Python对象，并且能够很好地处理错误的标记，但是它有一个缺点：速度慢。lxml 是一个XML解析库（它也解析HTML），使用基于 ElementTree . （LXML不是Python标准库的一部分。）

Scrapy有自己的数据提取机制。它们被称为选择器，因为它们“选择”HTML文档的某些部分 XPath 或 CSS 表达。

XPath 是一种在XML文档中选择节点的语言，也可以与HTML一起使用。 CSS 是用于将样式应用于HTML文档的语言。它定义选择器，将这些样式与特定的HTML元素相关联。

注解

碎屑选择器是一个很薄的包装 parsel library；这个包装器的目的是提供更好的与slapy响应对象的集成。

parsel 是一个独立的网页爬取库，可以使用没有 Scrapy 。它使用 lxml 库位于引擎盖下，并在LXML API之上实现一个简单的API。这意味着scrapy选择器在速度和解析精度方面与lxml非常相似。

以上内容是否对您有帮助：

← scrapy 2.3 SitemapSpider

scrapy 2.3 构造选择器 →

写笔记

我要补充

scrapy 2.3 选择器

推荐文章

推荐教程

推荐课程