scrapy 2.3 项目管道

2021-06-08 14:15 更新

在一个项目被蜘蛛抓取之后,它被发送到项目管道,该管道通过几个按顺序执行的组件来处理它。

每个项管道组件(有时称为“项管道”)都是一个实现简单方法的Python类。它们接收一个项目并对其执行操作,还决定该项目是否应继续通过管道,或者是否应删除并不再处理。

项目管道的典型用途有:

  • 清理HTML数据
  • 验证抓取的数据(检查项目是否包含某些字段)
  • 检查重复项(并删除它们)
  • 将爬取的项目存储在数据库中


以上内容是否对您有帮助:

在线笔记
App下载
App下载

扫描二维码

下载编程狮App

公众号
微信公众号

编程狮公众号