scrapy 2.3 使用文件管道

2021-06-17 10:40 更新

使用时的典型工作流 FilesPipeline 像这样：

在spider中，您爬取一个项目并将所需的URL放入 file_urls 字段。
该项从spider返回并转到项管道。
当项目到达 FilesPipeline ，中的URL file_urls 使用标准的Scrapy计划程序和下载程序（这意味着计划程序和下载程序中间软件被重用）来计划下载字段，但具有更高的优先级，在其他页面被抓取之前对其进行处理。该项在特定管道阶段保持“锁定”，直到文件完成下载（或由于某种原因失败）。
下载文件时，另一个字段 (files ）将用结果填充。此字段将包含一个包含有关下载文件的信息的dict列表，例如下载路径、原始的scraped url（取自 file_urls 字段），文件校验和和和文件状态。列表中的文件 files 字段将保留与原始字段相同的顺序 file_urls 字段。如果某些文件下载失败，将记录一个错误，并且该文件不会出现在 files 字段。

以上内容是否对您有帮助：

写笔记

我要补充

推荐文章