scrapy 2.3 下载和处理文件和图像

2021-06-17 10:38 更新

Scrapy 可重复使用 item pipelines 用于下载附加到特定项目的文件(例如,当您 爬取 产品并希望在本地下载其图像时)。这些管道共享一些功能和结构(我们将它们称为媒体管道),但通常您可以使用文件管道或图像管道。

两条管道都实现了以下功能:

  • 避免重新下载最近下载的媒体
  • 指定存储媒体的位置(文件系统目录、FTP服务器、Amazon S3 bucket、Google云存储bucket)

图像管道有一些用于处理图像的额外功能:

  • 将所有下载的图像转换为通用格式(JPG)和模式(RGB)
  • 缩略图生成
  • 检查图像的宽度/高度以确保它们满足最小限制

这些管道还保留当前正在计划下载的媒体URL的内部队列,并将到达的包含相同媒体的响应连接到该队列。这样可以避免在多个项目共享同一媒体时多次下载同一媒体。

以上内容是否对您有帮助:
在线笔记
App下载
App下载

扫描二维码

下载编程狮App

公众号
微信公众号

编程狮公众号