scrapy 2.3 填充设置

2021-06-10 10:29 更新

可以使用不同的机制填充设置,每个机制具有不同的优先级。以下是按优先级降序排列的列表:

  1. 命令行选项(最优先)
  2. 每个蜘蛛的设置
  3. 项目设置模块
  4. 每个命令的默认设置
  5. 默认全局设置(优先级较低)

这些设置源的填充是在内部处理的,但是可以使用API调用进行手动处理。见 设置API 供参考的主题。

下面将更详细地描述这些机制。

1、命令行选项

命令行提供的参数是最优先的参数,覆盖了任何其他选项。您可以使用 -s (或) --set )命令行选项。

例子::

scrapy crawl myspider -s LOG_FILE=scrapy.log

2、每个蜘蛛的设置

蜘蛛(见 蜘蛛 章节供参考)可以定义它们自己的设置,这些设置将优先并覆盖项目设置。他们可以通过设置 ​custom_settings​ 属性:

class MySpider(scrapy.Spider):
    name = 'myspider'

    custom_settings = {
        'SOME_SETTING': 'some value',
    }

3、项目设置模块

项目设置模块是碎屑项目的标准配置文件,它将填充大部分自定义设置。对于标准的Scrapy项目,这意味着您将在 ​settings.py​ 为项目创建的文件。

4、每个命令的默认设置

各 Scrapy tool 命令可以有自己的默认设置,这将覆盖全局默认设置。这些自定义命令设置在 ​default_settings​ 命令类的属性。

5、默认全局设置

全局默认值位于 ​scrapy.settings.default_settings​ 并记录在 内置设置参考 部分。

导入路径和类

VERSION 新版功能.

当设置引用要由scray导入的可调用对象(如类或函数)时,可以使用两种不同的方法指定该对象:

  • 作为包含该对象的导入路径的字符串
  • 作为对象本身

例如:

from mybot.pipelines.validate import ValidateMyItem
ITEM_PIPELINES = {
    # passing the classname...
    ValidateMyItem: 300,
    # ...equals passing the class path
    'mybot.pipelines.validate.ValidateMyItem': 300,
}

注解

不支持传递不可调用的对象。

以上内容是否对您有帮助:
在线笔记
App下载
App下载

扫描二维码

下载编程狮App

公众号
微信公众号

编程狮公众号