在没有联网的情况下运行Samza

2018-08-21 18:39 更新

本教程将帮助您运行 Hello Samza,如果您无法连接到互联网。

测试您的连接

Ping irc.wikimedia.org,有时公司的防火墙会阻止这项服务。

telnet irc.wikimedia.org 6667

你应该看到这样的东西:

Trying 208.80.152.178...
Connected to ekrem.wikimedia.org.
Escape character is '^]'.
NOTICE AUTH :*** Processing connection to irc.pmtpa.wikimedia.org
NOTICE AUTH :*** Looking up your hostname...
NOTICE AUTH :*** Checking Ident
NOTICE AUTH :*** Found your hostname

否则,您可能有连接问题。

使用本地数据运行 Hello Samza

我们提供了一个选择, 以获取维基百科提供的数据,而不是运行:

deploy/samza/bin/run-job.sh --config-factory=org.apache.samza.config.factories.PropertiesConfigFactory --config-path=file://$PWD/deploy/samza/config/wikipedia-feed.properties

你会运行:

bin/produce-wikipedia-raw-data.sh

该脚本将从本地文件读取维基百科提供的数据,并将其产生到 Kafka 代理。默认情况下,它生成本地主机:9092作为 Kafka 代理,并使用 localhost:2181 作为 zookeeper。您可以覆盖它们:

bin/produce-wikipedia-raw-data.sh -b yourKafkaBrokerAddress -z yourZookeeperAddress

现在您可以回到 Hello Samza中的 Generate Wikipedia Statistics 部分,并按照剩余的步骤进行。

一点解释

下述代码的目标:

deploy/samza/bin/run-job.sh --config-factory=org.apache.samza.config.factories.PropertiesConfigFactory --config-path=file://$PWD/deploy/samza/config/wikipedia-feed.properties

要部署一个听 Wi-Fi API 的 Samza 工作,可以实时获取 Feed,并生成 Kafka 主题维基百科的源文件。本教程中的替代方法是在无限循环中阅读本地维基百科 Feed,并将数据生成给 Kafka维基百科。后续工作,维基百科解析器正在从 Kafka 主题维基百科原始获取数据,所以只要我们在 Kafka 主题维基百科原始中有正确的数据,就可以。所有 Samza 的工作由 Kafka 连接,不依赖于彼此。

以上内容是否对您有帮助:
在线笔记
App下载
App下载

扫描二维码

下载编程狮App

公众号
微信公众号

编程狮公众号