HBase批量加载

2018-06-20 11:16 更新

HBase批量加载概述

HBase包含几种将数据加载到表中的方法。最直接的方法是使用MapReduce作业中的TableOutputFormat类,或者使用普通的客户端API;然而,这些并不总是最有效的方法。

批量加载功能使用MapReduce作业以HBase的内部数据格式输出表格数据,然后直接将生成的StoreFiles加载到正在运行的群集中。使用批量加载将比使用HBase API使用更少的CPU和网络资源。

HBase批量加载限制

当批量加载绕过写入路径时,WAL不会被写入作为过程的一部分。复制通过读取WAL文件来工作,因此它不会看到批量加载的数据 - 对于使用Put.setDurability(SKIP_WAL)的编辑也是如此。处理这种情况的一种方法是将原始文件或HFile发送到其他群集,并在那里进行其他处理。

以上内容是否对您有帮助:
在线笔记
App下载
App下载

扫描二维码

下载编程狮App

公众号
微信公众号

编程狮公众号