了解HBase
HBase快速入门
1. 快速启动HBase
Apache HBase配置
1. Apache HBase配置文件
2. HBase基础条件
3. HBase运行模式
4. 开始运行HBase
5. HBase默认配置
6. HBase配置示例
7. HBase重要配置
8. HBase动态配置
升级HBase
1. HBase版本号和兼容性
2. HBase回滚：版本恢复
3. HBase升级路径
HBase Shell
1. 使用Apache HBase Shell
2. HBase shell 技巧
HBase数据模型
1. HBase概念视图
2. HBase物理视图
3. HBase命名空间
4. HBase表、行与列族
5. HBase数据模型操作
6. HBase版本
7. HBase排序顺序、列元数据以及联合查询
HBase和Schema设计
1. HBase模式(Schema) 创建
2. HBase表格模式经验法则
Thumb的RegionServer大小规则
1. HBase列族数量
2. Rowkey（行键）设计
3. HBase版本数量
4. HBase支持的数据类型
5. HBase生存时间（TTL）
6. 保留已删除的HBase单元格
7. HBase二级索引和备用查询路径
8. HBase限制因素
9. HBase模式（Schema）设计案例
10. HBase操作和性能配置选项
11. HBase特殊情况
HBase和MapReduce
1. HBase、MapReduce和CLASSPATH
2. MapReduce扫描缓存
3. 捆绑HBase MapReduce作业
4. HBase作为MapReduce作业数据源和数据接收器
5. 在批量导入时直接写入HFiles
6. RowCounter示例
7. Map-Task分割
8. HBase MapReduce示例
Apache HBase安全
1. 为Web UI使用安全HTTP（HTTPS）
2. 将SPNEGO用于Web UI的Kerberos身份验证
3. 客户端安全访问Apache HBase
4. 用户访问Apache HBase的简单方法
5. 安全访问HDFS和ZooKeeper
6. HBase数据安全
7. HBase安全配置示例
HBase架构
1. HBase架构概述
2. HBase目录表
3. HBase客户端
4. HBase客户端请求过滤器
5. HBase架构：Master
HBase架构：RegionServer
1. RegionServer接口、进程与协处理器
2. HBase块缓存
3. RegionServer Offheap读/写路径
4. RegionServer拆分实现
HBase使用Write Ahead Log（WAL）
1. HBase使用WAL的目的
2. HBase：WAL供应方
3. HBase：MultiWAL支持
4. HBase：WAL拆分
5. HBase：WAL压缩
6. WAL耐久性
7. HBase：禁用WAL
HBase区域
1. HBase区域数量
2. HBase区域服务器分配
3. HBase区域服务器位置
4. HBase区域拆分
5. HBase自定义拆分策略
6. HBase手动拆分区域
7. HBase在线区域合并
Store
1. MEMSTORE
2. Scans
3. HBase使用StoreFile（HFile）
4. 块和KeyValue
HBase批量加载
1. HBase批量加载架构
2. HDFS
HBase：Timeline-consistent高可用读取
1. HBase时间轴一致性（Timeline Consistency）
2. HBase时间轴一致性的权衡取舍
3. HBase时间轴一致性：将写入传播到区域副本
4. HBase时间轴一致性：存储文件TTL
5. HBase时间轴一致性：META表区域的区域复制
6. HBase时间轴一致性：内存报告
7. HBase时间轴一致性：辅助副本故障切换
8. HBase时间轴一致性：配置属性
9. HBase时间轴一致性：创建具有区域复制的表
10. HBase时间轴一致性：读取API和用法
HBase：存储中型对象（MOB）
1. HBase：为MOB配置列
2. HBase：配置MOB压缩策略
3. HBase：配置MOB压缩可合并阈值
4. HBase：测试MOB
5. HBase：配置MOB缓存
HBase：MOB优化任务
HBase内存压缩
启用HBase内存压缩
HBase备份与还原
1. HBase备份与还原策略
2. HBase备份与还原的首次配置
3. HBase备份和还原命令
4. HBase备份图像管理
HBase同步复制
Apache HBase API
Apache HBase外部API
1. HBase：REST服务器
2. 将Java数据对象（JDO）与HBase一起使用
3. HBase与Scala一起使用
4. HBase与Jython一起使用
HBase：Thrift API和过滤器语言
1. HBase：常规过滤字符串语法
2. HBase：复合过滤器和运算符
3. HBase：过滤器计算顺序
4. HBase：过滤器比较运算符
5. HBase比较器
6. HBase过滤器语言示例
7. HBase单个过滤器语法
HBase和Spark
1. HBase：基本Spark
2. Spark Streaming
3. 使用Spark将数据批量加载到HBase
4. SparkSQL / DataFrames
Apache HBase协处理器
1. Apache HBase协处理器概述
2. Apache HBase协处理器的类型
3. Apache HBase加载协处理器
4. HBase观察者协处理器示例
5. HBase部署协处理器的准则
6. HBase限制协处理器的使用
Apache HBase性能调整
1. HBase性能调整：操作系统
2. HBase性能调整：网络
3. HBase性能调整：Java GC
4. HBase性能调整：配置
5. HBase性能调整：架构设计
6. HBase性能调整：一般模式
7. HBase相关内容
8. 从HBase读取
9. 从HBase删除
10. HDFS的工作方式
11. Amazon EC2
12. 配置HBase和MapReduce
故障排除和调试Apache HBase
1. 故障排除和调试HBase：日志
2. 故障排除和调试HBase：资源
3. 故障排除和调试HBase：工具
  1. 内置工具
  2. 外部工具
4. 故障排除和调试HBase：客户端
5. 故障排除和调试HBase：MapReduce
6. 故障排除和调试HBase：NameNode
7. 故障排除和调试HBase：网络
8. 故障排除和调试HBase：RegionServer
9. 故障排除和调试HBase：Master
10. 故障排除和调试HBase：ZooKeeper
11. 故障排除和调试HBase：Amazon EC2
12. 故障排除和调试HBase：HBase和Hadoop版本问题
13. 故障排除和调试HBase：HBase和HDFS

阅读(5.9k) 书签赞(1) 我要纠错

从HBase读取

2018-09-27 15:31 更新

从HBase读取

如果您遇到性能问题，邮件列表可以提供帮助。例如，这里有一个关于解决读取时间问题的一个很好的通用线程：HBase随机读取延迟> 100ms

扫描缓存

例如，如果将HBase用作MapReduce作业的输入源，请确保MapReduce作业的输入扫描实例已经将setCaching设置为大于默认值（即1）的值。使用默认值意味着map-task将为处理的每个记录回调region-server。例如，将此值设置为500将一次传输500行到要处理的客户端。缓存值很大是有成本/收益的，因为客户端和RegionServer的内存成本更高，因此更大并不总是更好。

在MapReduce作业中扫描缓存

MapReduce作业中的扫描设置值得特别注意。如果在客户端返回到RegionServer以获取下一组数据之前处理一批记录需要更长时间，则可能会在Map任务中导致超时（例如，UnknownScannerException）。发生此问题的原因是每行发生重要的处理。如果快速处理行，请将缓存设置得更高。如果您更慢地处理行（例如，每行进行大量转换，写入），则将缓存设置为更低。

超时也可能发生在非MapReduce用例中（即，执行扫描的单线程HBase客户端），但通常在MapReduce作业中执行的处理往往会加剧此问题。

扫描属性选择

每当使用扫描处理大量行（特别是用作MapReduce源）时，请注意选择了哪些属性。如果scan.addFamily调用，则指定ColumnFamily中的所有属性将返回给客户端。如果只处理少量可用属性，则只应在输入扫描中指定那些属性，因为属性过度选择对大型数据集而言是一个非常重要的性能损失。

避免扫描查找

当使用scan.addColumn明确选择列时，HBase将调度查找操作以在所选列之间进行查找。当行包含少量列且每列只有几个版本时，这可能是效率低下。如果不查找至少超过5-10个列/版本或512-1024字节，则查找操作通常会比较慢。

为了机会性地向前看几列/版本以查看在调度查找操作之前是否可以找到下一列/版本，可以在Scan对象上设置新属性Scan.HINT_LOOKAHEAD。以下代码指示RegionServer在调度查找之前尝试以下两次迭代：

Scan scan = new Scan();
scan.addColumn(...);
scan.setAttribute(Scan.HINT_LOOKAHEAD, Bytes.toBytes(2));
table.getScanner(scan);

关闭ResultScanners

这不仅仅是提高性能，而是避免性能问题。如果忘记关闭ResultScanners，可能会导致RegionServers出现问题。始终将ResultScanner处理包含在try/catch块中。

Scan scan = new Scan();
// set attrs...
ResultScanner rs = table.getScanner(scan);
try {
  for (Result r = rs.next(); r != null; r = rs.next()) {
  // process result...
} finally {
  rs.close();  // always close the ResultScanner!
}
table.close();

块缓存

可以通过该setCacheBlocks方法将扫描实例设置为使用RegionServer中的块缓存。对于输入扫描到MapReduce作业，这应该是false。对于频繁访问的行，建议使用块缓存。

通过在堆外移动块缓存来缓存更多数据。请参阅堆外块缓存。

行键的最佳加载

执行只需要行键的表扫描（没有族，限定符，值或时间戳）时，请使用setFilter向扫描仪添加带有MUST_PASS_ALL运算符的FilterList。筛选器列表应包括FirstKeyOnlyFilter和KeyOnlyFilter。使用此筛选器组合将导致最坏的情况，即RegionServer从磁盘读取单个值，并为单个行将最小的网络流量发送到客户端。

并发：监控数据传播

执行大量并发读取时，监视目标表的数据传播。如果目标表具有的区域太少，则可能从太少的节点提供读取。

请参阅表创建：预创建区域以及HBase配置

Bloom过滤器

启用Bloom过滤器可以节省您的磁盘空间，并有助于改善读取延迟。

Bloom过滤器是在HBase-1200 Add bloomfilters中开发的。这里描述的Bloom过滤器实际上是HBase中的第二版。在0.19.x版本中，HBase根据欧盟委员会一个实验室项目034819所做的工作提供了动态bloom选项。HBase bloom工作的核心后来被引入Hadoop以实现org.apache.hadoop.io.BloomMapFile。

Bloom StoreFile足迹

Bloom过滤器向StoreFile常规FileInfo数据结构添加项，然后向StoreFile元数据部分添加两个额外项。

BloomFilter在StoreFile``FileInfo数据结构中：

FileInfo有一个BLOOM_FILTER_TYPE条目，它设置为NONE，ROW或ROWCOL.

StoreFile元数据中的BloomFilter条目：

BLOOM_FILTER_META保持Bloom Size，使用Hash函数等。它的大小很小，并且在StoreFile.Reader加载时缓存。

BLOOM_FILTER_DATA是实际的bloomfilter数据，按需获得。如果已启用（默认情况下已启用），存储在LRU缓存中。

Bloom过滤器配置

io.storefile.bloom.enabled 全局关闭开关：

io.storefile.bloom.enabled在Configuration用作关闭l开关，防止出现问题；Default= true。

io.storefile.bloom.error.rate：

io.storefile.bloom.error.rate=平均误报率。Default= 1％。

io.storefile.bloom.max.fold：

io.storefile.bloom.max.fold=保证最低折叠率，大多数人都不应该管它。Default= 7，或者至少可以折叠到原始大小的1/128。=

Hedged读取

Hedged读取是HDFS的一项功能，在Hadoop 2.4.0中引入了HDFS-5776。通常，为每个读取请求生成一个线程。但是，如果启用了Hedged读取，则客户端会等待一段可配置的时间，如果读取未返回，则客户端会针对相同数据的不同块副本生成第二个读取请求。使用先返回的一个，并丢弃另一个读取请求。

在启用Hedged读取的情况下运行时要记住的其他问题包括：

它们可能导致网络拥塞。见HBASE-17083
确保将线程池设置得足够大，以便池上的阻塞不会成为瓶颈（再次参见HBASE-17083）

由于HBase RegionServer是HDFS客户端，因此您可以在HBase中启用Hedged读取，方法是将以下属性添加到RegionServer的hbase-site.xml并调整值以适合您的环境。

Hedged读取的配置

dfs.client.hedged.read.threadpool.size - 专用于服务Hedged读取的线程数。如果将其设置为0（默认值），则禁用Hedged读取。
dfs.client.hedged.read.threshold.millis - 产生第二个读取线程之前等待的毫秒数。

Hedged读取配置示例：

<property>
  <name>dfs.client.hedged.read.threadpool.size</name>
  <value>20</value>  <!-- 20 threads -->
</property>
<property>
  <name>dfs.client.hedged.read.threshold.millis</name>
  <value>10</value>  <!-- 10 milliseconds -->
</property>

使用以下指标调整群集上Hedged读取的设置。

Hedged读取的指标：

hedgedReadOps - 已触发Hedged读取线程的次数。这可能表明读取请求通常很慢，或者Hedged读取的触发太快。
hedgeReadOpsWin - Hedged读取线程比原始线程快的次数。这可能表示给定的RegionServer在处理请求时遇到问题。

以上内容是否对您有帮助：

← HBase相关内容

从HBase删除 →

写笔记

我要补充