storm-hbase的使用

在之前的文章里,我使用了rabbitmq作为storm-topololy中spout的数据来源,使用storm-rabbitmq作为spout直接使用。通常我们的业务逻辑如下: 在bolt对tuple进行处理之后,通常要将数据缓存到redis,memcached等内存数据库中,对于数据量小的,可以缓存到内存中,但是对于大量持久化的数据,更多时候需要存储到

HBase如何选择压缩算法

HBase的压缩算法或者编码类型的选择依赖于我们数据本身的特点,选择一个不合适的算法类型,可能会占用更多的空间,并且对我们系统本身性能有影响。 通常,我们需要在更小的空间占比与更快的压缩/解压缩速度之间权衡,可以参考下面的几点建议: 如果我们有很长的keys(与values相比而言)或者很多列,可以使用prefix编码器。这里推荐FAST_DIFF,因为

hadoop2.6.0编译源代码以及配置HBase snappy压缩

背景: 前期项目存储采用hdfs作为分布式文件系统,搭建hbase作为数据的存储平台,项目在开发以及上线过程中一直未配置压缩选项,随着数据的累积,很短时间,发现仅仅不到2亿数据已经占用400GB的存储空间,由于平台搭建预分配硬盘并不是非常充裕,所以需要开始着手配置hbase表的压缩。 测试环境: 笔记本:i7-3630QM 2.4GB + 12GB +