技术干货 | 说说KUDU的小秘密

2020-02-25浏览次数：1563

上一篇文章讨论了HDFS的架构，特点以及存储规划。本篇文章将谈一下Hadoop存储家族的二当家KUDU。我们之前也谈到KUDU有和HDFS一样的水平扩展能力以及近似HBase的高效读写能力，那么会为什么会这样呢，本文中将给出解答。本文将会从KUDU的架构和内部机制，KUDU数据存储方式，KUDU与HDFS和HBase的对比几方面进行讨论。

KUDU的架构和内部机制

KUDU是一个分布式主从架构的存储系统，这意味者它有Master-Slave的架构，不过实际上，它的Slave组件叫做Tablet Server,存储着KUDU中的数据。KUDU的架构图如下：

KUDU整体是高可用的，无论是Master还是Tablet Server都有多台，它们内部采用Raft选举机制来保障谁是Leader,谁是Follower。

对于KUDU Master来说，它主要存储Catalog Table, Tablet Server以及Tablets的元数据信息。Catalog Table存储KUDU中Table的Metadata信息。KUDU Master使用采用Raft机制，为保证选举的成功性，通常Master需要为奇数个，一般是3个，在集群规模比较大时可设置为5个。

对于Tablet Server, 它主要存储Tablets以及向外部Client提供服务。

Tablet的不同副本会存储在不同的Tablet Server上，它们也通过Raft机制保障谁是Leader,谁是Follower。对于一个特定的Tablet, 只有Leader可以被写入，而Follower只能被读取。这样大大提升了读的效率。然而当数据写入过大时，如果有Leader Tablet所在的Tablet Server宕机，那将会造成大量的写失败，而在Raft机制中，Leader只允许提交当前时间片的数据，因为当新的Leader选举产生后，之前写失败的数据也不会再次写入，只能继续写当前时间片以后的新数据。这也是为什么Tablet Server节点宕机后，有可能造成数据一致性的问题。

KUDU数据存储方式

那么对于一个特定的数据表, KUDU里是怎么存储的呢？参见下图：

对于一个表，KUDU中会将其若干个Tablet, 每个Tablet又包含Metadata以及RowSet。其中Metadata存放Tablets的元数据信息，RowSet存储具体的数据。

RowSet是把Tablet切片成更小的单元。RowSet分为两种，一种在内存里，叫MemRowSet,一种flush落地到磁盘上，叫DiskRowSet。

这两种RowSet有些区别，首先，一个表只有一个MemRowSet,但是会有很多个DiskRowSet。当MemRowSet达到指定大小时(一般是32M)，才会刷新到磁盘上形成DiskRowSet。因为32M的大小并不大，所以不会造成HBase中Major Compaction的性能问题。

另外，MemRowSet中数据是行式存储，实现形式是B+tree，它的存储样式为：

而DiskRowSet为列式存储，它的存储样式为：

对于每一个DiskRowSet，它包含六个部分：BloomFile，AdhocIndex，UndoFile，RedoFile，BaseData，DeltaMem。

BloomFile是根据主键生成的一个Bloom Filter，用于模糊定位数据是否在DiskRowSet存在；

AdhocIndex则是主键的索引，用于定位主键在DiskRowSet的偏移量；

BaseData是上次Flush到磁盘的数据；

RedoFile是上次Flush到磁盘以后发生的数据变化；

UndoFile是上次Flush到磁盘之前的数据；

DeltaMem则是RedoFile生成之前的在内存和磁盘交互时的存储格式。

DiskRowSet在磁盘上具体存储为一个个的CFile文件, 需要注意的是，DiskRowSet这六部分并不是存在一个CFile中，而是独立在多个CFile中的，每一部分都会形成单独的CFile。

但实际上，无论是在KUDU Master还是KUDU Tablet Server上，我们见到实际存储的都是都是.metadata文件和.data文件，像这种：

CFile文件在哪？和.data还有.metadata文件有什么关系？他们的关系像这样：

.metadata文件记录的是一个DiskRowSet中几部分对应CFile的位置以及映射关系，而大量的CFile又被Container合并写到一个.data文件中，因此对于一个DiskRowSet的正常读写，.metadata文件和.data文件缺一不可。

KUDU与HDFS以及HBase的对比

对于HDFS来说，无论读还是写，实际操作的是底层一个个数据文件，由于设计之初并不对文件中的内容做要求，因此只支持整个数据文件的新增，删除或者向其中追加新的数据。而无法实现单条数据的更新和删除，因为HDFS根本没有办法定位这条数据在哪里，而即便定位了，也需要把整个数据文件删掉再重建才能把操作完成，这个代价太过昂贵。而如果是离线分析，HDFS倒是很有优势，虽然它不知道某条数据在哪里，但是它知道分析用到的整张表在哪里存储并进行快速定位。

对于HBase来说，它底层仍然依赖于HDFS的文件块存储，但是它需要实现快速数据快速插入，更新和删除。那它怎么实现呢？和KUDU一样，HBase借用了内存来进行处理，在内存中有MemStore,所有写入HBase的数据都变成一个Key-Value的键值对，当然这个Key不只是一个字段，而是Rowkey+Column Family+Column Qualifier+Timestamp+Type的组成，而Value是Column Qualifier所对应的值。当MemStore到达一定大小后，会Flush到磁盘行程HFile，而HFile对应一个个HDFS的BLOCK文件，MemStore以及HFile中要求Key必须是高度有序的，因此可以快速定位数据，HBase对表的所有的插入和更新都转换成对HDFS的HFile文件的创建。这样一来数据更新和删除的问题解决了，但是要做离线分析就复杂了，因为除了Key以外的其他数据无法定位，而且将HDFS数据文件经过一次转换，在最差情况下可能需要SCAN全表才能找到分析需要的数据。

KUDU的数据处理流程和HBase有些类似，但是为了满足更高要求的数据一致性以及数据分析能力，KUDU的数据写入过程比HBase更加复杂，因此KUDU的随机读写效率是要比HBase差一些的。但是它又有一些新的特性比HBase更优秀，例如：

● KUDU的数据分区方式多样化，而HBase单一化；

● KUDU底层采用本地文件系统，而HBase底层采用HDFS；

● KUDU本身就有Catalog Table的机制，因此和Impala集成时运作效率很高，而HBase这点基本上望尘莫及；

● KUDU的Compaction产生的IO量非常小，不会产生性能问题，而HBase大表的Major Compaction很容易诱发性能问题。

KUDU与HDFS相比，它虽然实现了数据的快速更新，删除等需求，但是它也有以下不足的地方：

● KUDU的稳定性较差，节点故障或者磁盘损坏都会导致数据一致性风险；

● KUDU Compaction的文件小但是数量多，因此系统的最大打开文件数限制需要设置的比较大；

● KUDU运行时需要较多的内存。

KUDU目前最新版本已经发展到1.11.1。除上述情况外，仍然存在一些使用上的限制：

◆ 表创建后，主键不能修改；

◆ 主键列大小不能大于16K，且必须在非主键列之前；

◆ KUDU中的表最大只能支持300列；

◆ 不能使用Alter Table改变现有列的类型和属性；

◆ 副本数在建表时指定，后续无法修改；

◆ 表名和列名必须为有效的UTF-8字符串，最大256字符，且不支持其他编码类型；

◆ 删除部分数据不会立刻释放存储空间，必须等待KUDU内部执行Compaction后才会释放，但如果删除整张表，存储空间会立即释放。

总之，HDFS,HBase, KUDU都是优秀的Hadoop技术组件，各有优势也都还存在不完美之处。具体使用什么组件存储数据最合适，还是需要根据业务场景来确定。

上一条：技术干货 | 怎么做Kafka的压力测试(实操篇)

下一条：技术干货 | 服务编排—Conductor

权威认证！派拉软件API产品接连入选Gartner三份报告

《构建“零信任”安全时代——数字化转型安全实践与应用》案例集

技术干货 | 说说KUDU的小秘密

2020-02-25浏览次数：1563

产品体验

热门文章

立即体验极致安全的数字身份安全产品及服务
专属顾问将于24小时内与您取得联系

想查看相关案例？

权威认证！派拉软件API产品接连入选Gartner三份报告

《构建“零信任”安全时代——数字化转型安全实践与应用》案例集

技术干货 | 说说KUDU的小秘密

2020-02-25浏览次数：1563

产品体验

热门文章

立即体验极致安全的数字身份安全产品及服务 专属顾问将于24小时内与您取得联系

想查看相关案例？

立即体验极致安全的数字身份安全产品及服务
专属顾问将于24小时内与您取得联系