hbase的rowkey设计原则及热点问题--慧智精品网

hbase的rowkey设计原则及热点问题

1.1 hbase数据库介绍

1、简介

hbase是基于Google BigTable模型开发的，典型的key/value系统。是建⽴在hdfs之上，提供⾼可靠性、⾼性能、列存储、可伸缩、实时读写nosql的数据库系统。它是Apache Hadoop⽣态系统中的重要⼀员，主要⽤于海量结构化和半结构化数据存储。

它介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅⽀持单⾏事务(可通过hive⽀持来实现多表join等复杂操作)。

Hbase查询数据功能很简单，不⽀持join等复杂操作，不⽀持复杂的事务（⾏级的事务）

与hadoop⼀样，Hbase⽬标主要依靠横向扩展，通过不断增加廉价的商⽤服务器，来增加计算和存储能⼒。

HBase中的表⼀般有这样的特点：

⼤：⼀个表可以有上⼗亿⾏，上百万列

⽆模式：每⾏都有⼀个可排序的主键和任意多的列，列可以根据需要动态的增加，同⼀张表中不同的⾏可以有截然不同的列；

⾯向列:⾯向列(族)的存储和权限控制，列(族)独⽴检索。

稀疏：对于为空(null)的列，并不占⽤存储空间，因此，表可以设计的⾮常稀疏。

数据多版本：每个单元中的数据可以有多个版本，默认情况下版本号⾃动分配，是单元格插⼊时的时间戳

数据类型单⼀：Hbase中的数据都是字节数组 byte[]。

2、表结构逻辑视图

HBase以表的形式存储数据。表有⾏和列组成。列划分为若⼲个列族(column family)

3、Row Key

与nosql数据库们⼀样,row key是⽤来检索记录的主键。访问hbase table中的⾏，只有三种⽅式：

1 通过单个row key访问（select * from t1 where id=1）

2 通过row key的range （select * from t1 where id<10 and id >1）

3 全表扫描（select * from t1 ）

Row key⾏键 (Row key)可以是任意字符串(最⼤长度是 64KB，实际应⽤中长度⼀般为 10-100bytes)，在hbase内部，row key保存为字节数组。

Hbase会对表中的数据按照rowkey排序(字典顺序)

存储时，数据按照Row key的字典序(byte order)排序存储。设计key时，要充分排序存储这个特性，将经常⼀起读取的⾏存储放到⼀起。(位置相关性)

注意：

字典序对int排序的结果是

1,10,1001,11,12,13,14,15,16,17,18,19,2,20,21,…,9,91,92,93,94,95,96,97,98,99。要保持整形的⾃然序，⾏键必须⽤0作右填充。

⾏的⼀次读写是原⼦操作 (不论⼀次读写多少列)。这个设计决策能够使⽤户很容易的理解程序在对同⼀个⾏进⾏并发更新操作时的⾏为。

4、列族

hbase表中的每个列，都归属与某个列族。列族是表的schema的⼀部分(⽽列不是)，必须在使⽤表之前定义。

列名都以列族作为前缀。例如courses:history ， courses:math 都属于 courses 这个列族。

访问控制、磁盘和内存的使⽤统计都是在列族层⾯进⾏的。

列族越多，在取⼀⾏数据时所要参与IO、搜寻的⽂件就越多，所以，如果没有必要，不要设置太多的列族。⼀般设置2-3个⽐较合理。

5、时间戳

HBase中通过row和columns确定的为⼀个存贮单元称为cell。每个 cell都保存着同⼀份数据的多个版本。版本通过时间戳来索引。时间戳的类型是 64位整型。时间戳可以由hbase(在数据写⼊时⾃动 )赋值，此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显式赋值。如果应⽤程序要避免数据版本冲突，就必须⾃⼰⽣成具有唯⼀性的时间戳。每个 cell中，不同版本的数据按照时间倒序排序，即最新的数据排在最前⾯。

为了避免数据存在过多版本造成的的管理 (包括存贮和索引)负担，hbase提供了两种数据版本回收⽅式：

保存数据的最后n个版本

保存最近⼀段时间内的版本（设置数据的⽣命周期TTL）。

⽤户可以针对每个列族进⾏设置。

6、Cell

由{row key, column( =<family> + <label>), version} 唯⼀确定的单元。

cell中的数据是没有类型的，全部是字节码形式存贮。

1.2 hbase集结构

Hbase基本组件说明：

Client：

包含访问Hbase的接⼝，并维护cache来加快对Hbase的访问，⽐如region的

位置信息。

HMaster：

是hbase集的主节点，可以配置多个，⽤来实现HA

为RegionServer分配region

负责RegionServer的负载均衡

发现失效的RegionServer并重新分配其上的region

RegionServer：

Regionserver维护region，处理对这些region的IO请求

Regionserver负责切分在运⾏过程中变得过⼤的region

Region:

分布式存储的最⼩单元。

Zookeeper作⽤:

通过选举，保证任何时候，集中只有⼀个活着

的HMaster，HMaster与RegionServers 启动时会向ZooKeeper注册

存贮所有Region的寻址⼊⼝

实时监控Region server的上线和下线信息。并实时通知给HMaster

存储HBase的schema和table元数据

Zookeeper的引⼊使得HMaster不再是单点故障

1.3 命令⾏演⽰

1.3.1 基本shell命令

进⼊hbase命令⾏

./hbase shell

显⽰hbase中的表

list

创建user表，包含info、data两个列族

create 'user', 'info', 'data'

或者

create 'user', {NAME => 'info', VERSIONS => '3'}，{NAME => 'data'}

向user表中插⼊信息，row key为rk0001，列族info中添加name列标⽰符，值为zhangsan

put 'user', 'rk0001', 'info:name', 'zhangsan'

向user表中插⼊信息，row key为rk0001，列族info中添加gender列标⽰符，值为female

put 'user', 'rk0001', 'info:gender', 'female'

向user表中插⼊信息，row key为rk0001，列族info中添加age列标⽰符，值为20

put 'user', 'rk0001', 'info:age', 20

向user表中插⼊信息，row key为rk0001，列族data中添加pic列标⽰符，值为picture

put 'user', 'rk0001', 'data:pic', 'picture'

获取user表中row key为rk0001的所有信息

get 'user', 'rk0001'

获取user表中row key为rk0001，info列族的所有信息

get 'user', 'rk0001', 'info'

获取user表中row key为rk0001，info列族的name、age列标⽰符的信息get 'user', 'rk0001', 'info:name', 'info:age'

获取user表中row key为rk0001，info、data列族的信息

get 'user', 'rk0001', 'info', 'data'

get 'user', 'rk0001', {COLUMN => ['info', 'data']}

get 'user', 'rk0001', {COLUMN => ['info:name', 'data:pic']}

获取user表中row key为rk0001，列族为info，版本号最新5个的信息

get 'user', 'rk0001', {COLUMN => 'info', VERSIONS => 2}

get 'user', 'rk0001', {COLUMN => 'info:name', VERSIONS => 5}

get 'user', 'rk0001', {COLUMN => 'info:name', VERSIONS => 5, TIMERANGE => [1392368783980, 1392380169184]}

获取user表中row key为rk0001，cell的值为zhangsan的信息

get 'people', 'rk0001', {FILTER =>"ValueFilter(=, 'binary:zhangsan')"}

获取user表中row key为rk0001，列标⽰符中含有a的信息

get 'people', 'rk0001', {FILTER =>"(QualifierFilter(=,'substring:a'))"}

put 'user', 'rk0002', 'info:name', 'fanbingbing'

put 'user', 'rk0002', 'info:gender', 'female'

put 'user', 'rk0002', 'info:nationality', '中国'

get 'user', 'rk0002', {FILTER =>"ValueFilter(=, 'binary：中国')"}

查询user表中的所有信息

scan 'user'

查询user表中列族为info的信息

如何删除热点资讯scan 'user', {COLUMNS => 'info'}

scan 'user', {COLUMNS => 'info', RAW => true, VERSIONS => 5}

scan 'person', {COLUMNS => 'info', RAW => true, VERSIONS => 3}

查询user表中列族为info和data的信息

scan 'user', {COLUMNS => ['info', 'data']}

scan 'user', {COLUMNS => ['info:name', 'data:pic']}

查询user表中列族为info、列标⽰符为name的信息

scan 'user', {COLUMNS => 'info:name'}

查询user表中列族为info、列标⽰符为name的信息，并且版本最新的5个

scan 'user', {COLUMNS => 'info:name', VERSIONS => 5}

查询user表中列族为info和data且列标⽰符中含有a字符的信息

scan 'user', {COLUMNS => ['info', 'data'], FILTER =>"

(QualifierFilter(=,'substring:a'))"}

查询user表中列族为info，rk范围是[rk0001, rk0003)的数据

scan 'people', {COLUMNS => 'info', STARTROW => 'rk0001', ENDROW => 'rk0003'}

查询user表中row key以rk字符开头的

scan 'user',{FILTER=>"PrefixFilter('rk')"}

查询user表中指定范围的数据

scan 'user', {TIMERANGE => [1392368783980, 1392380169184]}

删除数据

删除user表row key为rk0001，列标⽰符为info:name的数据

delete 'people', 'rk0001', 'info:name'

删除user表row key为rk0001，列标⽰符为info:name，timestamp为1392383705316的数据

delete 'user', 'rk0001', 'info:name', 1392383705316

清空user表中的数据

truncate 'people'

修改表结构

⾸先停⽤user表

disable 'user'

添加两个列族f1和f2

alter 'people', NAME => 'f1'

alter 'user', NAME => 'f2'

启⽤表

enable 'user'

删除⼀个列族：

慧智精品网

hbase的rowkey设计原则及热点问题

发表评论

推荐文章

【精品】人教版三年级数学下册期末复习知识点总结

会务人员工作总结范文(通用13篇)

关于战友情的演讲稿

关于对志愿军的描写和赞扬的作文100字

中考历史

热门文章

象达乡小学2018-2019学年三年级下学期数学模拟试卷含解析

2023八月的文案短句女朋友(100句)

部编版八年级地理(上册)第一次月考知识点及答案

2021年血液净化科年终工作总结

2025年华东师大版八年级历史下册阶段测试试卷含答案

三年级数学上册知识点整理与复习--北师大版

八一建军节知识答题

实现建军一百年奋斗目标开创国防和军队现代化新局面

七一建军节英勇庆祝

七一建军节荣耀之日

建军知识问答

中国解放军建军节是几月几日星期几

建军一百周年的奋斗目标启示和感悟

三十一建节弘扬的优良作风发扬的光辉传统

建军节回顾中国人民解放军建军的光辉历程

纪念建军节重温中国军队的光辉战绩与传统

建军节的资料

建军节来历简介

2021年八一建军节的来历

八一建军节的历史资料

最新文章

【精品】人教版三年级数学下册期末复习知识点总结

关于战友情的演讲稿

中考历史

五年级道德与法治下册期末考试带答案【完整版】

三年级下册数学重要知识点总结

【必刷题】三年级数学下册单位换算专项综合练习-2020-2021学年人教版...

标签列表

慧智精品网

hbase的rowkey设计原则及热点问题

发表评论

推荐文章

【精品】人教版三年级数学下册期末复习知识点总结

会务人员工作总结范文(通用13篇)

关于战友情的演讲稿

关于对志愿军的描写和赞扬的作文100字

中考历史

热门文章

象达乡小学2018-2019学年三年级下学期数学模拟试卷含解析

2023八月的文案短句女朋友(100句)

部编版八年级地理(上册)第一次月考知识点及答案

2021年血液净化科年终工作总结

2025年华东师大版八年级历史下册阶段测试试卷含答案

三年级数学上册知识点整理与复习--北师大版

八一建军节知识答题

实现建军一百年奋斗目标 开创国防和军队现代化新局面

七一建军节英勇庆祝

七一建军节荣耀之日

建军知识问答

中国解放军建军节是几月几日星期几

建军一百周年的奋斗目标启示和感悟

三十一建节弘扬的优良作风发扬的光辉传统

建军节回顾中国人民解放军建军的光辉历程

纪念建军节重温中国军队的光辉战绩与传统

建军节的资料

建军节来历简介

2021年八一建军节的来历

八一建军节的历史资料

最新文章

【精品】人教版三年级数学下册期末复习知识点总结

关于战友情的演讲稿

中考历史

五年级道德与法治下册期末考试带答案【完整版】

三年级下册数学重要知识点总结

【必刷题】三年级数学下册单位换算专项综合练习-2020-2021学年人教版...

标签列表

实现建军一百年奋斗目标开创国防和军队现代化新局面