hbase的rowkey设计原则及热点问题
1.1 hbase数据库介绍
1、简介
hbase是基于Google BigTable模型开发的,典型的key/value系统。是建⽴在hdfs之上,提供⾼可靠性、⾼性能、列存储、可伸缩、实时读写nosql的数据库系统。它是Apache Hadoop⽣态系统中的重要⼀员,主要⽤于海量结构化和半结构化数据存储。
它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅⽀持单⾏事务(可通过hive⽀持来实现多表join等复杂操作)。
Hbase查询数据功能很简单,不⽀持join等复杂操作,不⽀持复杂的事务(⾏级的事务)
与hadoop⼀样,Hbase⽬标主要依靠横向扩展,通过不断增加廉价的商⽤服务器,来增加计算和存储能⼒。
HBase中的表⼀般有这样的特点:
⼤:⼀个表可以有上⼗亿⾏,上百万列
⽆模式:每⾏都有⼀个可排序的主键和任意多的列,列可以根据需要动态的增加,同⼀张表中不同的⾏可以有截然不同的列;
⾯向列:⾯向列(族)的存储和权限控制,列(族)独⽴检索。
稀疏:对于为空(null)的列,并不占⽤存储空间,因此,表可以设计的⾮常稀疏。
数据多版本:每个单元中的数据可以有多个版本,默认情况下版本号⾃动分配,是单元格插⼊时的时间戳
数据类型单⼀:Hbase中的数据都是字节数组 byte[]。
2、表结构逻辑视图
HBase以表的形式存储数据。表有⾏和列组成。列划分为若⼲个列族(column family)
3、Row Key
与nosql数据库们⼀样,row key是⽤来检索记录的主键。访问hbase table中的⾏,只有三种⽅式:
1 通过单个row key访问 (select * from t1 where id=1)
2 通过row key的range (select * from t1 where id<10 and id >1)
3 全表扫描 (select * from t1 )
Row key⾏键 (Row key)可以是任意字符串(最⼤长度是 64KB,实际应⽤中长度⼀般为 10-100bytes),在hbase内部,row key保存为字节数组。
Hbase会对表中的数据按照rowkey排序(字典顺序)
存储时,数据按照Row key的字典序(byte order)排序存储。设计key时,要充分排序存储这个特性,将经常⼀起读取的⾏存储放到⼀起。(位置相关性)
注意:
字典序对int排序的结果是
1,10,1001,11,12,13,14,15,16,17,18,19,2,20,21,…,9,91,92,93,94,95,96,97,98,99。要保持整形的⾃然序,⾏键必须⽤0作右填充。
⾏的⼀次读写是原⼦操作 (不论⼀次读写多少列)。这个设计决策能够使⽤户很容易的理解程序在对同⼀个⾏进⾏并发更新操作时的⾏为。
4、列族
hbase表中的每个列,都归属与某个列族。列族是表的schema的⼀部分(⽽列不是),必须在使⽤表之前定义。
列名都以列族作为前缀。例如courses:history , courses:math 都属于 courses 这个列族。
访问控制、磁盘和内存的使⽤统计都是在列族层⾯进⾏的。
列族越多,在取⼀⾏数据时所要参与IO、搜寻的⽂件就越多,所以,如果没有必要,不要设置太多的列族。⼀般设置2-3个⽐较合理。
5、时间戳
HBase中通过row和columns确定的为⼀个存贮单元称为cell。每个 cell都保存着同⼀份数据的多个版本。版本通过时间戳来索引。时间戳的类型是 64位整型。时间戳可以由hbase(在数据写⼊时⾃动 )赋值,此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显式赋值。如果应⽤程序要避免数据版本冲突,就必须⾃⼰⽣成具有唯⼀性的时间戳。每个 cell中,不同版本的数据按照时间倒序排序,即最新的数据排在最前⾯。
为了避免数据存在过多版本造成的的管理 (包括存贮和索引)负担,hbase提供了两种数据版本回收⽅式:
保存数据的最后n个版本
保存最近⼀段时间内的版本(设置数据的⽣命周期TTL)。
⽤户可以针对每个列族进⾏设置。
6、Cell
由{row key, column( =<family> + <label>), version} 唯⼀确定的单元。
cell中的数据是没有类型的,全部是字节码形式存贮。
1.2 hbase集结构
Hbase基本组件说明:
Client:
包含访问Hbase的接⼝,并维护cache来加快对Hbase的访问,⽐如region的
位置信息。
HMaster:
是hbase集的主节点,可以配置多个,⽤来实现HA
为RegionServer分配region
负责RegionServer的负载均衡
发现失效的RegionServer并重新分配其上的region
RegionServer:
Regionserver维护region,处理对这些region的IO请求
Regionserver负责切分在运⾏过程中变得过⼤的region
Region:
分布式存储的最⼩单元。
Zookeeper作⽤:
通过选举,保证任何时候,集中只有⼀个活着
的HMaster,HMaster与RegionServers 启动时会向ZooKeeper注册
存贮所有Region的寻址⼊⼝
实时监控Region server的上线和下线信息。并实时通知给HMaster
存储HBase的schema和table元数据
Zookeeper的引⼊使得HMaster不再是单点故障
1.3 命令⾏演⽰
1.3.1 基本shell命令
进⼊hbase命令⾏
./hbase shell
显⽰hbase中的表
list
创建user表,包含info、data两个列族
create 'user', 'info', 'data'
或者
create 'user', {NAME => 'info', VERSIONS => '3'},{NAME => 'data'}
向user表中插⼊信息,row key为rk0001,列族info中添加name列标⽰符,值为zhangsan
put 'user', 'rk0001', 'info:name', 'zhangsan'
向user表中插⼊信息,row key为rk0001,列族info中添加gender列标⽰符,值为female
put 'user', 'rk0001', 'info:gender', 'female'
向user表中插⼊信息,row key为rk0001,列族info中添加age列标⽰符,值为20
put 'user', 'rk0001', 'info:age', 20
向user表中插⼊信息,row key为rk0001,列族data中添加pic列标⽰符,值为picture
put 'user', 'rk0001', 'data:pic', 'picture'
获取user表中row key为rk0001的所有信息
get 'user', 'rk0001'
获取user表中row key为rk0001,info列族的所有信息
get 'user', 'rk0001', 'info'
获取user表中row key为rk0001,info列族的name、age列标⽰符的信息get 'user', 'rk0001', 'info:name', 'info:age'
获取user表中row key为rk0001,info、data列族的信息
get 'user', 'rk0001', 'info', 'data'
get 'user', 'rk0001', {COLUMN => ['info', 'data']}
get 'user', 'rk0001', {COLUMN => ['info:name', 'data:pic']}
获取user表中row key为rk0001,列族为info,版本号最新5个的信息
get 'user', 'rk0001', {COLUMN => 'info', VERSIONS => 2}
get 'user', 'rk0001', {COLUMN => 'info:name', VERSIONS => 5}
get 'user', 'rk0001', {COLUMN => 'info:name', VERSIONS => 5, TIMERANGE => [1392368783980, 1392380169184]}
获取user表中row key为rk0001,cell的值为zhangsan的信息
get 'people', 'rk0001', {FILTER =>"ValueFilter(=, 'binary:zhangsan')"}
获取user表中row key为rk0001,列标⽰符中含有a的信息
get 'people', 'rk0001', {FILTER =>"(QualifierFilter(=,'substring:a'))"}
put 'user', 'rk0002', 'info:name', 'fanbingbing'
put 'user', 'rk0002', 'info:gender', 'female'
put 'user', 'rk0002', 'info:nationality', '中国'
get 'user', 'rk0002', {FILTER =>"ValueFilter(=, 'binary:中国')"}
查询user表中的所有信息
scan 'user'
查询user表中列族为info的信息
如何删除热点资讯scan 'user', {COLUMNS => 'info'}
scan 'user', {COLUMNS => 'info', RAW => true, VERSIONS => 5}
scan 'person', {COLUMNS => 'info', RAW => true, VERSIONS => 3}
查询user表中列族为info和data的信息
scan 'user', {COLUMNS => ['info', 'data']}
scan 'user', {COLUMNS => ['info:name', 'data:pic']}
查询user表中列族为info、列标⽰符为name的信息
scan 'user', {COLUMNS => 'info:name'}
查询user表中列族为info、列标⽰符为name的信息,并且版本最新的5个
scan 'user', {COLUMNS => 'info:name', VERSIONS => 5}
查询user表中列族为info和data且列标⽰符中含有a字符的信息
scan 'user', {COLUMNS => ['info', 'data'], FILTER =>"
(QualifierFilter(=,'substring:a'))"}
查询user表中列族为info,rk范围是[rk0001, rk0003)的数据
scan 'people', {COLUMNS => 'info', STARTROW => 'rk0001', ENDROW => 'rk0003'}
查询user表中row key以rk字符开头的
scan 'user',{FILTER=>"PrefixFilter('rk')"}
查询user表中指定范围的数据
scan 'user', {TIMERANGE => [1392368783980, 1392380169184]}
删除数据
删除user表row key为rk0001,列标⽰符为info:name的数据
delete 'people', 'rk0001', 'info:name'
删除user表row key为rk0001,列标⽰符为info:name,timestamp为1392383705316的数据
delete 'user', 'rk0001', 'info:name', 1392383705316
清空user表中的数据
truncate 'people'
修改表结构
⾸先停⽤user表
disable 'user'
添加两个列族f1和f2
alter 'people', NAME => 'f1'
alter 'user', NAME => 'f2'
启⽤表
enable 'user'
删除⼀个列族:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论