HBase简介

目录

HBase

它是什么

  • Apache HBase™ is the Hadoop database, a distributed, scalable, big data store.

应用场景

  • Use Apache HBase™ when you need random, realtime read/write access to your Big Data. This project’s goal is the hosting of very large tables – billions of rows X millions of columns – atop clusters of commodity hardware.

来源启发

  • Apache HBase is an open-source, distributed, versioned, non-relational database modeled after Google’s Bigtable: A Distributed Storage System for Structured Data by Chang et al. Just as Bigtable leverages the distributed data storage provided by the Google File System, Apache HBase provides Bigtable-like capabilities on top of Hadoop and HDFS.

Google

GFS

  • GFS = Google File System

  • 2003年Google在SOSP发表了《GFS: The Google File System》

  • 该论文论述了: 如何在大量廉价机器基础上存储海量数据

MapReduce

  • MapReduce = Map + Reduce

  • 2004年Google发表了《MapReduce: Simplified Data Processing on Large Clusters》

  • 该论文论述了: MapReduce的编程模型 以及 如何在大量廉价机器上稳定地实现超大规模的并行数据处理

BigTable

  • BigTable是一种分布式数据库

  • 2006年Google发表了《BigTable: A Distributed StorageSystem for Structured Data》

  • 该论文论述了: 如何解决海量结构化数据的存储 以及 在局部几台服务器崩溃的情况下继续提供高性能的服务

Open Source

Hadoop

  • 2004年Doug Cutting和Mike Cafarella在为他们的搜索引擎爬虫Nutch实现分布式架构的时候看到了Google的GFS&MapReduce论文

  • 之后的几个月里按照论文实现出一个简易版的HDFS和MapReduce 这也就是Hadoop的最早起源

  • 后来他们加入了Yahoo 并在Yahoo真正完善、推广和落地Hadoop大数据

HBase

  • 2007年Powerset(现已被Microsoft收购)的研发人员在Google的BigTable论文基础上实现了BigTable的开源版本 即HBase

  • 2009年HBase成为Apache顶级项目 即开源的非关系型分布式数据库

参考