HBase服务|阿里云NoSQL X-Pack如何做到在线存储及计算一体？

数据处理的挑战

随着企业数据的逐渐积累增多，数据架构从单节点的关系型数据库，演进到分库分表，再演进到NoSQL及Hadoop生态。Hadoop生态百花齐放，没有统一的架构标准，目前用的比较多的是Lambda架构，该架构主要特点为流计算、批处理、在线存储独立的，通过Pipeline来连接。

大数据Lambda架构比较复杂，流、批、在线存储需要独立建设，同时需要构建数据Pipeline来做数据交换流动。

数据写入：批处理、流处理、在线存储需要分别写入数据。一方面流及批两层需要独立写入数据，同时很多大数据业务数据也会直接写入MongoDB、Cassandra、HBase、Redis等NoSQL系统这样的在线存储系统。
数据交换：批处理、在线存储之间交换需要构建大量ETL批作业。
数据质量：批处理、流处理、在线存储需要分别写入数据，会导致数据维护繁琐，不同写入链路的数据可能不一致。
系统稳定性：Lambda架构批计算层和在线存储层需要做频繁的数据交换，且都是批处理直接通过在线存储API抽取数据以及回流，大数据量场景会影响在线存储的稳定性。

NoSQL X-Pack构建大数据在线存储及计算一体化架构

为了从架构上解决上面这些问题云X-Pack Spark提供了一键流式归档NoSQL数据库的日志到Spark离线数仓的能力。写入MongoDB、Cassandra、HBase的在线存储明细数据，可以自动归档到Spark离线数仓然后做复杂计算、机器学习等。云X-Pack Spark产品文档：

https://help.aliyun.com/document_detail/93899.html?spm=a2c4e.11153940.0.0.e4a61d94Yg9Cxs

X-Pack Spark一键归档支持将Cassandra、HBase、MongoDB数据通过增量日志方式归档到X-Pack Spark数据仓库(对在线业务稳定性无影响)，在X-Pack Spark集群进行数据计算性能大幅提升。整体架构如下：

X-Pack Spark 一键归档模式推出了”大数据在线存储和计算一体化”架构，具有以下优点：

数据会周期的归档到Spark的离线数仓(HiveMeta)，然后可以直接在X-Pack Spark中查看数据以及计算。

阿里云NoSQL数据库其他动态

阿里云Cassandra数��һî��,��һȷ��据库正式公测，提供免费试用：

https://www.aliyun.com/product/cds