推广 热搜:   公司  快速  企业  中国  设备    上海  行业  未来 

数据储存&运算平台

   日期:2024-11-08     移动:http://keant.xrbh.cn/quote/13729.html

MPP(分布式数据库)采用的是Greenplum(以下简称GP

数据储存&运算平台

GP是一种基于PostgreSQL的分布式数据库集群,它是由数个独立的PostgreSQL数据库服务组合而成的逻辑数据库整体。是一个纯软件解决方案; 硬件和数据库软件没有耦合,适应性更广泛。GP数据库在几乎所有Linux/Unix平台均能良好地运行。GP属于典型的OLAP解决方案,是基于数据仓库的息分析处理过程,是数据仓库的用户接口部分。是跨部门的、面向主题的。

GP的优点特点如下:

开源,源代码开放,免费,有效降低投资运营及定制成本。

MPP大规模并行处理架构,可在X86服务器上实现自动并行计算,有效降低海量系统对硬件的强依赖性。

成熟稳定的高可用方案,通过优秀的架构设计及相关手段能实现企业级高可用性、高扩展性。

支持SQL语言,可以更加简单快速的上手。

基于以上特点,采用GP存储常规结构化数据,可以解决大量数据存储的情况下,有效的将传统关系型数据库上的业务操作过度过来。 但是仍存在部分数据是GP无法直接处理的,如医学影像数据(图片)、基因数据等,所以在使用GP的同时,采用Hadoop体系,实现非结构化以及大体量的结构化数据的存储运算。

Hadoop体系主要使用Hbase来处理非常规的结构化数据,在上层搭建ElasticSearch用来丰富以及优化Hbase的查询,并辅以HDFS处理非结构化数据。

Hbase是建立在Hadoop文件系统之上的分布式面向列的数据库

它是一个开源项目,是横向扩展的。Hbase是一个数据模型,类似于谷歌的大表设计,可以提供快速随机访问海量结构化数据。它利用了Hadoop的文件系统(HDFS)提供的容错能力。它是Hadoop的生态系统,提供对数据的随机实时读/写访问,是Hadoop文件系统的一部分。人们可以直接或通过Hbase的存储HDFS数据。使用Hbase在HDFS读取消费/随机访问数据。 Hbase在Hadoop的文件系统之上,并提供了读写访问。

Hbase的优点特点如下:

Hbase线性可扩展。

它具有自动故障支持。

它提供了一致的读取和写入。

它集成了Hadoop,作为源和目的地。

客户端方便的Java API。

它提供了跨集群数据复制。

同时Hbase特殊的存储机制,使得Hbase中的“表”在数据处理上更加具有优势。

大:一个表可以有上百万列,列数受限于物理存储。

面向列:面向列(族)的存储和权限控制,列(簇)独立检索。

稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。

无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列。

Elasticsearch(以下简称ESEsearch

Esearch是一个实时分布式和开源的全文搜索和分析引擎。 它可以通过restful接口访问,并使用简洁的JSON文档来存储数据。同时,由于Esearch是基于Java编程语言,这使Esearch能够在不同的平台上运行,使用户能够以非常快的速度来搜索非常大的数据量。将Esearch与Hbase结合使用,大大增强了Hbase对各种复杂查询的支持能力。

Esearch的优点特点如下:

开源

Esearch是受欢迎的企业搜索引擎之一,目前被许多大型组织使用,如Wikipedia,The Guardian,StackOverflow,GitHub等。

Esearch使用非标准化来提高搜索性能。

本文地址:http://lianchengexpo.xrbh.cn/quote/13729.html    迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多

特别提示:本信息由相关企业自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


相关行业动态
推荐行业动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2023022329号