认识和了解EMC 数据湖(Data Lake 1.0)

发布时间:2017-04-11 09:17:24

 近期EMC发布了其数据湖(Data Lake 2.0)战略和产品,这里我们先来认识一下什么是EMC的数据湖1.0战略和其产品,然后在第二部分来详细介绍一下数据湖2.0及其产品。本节主要介绍数据湖的概念和1.0数据湖对应的产品。

什么是数据湖(Data Lake)?

EMC的数据湖战略产品主要是在几年前收购的横向扩展NAS产品Isilon,自从EMC收购Isilon以后,依靠EMC的品牌优势、客户资源和渠道力量,Isilon取得了爆发式增长,也是EMC在应对第三平台挑战的核心产品之一。

数据湖简单理解就是随着移动、云计算的发展,一个企业有越来越多的非结构化数据,这些各种各样的非结构化数据需要接受、存储、分析、展现以及分析数据后的行动。在没有数据湖的概念之前,这些来自不同渠道的非结构化数据都是并行数据流,针对每个数据源进行上述的处理过程,无法对大数据进行分析。现在企业可以通过一个机制,将大量数据整合为一个单一的存储(即数据湖)。此数据可以得到保护,并且伴随着组织和技术的成熟,可以反复进行分析,公开见解以及采取行动,企业从而可以消除在其企业中遍布信息孤岛所带来的成本。盗用EMC的一张图来理解数据湖和Isilon

横向扩展数据湖通过在容量、性能、安全性和保护方面提供扩展功能,进一步增强此模式。横向扩展数据湖的关键特征如下:

l  采用流式处理或者批处理从各种来源(如文件共享,归档,Web应用程序,设备和云)接受数据;

l  针对各种用途(从传统用途到第三平台、移动,分析和云应用程序)实现对这类数据的访问;

l  使用合适的数据保护级别(从诸如医疗记录,金融交易,信用卡数据和等高度关键的数据到不需要任何安全性的网站日志和临时数据)

l  随着技术的发展和新业务的不断出现,系统进行横向扩展以满足将来整合与增长的需求,以便应用数据以获得竞争优势;

l  提供分层功能,使组织可以管理其成本而无需设置专用基础架构来进行成本优化;

l  简单,即使数据规模达到PB级别以上。

Isilon的横向扩展数据湖

上面介绍了数据湖的概念,那么Isilon的横向扩展数据湖都包含哪些产品呢?

Isilon完全基于分布式的体系架构,包括以群集形式组织的模块化硬件节点。随着节点的增加,文件系统将动态扩展,从而横向扩展容量和性能,而不会增加相应的管理开销。

Isilon使用OneFS操作系统完成同时处理多种访问方法,如下图所示:

在数据湖1.0时代对应的Isilon硬件产品

下面来看看具体的Isilon对应的硬件产品,需要注意的是,这些产品是1.0版本的产品,在数据湖2.0版本中新扩展了边缘(Edge)和Cloud,下节详细描述。

 

上图中横轴代表容量,纵轴代表性能,可以看到不同产品的定位,详细产品指标参数这里不在详细描述。



客服中心

北京 010-82538861

上海 021-61551366

广州 020-29893161

杭州 571-86718202

长沙 731-88705778

......

微信咨询