数据湖作为大数据和人工智能技术基础架构发展的趋势,不仅提供了数据的存储能力,同时也为上层的数据处理提供了统一的数据管理引擎。
河北戴尔存储代理商介绍数据湖的主要特点:
▶ 第 一:存储原始数据,这些原始数据来源非常丰富;
▶ 第二:支持多种计算模型;
▶ 第三:有完善的数据管理能力,要能做到多种数据源接入,实现不同数据之间的连接,支持Schema管理和权限管理等;
▶ 第四:灵活的底层存储,一般用s3、hdfs这种分布式文件系统,采用特定的文件格式和缓存,满足对应场景的数据分析需求。
技术上,数据湖不仅包括Hadoop,还包括其他传统和新兴大数据技术。下图所示的是典型数据湖结构:在一个数据湖解决方案中,用户通过诸如Apache Flink等平台,通过自带的数据定义或者第三方框架的数据定义,对存储在存储层的数据进行管理,包括查询和修改等。