首页 > 智能网

腾讯云帮助中国银行上线数据湖平台……等等,什么是数据湖?

来源:智能网
时间:2021-04-03 06:00:32
热度:95

腾讯云帮助中国银行上线数据湖平台……等等,什么是数据湖?3月31日的消息——中国银行「UDP-Dlake」数据湖平台近期正式投产上线了。据悉,这个「UDP-Dlake」数据湖平台,

3月31日的消息——中国银行「UDP-Dlake」数据湖平台近期正式投产上线了。

据悉,这个「UDP-Dlake」数据湖平台,是基于腾讯云的大数据套件TBDS建设的,帮助中国银行首次实现了全行数据资产汇集一处,能够「为中国银行统一数据分析层、展现层、数据沙箱等探索提供平台支撑」,也「为沉淀和深度挖掘全行数据资产打下了坚实技术基础」。

这里有两个较为关键的元素——腾讯云的大数据套件TBDS,以及「数据湖」平台。大数据套件我们以后再研究,今天先来认识认识「数据湖」。

什么是「数据湖」平台?

据腾讯云官网资料显示,「数据湖」就是英语Data Lake的直译,它是由Pentaho公司CTO James Dixon所提出的一种数据存储理念——在系统或存储库中,以自然格式存储数据的方法。数据湖作为一个集中的存储库,可以在其中存储任意规模的结构化和非结构化数据。在数据湖中,可以存储不需要对其进行结构化的数据,这样就可以运行不同类型的分析。

作为腾讯云竞品的华为云,也给出了一个版本的数据湖定义:它是指「以自然格式存储数据的系统或存储库,通常是对象块或文件」。数据湖通常是对所有企业数据进行统一存储,包含原始数据和用于报告、可视化、分析和机器学习等各种任务的转换数据。「湖」中的数据包括来自关系数据库的结构化数据、半结构化数据、非结构化数据和二进制数据,从而形成一个集中式数据存储容纳所有形式的数据。

而云服务领域的全球领头羊AWS,它给出的定义则是:数据湖是一个集中式存储库,允许用户以任意规模存储所有结构化和非结构化数据。用户可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析——从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。

再来看看维基百科:数据湖是指「使用大型二进制对象或文件这样的自然格式储存数据的系统」。它通常把所有的企业数据统一存储,既包括源系统中的原始副本,也包括转换后的数据,比如那些用于报表, 可视化, 数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据(行与列)、半结构化的数据(CSV、日志、XML、JSON),非结构化数据(电子邮件、文件、PDF)和二进制数据(图像、音频、视频)。