腾讯云帮助中国银行上线数据湖平台……等等,什么是数据湖?
腾讯云帮助中国银行上线数据湖平台……等等,什么是数据湖?3月31日的消息——中国银行「UDP-Dlake」数据湖平台近期正式投产上线了。据悉,这个「UDP-Dlake」数据湖平台,
3月31日的消息——中国银行「UDP-Dlake」数据湖平台近期正式投产上线了。
据悉,这个「UDP-Dlake」数据湖平台,是基于腾讯云的大数据套件TBDS建设的,帮助中国银行首次实现了全行数据资产汇集一处,能够「为中国银行统一数据分析层、展现层、数据沙箱等探索提供平台支撑」,也「为沉淀和深度挖掘全行数据资产打下了坚实技术基础」。
这里有两个较为关键的元素——腾讯云的大数据套件TBDS,以及「数据湖」平台。大数据套件我们以后再研究,今天先来认识认识「数据湖」。
什么是「数据湖」平台?
据腾讯云官网资料显示,「数据湖」就是英语Data Lake的直译,它是由Pentaho公司CTO James Dixon所提出的一种数据存储理念——在系统或存储库中,以自然格式存储数据的方法。数据湖作为一个集中的存储库,可以在其中存储任意规模的结构化和非结构化数据。在数据湖中,可以存储不需要对其进行结构化的数据,这样就可以运行不同类型的分析。
作为腾讯云竞品的华为云,也给出了一个版本的数据湖定义:它是指「以自然格式存储数据的系统或存储库,通常是对象块或文件」。数据湖通常是对所有企业数据进行统一存储,包含原始数据和用于报告、可视化、分析和机器学习等各种任务的转换数据。「湖」中的数据包括来自关系数据库的结构化数据、半结构化数据、非结构化数据和二进制数据,从而形成一个集中式数据存储容纳所有形式的数据。
而云服务领域的全球领头羊AWS,它给出的定义则是:数据湖是一个集中式存储库,允许用户以任意规模存储所有结构化和非结构化数据。用户可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析——从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。
再来看看维基百科:数据湖是指「使用大型二进制对象或文件这样的自然格式储存数据的系统」。它通常把所有的企业数据统一存储,既包括源系统中的原始副本,也包括转换后的数据,比如那些用于报表, 可视化, 数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据(行与列)、半结构化的数据(CSV、日志、XML、JSON),非结构化数据(电子邮件、文件、PDF)和二进制数据(图像、音频、视频)。
-
2021中国国际大数据大会在京圆满召开2021-04-02
-
一文了解5G NR下行链路数据传输过程2021-03-29
-
泛生子今日发布了其基于血液的肝癌早筛检测HCCscreen™的最新数据2021-03-25
-
华为技术有限公司公开“一种通过车钥匙存储、传输数据的方法及装置”专利2021-03-25
-
西部数据旗下闪迪品牌,以2合1闪存盘助力iphone和USB TYPE-CTM设备间的无缝传输2021-03-23
-
数据决定体验、软件定义汽车2021-03-22
-
江苏省副省长陈星莺莅临华云数据调研考察:鼓励推动江苏省信创产业高质量发展 加快网络强省建设2021-03-19
-
科技向善只成口号,大数据分析还是大数据盗窃?2021-03-18
-
应用材料公司推出基于大数据和人工智能的工艺控制“新战略”2021-03-17
-
数据智能落地智慧疾控,医疗大数据行业将迎来快速增长期2021-03-17
-
数据采集子系统对精密应用中的工程设计有何作用?2021-03-17
-
什么是DaaS数据即服务?2021-03-16
-
风河等5家公司合作推出Fusion互联车辆数据管理平台2021-03-16
-
315晚会揭露互联网潜藏危机,个人隐私数据该如何保护?2021-03-16
-
央视315聚焦隐私泄露,旷视等AI企业避谈数据使用!2021-03-16