◎作者|梅宏 杜小勇 金海 程学旗 柴云鹏 石宣化 靳小龙 王亚沙 刘驰
日前,中科院院士梅宏联合中国公民大学、华中科技大学、中科院打算技能研究所、中国科学院大学、北京理工大学多位专家,发布最新论文《大数据技能前瞻》。该文在打算体系重构的背景下,指出了大数据技能发展的四大技能寻衅和十大发展趋势。

天下紧张国家高度重视大数据发展,我国也将发展大数据作为国家计策,发展大数据技能具有主要意义。在大数据运用需求驱动下,打算技能体系正面临重构,从“打算为中央”向“数据为中央”转型,在新的打算技能体系下,一系列根本理论和核心技能问题亟待破解,新型大数据系统技能成为主要发展方向,同时面临四大寻衅。
新型大数据系统技能的四大寻衅寻衅一:如何构建数据为中央的打算体系
环球大数据规模增长快速,2020年环球新增数据规模为64ZB,是2016年的400%,2035年新增数据将高达2140ZB1,大数据呈现指数级增长。随着数字经济的发展和数字化转型的深入,愈来愈多的数据资源正以数据要素的形态独立存在并参与数字经济活动全过程。因此构建以数据为中央的新型打算体系,以适用新的运用环境。如何组织和管理超大规模的数据要素已经成为一项难题:例如,针对大数据管理,面临数据跨域访问带来的各种问题、系统规模持续增大带来的可用性低落、掩护大规模数据带来的本钱和能耗持续增高档严厉寻衅。
寻衅二:如何知足大数据高效处理的需求
数据规模呈指数级增长,数据动态倾斜、稀疏关联、运用繁芜,传统大数据处理架构数据处理本钱高企、时效性差,如何知足规模海量、格式繁芜、需求多变的大数据高效处理需求是大数据处理面临的主要寻衅。
寻衅三:如何实现多源异构大数据的可阐明性剖析
随着数据量持续地爆炸式增长和各种运用的不断拓展与深化,基于深度学习的主流方法因其仅关注单源单模态数据且模型只知其然不知其以是然的特性已无法知足发展需求。如何冲破数据多源异布局成的隔阂,领悟多域乃至全域数据中蕴含的知识,实现剖析结果的可阐明,从而提升其可用性,是当前大数据剖析面临的紧张寻衅。
寻衅四:如何形成系统化大数据管理框架与关键技能
针对大数据运用过程中的对数据汇聚领悟、质量保障、开放流利、标准化和生态系统培植的需求,大数据管理技能逐渐成为发展热点,然而当前系统化的大数据管理框架尚未形成,开放共享、质量评估、代价预测等关键技能远未成熟,成为制约大数据发展的紧张瓶颈。
大数据技能十大未来发展趋势
趋势一:数据与运用进一步分离,实现数据要素化
数据从一开始是寄托于详细运用的。数据库技能的涌现使得数据与运用实现了第一次分离。数据存储在数据库中,不再依赖详细的运用而存在。数据要素化的需求将推动数据与运用进一步分离,数据不再依赖于详细的业务场景,数据以独立的形态而存在于数据库中,并通过数据做事向不同的业务场景供应做事。例如,人口数据库,可以向全部的涉及人口信息的业务场景供应做事。
趋势二:数联网作为数字化时期的新型信息根本举动步伐
将形成一套完全的数联网根本软件理论、系统软件架构、关键技能体系,包括:针对数联网软件以数据为中央的特点,须要从繁芜网络和繁芜系统等繁芜性理论出发,研究数联网软件的构造组成、行为模式和外在性子;针对数联网软件的数据传存算一体化需求,须要采取数据互操作技能和软件定义思想,研究数联网软件运行机理、体系构造与关键机制;针对数联网软件跨层级、跨地域、跨系统运行带来的可靠性、可用性、安全性等质量寻衅,须要以数据驱动为手段,研究数联网环境下保障做事质量与保护质量的事理、机制与方法。
趋势三:从单域到跨域数据管理,促进数据要素的共享与协同
数据为中央打算的核心目标是数据代价的最大化,关键要冲破“数据孤岛”,实现数据要素的高效共享与协同。传统数据管理局限在单一企业、业务、数据中央等内部,未来大数据管理将从传统的单域模式发展到跨域模式,超过空间域、统领域和信赖域。但跨空间域造成网络时延较高且不稳定;跨统领域造成数据与运用异构,数据管理繁芜度大大提升;跨信赖域则哀求具备容忍各种恶意缺点的能力,跨域带来的这些变革将为大数据技能带来了新的机遇和寻衅。
趋势四:大数据管理与处理系统体系构造异构化日趋明显
体系构造创新进入“黄金十年”,环绕不同数据处理特色的新型加速器(GPU、TPU、APU 等各种xPU)层出不穷,存储器件快速发展,高速SSD、新型非易失落内存、新型打算网络等成为大数据处理系统的主要硬件配置,打算与存储的领悟趋势明显。为极大程度发挥数据管理能力,大数据管理系统在存储、网络、打算等硬件上最大化挖掘新型硬件的处理能力。在处理上针对不同数据处理需求,配置不同打算与存储硬件成为大数据处理系统的主流架构。数据驱动的打算架构快速发展,从掌握流到数据流到系统设计切换成为大数据处理系统从微不雅观到宏不雅观的主要体系构造设计理念。
趋势五:扩展性优先设计到性能优先设计
数据规模急剧增长,大数据处理需求越来越走向深度代价挖掘,数据处理打算愈发密集,数据管理与处理的本钱成为大数据管理与处理系统的主要考量成分,传统“以扩展性优先”的大数据处理系统设计将会被“以性能优先”的系统设计所替代。Spark、Flink 等系统在大数据处理生态系统中的霸占率明显表示了这一趋势,图打算(图加速器、图打算框架等)、深度学习框架(Tensorflow、PyTorch 等)等领域专用大数据处理系统的崛起也是这一系统设计理念在技能生态上的表现。智能化数据管理、近似打算等新兴管理与处理方法成为性能优先设计的主要技能手段。
趋势六:近数处理成为打破大数据处理系统性能瓶颈的主要路子
存算一体类体系构造技能快速发展,新型SSD等新型存储赢家功能愈发丰富,分布式打算系统边缘能力迅速发展,以上三种体系构造技能发展为大数据近数处理供应了良好的发展契机。近数处理表示在“存储上移”(如在GPU、FPGA 等打算设备上集成HBM)、“算力下沉”(如在DRAM 内存或者SSD 存储设备上集成处理能力)、“分布扩展”(如在云、边、端分布式处理数据,降落数据处理中央压力)。
趋势七:从单域单模态剖析到多域多模态领悟,实现广谱关联打算
传统大数据剖析技能大多仅聚焦于单一路源单一模态数据,而实际运用中每每要对来自不同来源不同模态(如文本、图像、音视频等)的数据进行联合剖析,从而实现不同来源与不同模态数据之间的信息互补。此外,诸多领域的大数据每每具有主要的时空属性,当前研究对这类信息的利用还不太充分。因此,探究能够跨模态关联、跨时空关联的广谱关联技能是大数据剖析处理的一个主要趋势。
趋势八:从聚焦关联到探究因果,实现剖析结果可阐明
如何让大数据剖析模型更加稳定且具有可阐明性,从而使其剖析结果对用户而言变得更加可信、更为可用最好还能具备一定的可回溯性是大数据剖析面临的巨大寻衅。虽然已有因果推断与可阐明性剖析技能取得了一定进展,但总体来说尚处于起步阶段,离实际运用还有很长一段间隔。因此,从关联到因果也是未来大数据剖析技能的主要研究方向。
趋势九:高能效大数据技能是可持续发展的关键
环球大数据的持续高速增长,尤其是碳达峰、碳中和目标的提出,哀求大数据技能栈必须走低碳高效、可持续发展的路线。例如云数据管理系统以资源共享、节能高效为紧张特点,将是未来大数据管理的紧张根本形态;在云数据管理根本上的全国一体化高能效大数据管理,可以进一步由于算力和数据要素的大规模调度与流利,将成为未来大数据管理的紧张方向,形成低碳发展新格局。
趋势十:大数据标准规范和以开源社区为核心的软硬件生态系统将成为发展的重点
随着大数据在各个领域运用的迅速遍及,标准化需求将不断增长,与大数据流动领悟、质量评估,及与行业、领域运用密切干系的大数据标准将成为发展重点。开源社区在大数据软硬件生态培植中的地位不断加强,对开源社区的主导权争夺将成为各国技能、产品和市场竞争的主要沙场。
结语
回顾国内外大数据技能在管理、处理、剖析与管理四个方面近十年的发展,可以看出,数据规模高速增长,现有处理打算能力已经成为瓶颈;数据成为生产要素,但数据代价开释不充分;从家当生态重点的变迁看,呈现出“运用先于理论技能,市场先于标准法规”的征象,虽然大数据已经在一些运用领域(特殊是互联网领域)取得了较好的成效,但是大数据根本理论和运用技能不成熟,大数据管理体系远未建立,总体上,大数据发展仍旧处于低级阶段。
中国在大数据发展方面取得积极进展,但总体上较之国际前辈水平,仍存在差距。详细地,大数据管理技能大部分领域与国外顶尖水平基本相同或靠近,个中高能效一体化大数据管理领域处于国际领先水平;大数据处理技能多数领域与国外顶尖水平尚存在技能差距,在资源和互联网运用领域大数据处理技能运用较好,与国际最高水平基本持平;大数据剖析的根本理论与核心技能方面与国际前辈水平还存在着一定差距,在商业等领域运用方面已超越国外;大数据管理技能整体上发展较晚,体系远未成形,技能产品生态仍由国外主导,同时在以数联网为代表的数据开放流利技能方面与国际前辈水平相称。
面向未来,在大数据运用需求驱动下,打算技能体系有必要进行重构,以数据为中央的新型大数据系统技能成为主要方向,信息技能体系将从“打算为中央”向“数据为中央”转型,新的根本理论和核心技能问题仍有待探索和破解。以大数据管理、处理、剖析和管理为核心的大数据技能在原有通用打算体系上的持续优化仍有发展空间,数据为中央的新技能体系将成为缩小大数据规模指数级增长、与大数据打算需求和能力之间“剪刀差”的打破点。
原文来源:梅宏,杜小勇,金海,程学旗,柴云鹏,石宣化,靳小龙,王亚沙,刘驰.大数据技能前瞻[J/OL].大数据.
https://kns.cnki.net/kcms/detail//10.1321.G2.20221223.1631.001.html(因篇幅缘故原由,本文有删节)
关于我们
「数字经济先锋号」是成都数联产服科技有限公司旗下数字经济研究互换平台。环绕数字家当、数字基建、数字管理、数字生态等数字运用领域,揭示与记录数字经济发展点滴与脉络。
数联产服是BBD数联铭品集团数字经济智库,家昔时夜数据做事商。数联产服具备全流程大数据管理-剖析-决策支撑做事能力,面向各级政府和家当运营机构供应基于大数据的家当经济发展办理方案和综合做事。






