安防-資訊

智慧城市網 > 資訊 > 市場分析 > 正文

數據基礎設施發展現狀與趨勢

2023-05-04 10:33:07 中國信通院 點擊量:37663
  【智慧城市網 市場分析】 數據存儲與計算提供海量數據的高壓縮比存儲和高效計算等基礎能力,以數據庫、數據倉庫、數據湖等為其技術表現形態。其發展歷程長、產業成熟度相對較高,目前在數據要素等新需求牽引下,正呈現出穩中有進的發展態勢。
 
  (一)數據存儲與計算發展歷久彌新
 
  1960年信息時代開啟后,用于存儲、計算少量結構化數據的關系型數據庫、數據倉庫誕生,Oracle、DB2、Teradata等商業化產品逐漸成熟。2000年互聯網興起后,結構化數據的規模迅速膨脹、非結構化數據開始涌現,傳統關系型數據庫、數據倉庫能力出現瓶頸,以Apache Hadoop為代表的分布式存儲計算框架成為新的技術潮流,Cloudera、Hontonworks等數家商業化公司紛紛成立,大數據時代正式來臨。2010年移動互聯網逐漸普及后,實時推薦、即時決策需求對海量數據處理的實時性提出更高要求,同時視頻、音頻、圖片等非結構化數據占比大幅提升, Storm、Flink等流處理框架受到關注,數據湖技術也開始迅速產品化。圖2對數據存儲與計算領域的技術發展歷程進行了簡要總結。
 
  技術方面,經過60余年發展,數據存儲與計算領域總體技術框架趨于成熟,進入深度優化階段。數據存儲與計算領域已經形成了以分布式數據庫、數據倉庫、批處理平臺、流處理平臺為代表的總體技術框架,并廣泛應用,已能夠支撐具有高并發、低延遲數據處理分析需求的極端場景。例如在“雙十一”場景中,大量營銷、交易風控等自動決策被嵌入業務流程,形成了復雜的數據處理分析鏈路。在技術能力已相對成熟的基礎上,以云化、湖倉一體為代表的深度優化理念不斷涌現,并逐步應用,為數據存儲與計算領域進一步降本提質提供了新范式。
 
  產業方面,全球疫情加速了數字化轉型進程,數據存儲與計算領域的產業發展前景持續向好。國際方面,國際云數據倉庫巨頭Snowflake 2022年第三季度營收與去年同期相比上漲67%,達到5.5億美元;國內方面,2021上半年我國大數據平臺市場規模達54.2億元,同比增長43.5%[1];2021年我國數據庫市場規模預計達305.78億元,同比增長26.93%[2]。同時我國大數據基礎軟件第一股星環科技于2022年10月成功上市科創板。數據存儲與計算領域市場增長趨勢和行業預期持續向好。
 
  建設運維方面,數據存儲與計算建設持續深入,安全穩定運行成為關注焦點。隨著數字化轉型的開啟,工商銀行、建設銀行、農業銀行等頭部金融機構,電信、移動、聯通等運營商,大型互聯網公司以及諸多行業頭部企業均在數年前完成數據存儲與計算總體框架建設。近年來,隨著數據規模增多、價值提升,數據存儲與計算技術平臺逐漸復雜,運維使用時的穩定性保障和安全防護成為難題。2022年,Google、Twitter等公司的數據存儲與計算技術平臺均發生故障,同時,全球范圍內也發生多起針對數據存儲與計算技術平臺的惡性攻擊,相應安全事件帶來的損失也不斷增高。
 
  (二)當前數據存儲與計算發展呈現三大特點
 
  1. 云化改造全面加速
 
  數據存儲與計算技術持續與云融合,資源利用率進一步提升。隨著云計算的發展,數據存儲與計算技術逐漸從私有部署轉化為云上部署,初期體現為部署模式的不同,但伴隨著云原生理念的興起,云原生數據存儲與計算產品開始成為產業變革浪潮。利用云原生理念,數據存儲與計算一方面實現存儲、計算、調度、安全、分析等模塊的進一步解耦,各模塊與容器等底層資源單元相適配,實現彈性擴縮容,從而使得資源利用率提升30%~40%;另一方面實現應用接口函數化,即利用 Serverless 的理念,將更多如統計、機器學習、流程處理等能力封裝成函數接口,實現更細粒度的按需使用和付費,在提升2~3倍發布效率的同時,有效降低成本。近年來,華為、騰訊云、阿里云、百度、星環等國內主流大數據企業均推出云原生數據湖、云原生數據平臺等產品。2022年阿里云首款 Serverless數據庫產品RDS MySQL Serverless正式商業化,PingCAP在HTAP Summit上宣布TiDB Cloud Serverless Tier BETA版正式發布。
 
  2. 融合一體化持續加深
 
  批流一體、湖倉一體、HTAP(Hybrid Transaction Analytical Processing,混合事務與分析處理)等融合架構不斷降低運維成本。隨著數字化轉型的深入,企業通常會針對不同的業務場景、不同的數據模型搭建不同的平臺系統,帶來了數據冗余、數據一致性差、資源配置難、系統復雜等問題,極大增加了運維的壓力與成本。為解決上述問題,數據存儲與計算領域各技術產品轉向融合架構成為趨勢,例如將批處理技術與流處理技術融合的批流一體技術框架、打通數據倉庫和數據湖技術的湖倉一體技術框架以及同時具備在線事務處理及分析的混合事務分析處理技術。建立融合架構后,統一的接口層、計算層、存儲層、資源調度層實現了對海量數據的統一管理和集群服務的統一運維,大幅降低了運維綜合成本。國內外廠商紛紛提出自己的融合架構解決方案。例如,近年來海外廠商Databricks同戴爾推出Data LakeHouse、亞馬遜推出智能湖倉架構,2022年國內廠商巨杉數據庫推出SequoiaDB、阿里云推出MaxCompute湖倉一體方案、星環科技推出星環湖倉一體V2.0等。
 
  數據中間件技術為計算層與異構存儲層搭建橋梁,提升整體運行效率,進一步加速數據平臺融合一體化。在存算分離后,存儲層為滿足不同類型數據存儲的需求,文件存儲、對象存儲、表存儲等多種異構存儲引擎同時存在。計算層和異構存儲引擎之間的連通復雜度越來越高,數據中間件技術應運而生,其通過內置兼容接口和加速技術,助力計算層與異構存儲層高速互聯。例如開源的Alluxio向上對接Spark、Presto、Hive、TensorFlow等計算應用,向下對接阿里云OSS對象存儲、AWS S3存儲、HDFS等不同存儲,可提升I/O效率200%以上;ShardingSphere 將多類異構數據庫MySQL、PostgreSQL、Oracle、SQL Server、openGauss等包裝為統一數據庫訪問接口,從而方便多種編程語言直接訪問多類異構數據庫。
 
  3. 安全能力快速補強
 
  數據存儲與計算面臨著新型安全挑戰,內生安全正成為傳統防護的重要補充。一是隨著自身規模不斷龐大,數據存儲與計算技術平臺的邊界不斷延伸,網絡安全防護體系隨之指數級膨脹,容易出現盲點、漏點;二是伴隨數據開發利用的深化,數據存儲與計算技術平臺中的關鍵數據與其他系統將進行高頻的互聯互通,安全和效率難以均衡;三是數據存儲與計算技術平臺的技術組件60%以上基于開源技術,容易遭遇“0day”攻擊;四是數據存儲與計算技術平臺中數據集中存儲,但操作人員類型多、數量多、變更多,操作頻次高,存在數據泄露風險。2022年1月,美國交通運輸業商業信用報告機構TransCredit因配置錯誤致使數據庫無密碼保護,共計涉及50萬人財務數據的60多萬條信用記錄泄露;2022年6月,土耳其飛馬航空公司因其AWS云存儲桶未受保護,發生總計約6.5TB的數據泄露,其中包含敏感的飛行數據;2022年10月,跨國集團湯森路透因配置錯誤導致存有3TB敏感數據的Elasticsearch數據庫發生泄漏。近年來頻發的數據泄漏事件,使得全密態執行環境、敏感數據自動識別、高效數據加解密、細粒度的權限控制、零信任等內生安全技術在數據存儲與計算技術產品中的應用不斷增加,與傳統網絡安全防護相輔相成。近一年,華為云、阿里云相繼推出全密態數據庫,星環科技TDH、阿里云Dataworks紛紛加入敏感數據識別能力,亞馬遜RDS增加內置防火墻。
 
  (三)數據存儲與計算面臨的主要挑戰與發展趨勢
 
  經過半世紀的發展,數據存儲與計算領域總體技術框架基本成熟,產業穩步發展,為上層各類數據應用誕生提供了堅實基礎。但隨著數字化轉型從頭部行業向傳統行業延伸、數據的生產要素屬性不斷凸顯,數據存儲與計算領域也迎來新的挑戰。一是數據存儲與計算技術平臺建設運營成本仍需控制。數據存儲與計算技術平臺規模體量大、建設周期長、前期投入高,但投資回報率卻相對較低。隨著疫情以來經濟大環境發生變化,企業需要更加理性、務實的開展數據存儲與計算技術平臺建設,從實際收益的角度進行評估論證和精細化運營,同時數據存儲與計算技術也應從降低運維使用成本等方面優化提升。二是促進數據要素市場化的數據存儲與計算技術創新仍需加強。隨著數據成為生產要素,數據的潛在價值愈發受到重視,但當前數據要素市場建設面臨數據權屬、定價、安全保護等難點問題,這其中的一些問題是否能通過數據存儲與計算相關技術得到解決或加以規避,正在成為擺在數據存儲與計算領域發展過程中的關鍵命題。
 
  未來,數據存儲與計算領域呈現以下三點趨勢。
 
  一是技術和管理雙管齊下,探索數據存儲與計算技術平臺精細化運營之路。據Wikibon研究,全球范圍內企業數據存儲與計算技術平臺的平均投資回報率僅為55%,46%的企業數據存儲與計算技術平臺未達到預期價值。投資回報率低成為制約數據存儲與計算技術平臺滲透率進一步提升的重要因素,產業正嘗試從技術和管理兩方面探索精細化運營之路。技術方面,核心計算、存儲等模塊嘗試與AI結合,通過智能資源調度、智能數據分層存儲等,實現精細化運營;管理方面,探索公司內部成本分攤方式,從而避免業務部門無成本觀念式使用數據存儲與計算技術平臺,例如技術部門向業務部門售賣資源模式、按業務部門使用量計費模式等。
 
  二是數據編織(Data Fabric)、全密態數據庫等新理念新技術不斷成熟,為數據的要素價值釋放提供更強力的技術底座。數據要素市場形成涉及數據權屬、定價、安全保護等一系列問題,傳統數據存儲與計算技術重點關注計算、存儲效率,未解決數據要素市場面臨的問題。隨著數據規模和數據關系復雜度的增加、數據權屬問題的復雜化,傳統集中式數據管理模式無法滿足需求,出現了Data Fabric這一概念。Data Fabric基于主動型元數據、增強數據目錄、數據虛擬化等技術,形成了一套分布式、自動化、智能化的新型數據管理形式,當前IBM已經推出了相關解決方案。全密態數據庫使數據在傳輸、計算以及存儲的各個環節始終都處于密文狀態,從而解決數據全生命周期的隱私保護問題,提供數據要素安全保護的能力,目前阿里云、華為均已推出相關產品。
 
  三是我國數據存儲與計算領域技術和產品將逐步走向海外市場。我國數據存儲與計算領域產業經過多年發展,在部分技術領域的供給能力已經達到國際一流水平。當前,以東南亞為代表的新興數字經濟市場規模正在快速增長,數據存儲與計算技術平臺的建設需求十分旺盛。根據谷歌、淡馬錫和貝恩公司發布的《2021年東南亞數字經濟調查報告》顯示,東南亞數字經濟產業將在五年內實現翻倍增長,在2026年達到3600億美元。在這一背景下,二十大報告中提出“發展數字貿易”,商務部、中央網信辦、工信部聯合印發《數字經濟對外投資合作工作指引》,推動我國在數字經濟領域逐漸形成對外開放新格局。當前,我國數據存儲與計算領域的部分企業已開始走向海外市場,阿里巴巴、騰訊等企業已經開始借助自身全球云計算網絡基礎,PingCAP、OceanBase等企業借助開源優勢,助力其數據庫、大數據產品突破日本、印尼等海外市場。

聲明:凡來源標明“智慧城市網”的文章版權均為本站所有,如需轉載請務必注明出處,違者本網將追究相關法律責任;所有未標明來源為“智慧城市網”的轉載文章目的在于傳遞更多信息,均不代表本網立場及觀點,“智慧城市網”不對這些第三方內容或鏈接做任何保證或承擔任何責任;如涉及版權等問題,請在內容發表之日起一周內與本網聯系,否則視為放棄相關權利。

我要評論

文明上網,理性發言。(您還可以輸入200個字符)

所有評論僅代表網友意見,與本站立場無關。


資訊視頻會議協會

咨詢中心

服務咨詢QQ交談

在線客服QQ交談

媒體合作QQ交談

展會合作QQ交談

返回首頁
<蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>