人民網
人民網>>消費頻道

從大數據挖掘大智慧 華為創造AI時代速度新高度

2019年06月17日14:38 | 來源:人民網-消費頻道
小字號

今天,我們正在進入大數據的新時代。在剛剛結束的2019數博會上,專家指出人類正式進入了數據時代,數字經濟成為當今時代發展最快創新最活躍,輻射最廣泛的經濟活動,正在深刻的改變著人類的生產和生活方式。2018年我國數字經濟規模達到了31.3萬億元,佔GDP比重達34.8%。更進一步,5G、人工智能、大數據、移動互聯網、物聯網和雲計算等新技術正協同融合點燃新時代引擎,為推動數字經濟提供新動能。

作為數字經濟的“燃料”,大數據中有大智慧,這是自2015年首屆數博會就已經在全社會形成了廣泛的共識。然而,從大數據中挖掘大智慧卻並不容易。以人工智能為代表的分布式計算,被視為大智慧的普惠型挖掘方式。近年來,中國人工智能產業的發展迅速高於全球平均水平,但用好人工智能、真正發揮人工智能的商業價值卻難。其中一個重要的原因,是承載人工智能計算的傳統數據中心網絡,正在遭遇AI算法的重大挑戰。

今年華為發布了業界首款面向AI時代的數據中心交換機CloudEngine 16800,推動了數據中心的網絡數據流量交換從雲時代向AI時代的演進。基於CloudEngine系列交換機內嵌高性能AI芯片和獨創的iLossless智能無損交換算法,華為推出AI Fabric智能無損數據中心網絡解決方案,實現了零丟包、低時延和高吞吐的極致網絡性能,100%發揮AI算力,全面解決AI算法帶來的數據網絡交換挑戰。2019年4月,華為CloudEngine交換機榮獲Gartner Peer Insights平台數據中心網絡“客戶之選”稱號。這是Gartner在分析了來自擁有購買、實施和運營相關解決方案的客戶的評論后得出的結論。

AI“挖掘機”的挑戰

通過AI人工智能挖掘海量數據的智慧,這是AI時代的最重要主題。人工智能和機器學習,從2016年AlphaGo的全球熱潮,到各大技術廠商和雲服務商推出各種AI算法、計算服務、軟硬件設備和開源框架,已經在2019年形成了一個完整的商業化體系。華為GIV預測,到2025年,企業對AI的採用率將達到86%。越來越多的企業將AI視為新商業智慧的來源,利用AI協助決策、重建客戶體驗、重塑商業模式和生態系統,推動數字化轉型。

AI要發揮和創造真正的商業價值,數據、算法和算力是三大關鍵挑戰,而企業的數據中心則是大智慧的“挖掘機”和“智能+”引擎。傳統企業數據中心,主要是處理事務型計算,特別是以ERP、CRM、數據倉庫等為代表的企業級應用。而隨著AI計算大量進入到企業的數據中心,數據中心正從快速業務處理型向高效數據處理型轉型。而計算、存儲與網絡,這傳統數據中心“三大件”,就面臨重大的轉型挑戰,其中的網絡是最難也是最關鍵的挑戰。

實際上,隨著傳統數據中心的雲化,即分布式架構化,為了滿足人工智能分布式海量計算的需求,除了新型服務器和存儲技術外,還需要滿足海量計算的分布式信息交互需求,對通信量和通信性能的需求變得非常苛刻。Facebook曾對分布式機器學習平台Caffe2進行過測試,採用最新的多GPU服務器加速,8台服務器的計算任務就導致100Gbps Infiniband網絡出現了資源不足而難以實現多節點的線性計算加速效果,網絡性能正在嚴重制約人工智能算法發揮效用,更不用說實時人工智能計算了。

當前,隨著數據中心工作負載的顯著變化,數據中心的網絡已經進行了很多技術變革,包括:低時延、高帶寬的25GbE、40 GbE和100 GbE交換機以及更高速率的400 GbE交換機﹔升級到更高呑吐量的服務器網卡﹔InfiniBand、以太網、RDMA等各種網絡通信協議,混合適應不同工作負載要求﹔顯式擁塞通知(ECN)、流量控制(PFC)、以太網數據中心橋接(DCB)擴展等算法以改進交換機的緩沖資源管理,以及RoCE協議等支持零丟包消息傳遞等﹔此外還有虛擬化、SDN軟件定義網絡、基於AI/ML優化的自動化等。

總體來說,數據中心作為AI“挖掘機”,其網絡技術生態已經陸續發生了變革,隨著雲計算以及AI/ML等新算法及應用的興起,需要整體的網絡技術生態管理,才能最大發揮AI算法,讓AI創造真正的商業價值。

華為挖掘AI大智慧

為了滿足AI時代的數據高效處理需求,應用分布式架構挑戰,下一代數據中心網絡具有三大核心訴求:零丟包、低時延、高呑吐。基於CloudEngine系列交換機,華為開發了面向人工智能時代數據中心的AI Fabric智能無損數據中心網絡解決方案,以滿足AI對於數據中心網絡通信的變革要求。AI Fabric依靠AI智能芯片以及獨特的iLossless智能無損交換算法,實現了零丟包、高呑吐和超低時延,為AI構建了一個統一融合的高效數據中心網絡。

CloudEngine系列是華為公司面向下一代數據中心推出的“雲和AI”級高性能交換機,包括業界首款面向AI時代的數據中心交換機CloudEngine 16800系列、高配置的旗艦級核心交換機CloudEngine 12800系列,高性能的匯聚/接入交換機CloudEngine 8800/7800/6800/5800系列,以及虛擬交換機CloudEngine 1800V。CloudEngine系列軟件平台基於華為新一代的VRP8操作系統,支持豐富的數據中心和園區業務特性。

CloudEngine 16800全面升級了硬件交換平台,突破超高速信號傳輸、超強散熱、高效供電等多項技術難題,單槽位可提供業界最高密度48端口400GE線卡,單機提供業界最大的768端口400GE交換容量,交換能力高達業界平均的5倍,滿足AI時代流量倍增需求,同時單比特功耗下降50%、更綠色節能。而基於內置的AI芯片,CloudEngine 16800可大幅度提升設備級的智能化水平,讓交換機具備本地推理和實時快速決策的能力,可構建分布式AI運維架構,實現秒級故障識別和分鐘級故障自動定位,加速自動駕駛網絡的到來。

基於CloudEngine系列特別是CloudEngine 16800,華為AI Fabric獨創的算法,在保証零丟包的基礎上,可實現最高吞吐和最低時延。業界通用的無損網絡技術,難以同時滿足零丟包、低時延和高吞吐這三個要求,因為這三個指標相互影響,存在著“蹺蹺板”效應。而在零丟包、低時延和高吞吐這三個指標背后,核心技術就是擁塞控制算法。華為獨創的iLossless智能無損算法,通過動態ECN擁塞水線、Fast CNP快速擁塞反饋、VIQ虛擬輸入隊列等,最大程度滿足了三個核心要求。

面對動態流量和海量參數的挑戰,華為一方面投入研究團隊分析各種應用,提煉出流量模型特征,另一方面通過交換機集成AI芯片實時採集流量特征和網絡狀態,基於AI算法、本地實時決策以及動態調整網絡參數配置,合理高效利用交換機緩存、實現零丟包。加上智能分析平台FabricInsight,基於全局採集到的流量特征和網絡狀態數據,結合AI算法,對未來流量模型進行預測,從全局角度實時校正網卡和網絡的參數配置。

根據第三方權威測試機構EANTC(歐洲高級網絡測試中心,被公認為全球領先的電信獨立測試中心之一)在2018年6月的測試,AI Fabric可以在HPC高性能計算場景下,最高降低44.3%的計算時延,在分布式存儲場景下提升25%的IOPS能力,在所有場景保証網絡零丟包。華為AI Fabric通過了EANTC的高性能數據中心基准測試,支持無丟包的消息傳遞和文件存儲用例,高效地處理時延敏感的應用程序。在HPC和DFS基准測試中,華為AI Fabric在啟用動態ECN時成功處理了數據中心混合流量,此外該解決方案對網絡鏈路故障具有良好的彈性恢復能力。

另一家國際權威評測機構AvidThink在2019年出具的一份研究報告,指出華為AI Fabric是一種為數據中心以太網架構增值的創新方案,通過利用交換機內現有的資源,以及智能和自適應的管理技術來提升性能,包括利用AI來提供快速的故障解決,也受將到許多數據中心運營商的歡迎。AvidThink認為,如今的數據中心設備存在著很多的參數調優,人們很難找到正確的設置以優化數據中心負載。而隨著負載的演變,人們更加不可能跟蹤這些演變並不斷優化Fabric設置。華為CloudEngine 16800核心交換機,通過嵌入式AI芯片和機器學習,在整個Spine-leaf(“脊-葉”)數據中心網絡中自動調整端到端的性能,使用測試收集的數據構建初始模型,並根據客戶的負載情況進行調整,最終提供最佳的端到端的無損性能。

2019年2月,華為委托國際權威測試機構Tolly,在三大應用場景(HPC高性能計算、分布式AI訓練以及分布式存儲)中,對華為AI Fabric解決方案進行了性能評估,並與思科Nexus交換機組網的性能進行了對比。華為和思科的方案均基於RDMA over Converged Ethernet(RoCEv2),在所有三大場景中,華為AI Fabric解決方案的性能均優於思科。

進入2019年,人工智能應用和數字經濟建設面臨著提質增速見實效的換檔升級階段。隨著全社會積聚了越來越多的大數據,如何高效用好大數據和人工智能,為數字經濟和數字化轉型創造真正的價值,這就需要新的AI高速路。而華為新一代的CloudEngine網絡交換設備以及AI Fabric解決方案,為AI時代創造速度新高度,幫助企業從大數據中真正挖掘大智慧。 (此文屬於人民網登載的廣告信息,文章內容不代表本網觀點,僅供參考。)

(責編:金正陽(實習生)、李棟)

分享讓更多人看到

返回頂部