鑿山鋪路十五年:一場雲計算的遠征

4637億美元,這個金額是美國“阿波羅登月計劃”累計投資的1.5倍,也是知名研究機構Dell'Oro Group對2025年全球雲計算投資規模的市場預測[1]。

從巴黎奧運會全球電視網絡直播,到《歌手2025》全鏈路4K超高清直播;從支持自動駕駛算法訓練,到支撐3A遊戲流暢運行;從推動通義千問Qwen、Kimi等國產大模型迭代,到托起中國企業出海業務……雲端的世界,AI正在開疆擴土。

2025年8月29日,阿裏巴巴最新一季財報公布,阿裏雲收入同比增長26%,AI相關產品收入連續8個季度保持三位數增長,成為支撐阿裏巴巴發展的“新的增長極”。截至當天美股收盤,阿裏巴巴股價大漲近13%。

如果說20世紀是“電”的世紀,那麽21世紀就是“計算”的世紀:21世紀第一個十年,算力開始成為生產力新的度量衡,經典互聯網時代井噴的數據要通過計算挖掘價值,移動互聯網時代爆發的流量也隻有在雲端才能承接;而今,雲計算又成為AIGC時代衝鋒的彈藥。

當“ChatGPT時刻”叩響AIGC的大門,雲計算也從後台浮出水麵,迎來價值重估,從生態基座位躍升至戰略級資源,成為AIGC所有願景落地的前提。

而這一切的起點,來源於21世紀初期那批瘋狂技術人“計算普惠”的樸素念頭。彼時,在海外,亞馬遜推出了彈性計算EC2;在國內,阿裏雲於2010年發布了彈性計算服務ECS。

十五年來,中國市場成為率先擁抱新技術的沃土,中國的企業和開發者也在不斷用雲計算改進業務、提升效率,如今,中國技術也正引領著第三次雲計算“彈性”革命。

鑿山鋪路十五年,雲計算是一條隱秘而光輝的暗線,它陪伴和支撐中國科技產業從傳統互聯網走入移動互聯網,現在又大步邁向AIGC的新技術時代。

互聯網風起,讓計算上雲

一個不爭的事實是,當前,中美兩國最強的雲計算公司,都脫胎於電商。這是為什麽?

要回答這個問題,就要回到15年前。2010年的雙11,淘寶單日交易額達到19.5億元,平均每分鍾賣出4.8萬件商品,而承擔交易重任的支付寶卻經曆了“驚魂4秒”——距離係統崩潰隻差4秒[2]。

這充分說明了彼時計算與需求之間的不平衡,一麵是井噴的數據,另一麵是不足的算力。

更早的2008年,中國電商市場規模突破3萬億元,網購用戶在網民中占比近50%(1.2億/2.53億)[3],海量的交易讓算力捉襟見肘。對當時的行業巨頭而言,不斷買服務器最省事,但不省錢,而且還得聽別人說了算。

彼時,一台IBM小型服務器至少幾十萬元,商業數據庫、存儲設備、軟硬件維護成本上千萬元。阿裏內部曾預測,擴大服務器規模的投入,很可能會在未來“拖垮阿裏”。

2009年,阿裏雲成立,首個KPI就是廣為人知的“飛天”,將傳統IT架構轉向雲計算架構。雲計算擺脫服務器的肉體凡胎,算力集中上雲並按需分配,在規模效應下,提升了算力的使用效率、降低了算力成本,打破算力增長的天花板。

在行業對這套雲計算新係統仍持觀望態度時,阿裏率先開展實踐。2012年雙11,191億元的單日交易額中,20%的訂單在雲上實現,一年後,這一數字提升到了80%。

幾乎與“飛天”同時啟動的,還有另一個不太為人知的神秘項目。2009年秋天,阿裏集團內部技術骨幹集結,在西湖邊上的一家茶館,定下了名為“後羿”的彈性計算項目,初衷是希望將“飛天”強大的雲計算能力,提供給更多中小企業的外部客戶。

到年底,彈性計算ECS beta版本發布,此時,阿裏剛剛收購的專注於域名領域的中國萬網,意外地成為了彈性計算的第一批種子客戶。

作為當時的業內頭部,中國萬網囊括了最前沿的互聯網和電商公司客戶,還有大批中小站長,他們身處行業中心,更早感受到流量暴增,對計算資源不足也深有體會,他們希望找到性價比更高的計算資源。2009年底,中國萬網提出,希望對外售賣ECS。

雙方一拍即合。2010年5月,名為AH-Cloud的合作項目正式發布,阿裏雲彈性計算由此進入更多互聯網企業的底層架構,將雲計算的火種撒向各行各業。從藝術創作到互聯網金融,從奧運會轉播到氣象預測,算力搭乘著各類終端連接而成的網絡,隨著數據的遷徙滲透進人們的工作和生活。

《昆塔:盒子總動員》利用雲計算渲染呈現的3D畫麵

2013年,阿裏最後一台IBM小型機在支付寶下線,上雲也成為中國企業的共識,各類第三方雲計算企業誕生,友商巨頭紮堆入局。

中國雲計算正發軔,亞馬遜AWS就在2013年底強勢來襲。戰爭打響,阿裏雲選擇正麵硬剛:通過“神龍架構”等自研技術創新,持續降低雲計算成本,同時結合市場需求的充分挖掘和理解,用產品說服客戶,通過技術創新實現成本優勢。

移動流量爆發,新架構革命

2010年代後半段,移動互聯網爆發,2016年雙11,天貓單日交易額突破1000億元,移動端交易占比高達82.42%[5]。

網購不限製於台式機前,而是隨時隨地發生。與此同時,社交、短視頻、直播等手機應用野蠻生長,拚接成移動互聯網的另一個側麵。

微博熱搜取代報紙頭條成了輿論場的重心。數億用戶同時互動、搜索、發布內容,瞬間激增的流量不僅需要強大算力支撐,更考驗資源調度的靈活性。這一趨勢使得長期困擾雲計算發展的“虛擬化損耗”問題,從技術隱疾演變為必須要突破的關鍵性能瓶頸。

作為雲計算的核心技術,“虛擬化”指的是通過軟件將服務器的各類計算資源抽取出來,分類集中到各個資源池,再根據需求統一調配、打包成“虛擬機”。

實現虛擬化,本身需要消耗算力等資源,比如一台32核的物理服務器,有12核用來做虛擬化,帶來接近40%的虛擬化損耗。隨著雲上規模的不斷擴大,虛擬化損耗帶來的資源浪費愈發凸顯。

2016年的雙11複盤會,彈性計算團隊收到了“最後通牒”——必須將“虛擬化損耗”降到接近0%,阿裏雲由此開始了又一次架構革命。

破局關鍵在於軟硬件協同。

2017年,阿裏雲發布自研的神龍架構。通過定製虛擬化芯片、專用主板與MOC卡,結合自研軟件,實現接近零損耗的高性能虛擬化,比亞馬遜的專用芯片Amazon Nitro的推出時間還早了1個月。

神龍自研硬件體係

在向“神龍”進化的過程中,彈性計算的另一個“分支”——容器技術,開始在阿裏內部生長。

相較於傳統虛擬化技術,容器技術天然迎合移動互聯網的高並發特性,它根據進程分配算力的機製更靈活,啟動速度從分鍾級提高到了秒級,能夠應對突發、瞬時、海量的用戶請求,且支持跨平台遷移。

2019年,第二代神龍架構(MOC1.5)規模化,開始基於一個軟硬件體係,統一支持三種算力類型(裸金屬服務器+虛擬機服務+容器),容器服務正式加入了彈性計算“全家桶”,更大程度地覆蓋了不同層級的算力調配需求,“朋友圈”進一步擴大。

截至目前,神龍架構已迭代至第五代,阿裏雲還在2022年率先推出了雲基礎設施處理器CIPU。

在這過程中,阿裏雲也與最頂尖的產業公司深入合作,不斷刷新雲計算的性能上限。比如,阿裏雲與AMD在2016年達成戰略合作,陸續推出了基於AMD不同代際處理器平台的ECS實例,成為了諸多頂流app的雲原生平台底座,在遊戲、工業物聯網等領域滿足著持續增長的算力需求。

小紅書上阿裏雲就是典型案例。作為以內容分享和社交互動為核心的平台,小紅書需要支持海量用戶同時在線,在大數據處理、實時搜索與智能推薦等高負載場景下實現快速響應。

為應對這一挑戰,小紅書基於阿裏雲自研的CIPU架構的ECS AMD實例進行了深度技術升級,將內存帶寬提升125%,峰值達到350GB/s,大幅提升了特定場景的性能,還將集群資源利用率提升至40%,從容承接了年初那波“TikTok難民”的湧入浪潮。

小紅書、AMD與阿裏雲三方探索出“雲基座+深度定製”的全新用雲模式,也成為業內上雲新範式。

2025年8月14日,阿裏雲更是一口氣發布三款企業級實例——u2a、g9a、g9ae,均搭配AMD最新第五代EPYC處理器Turin,全新的“Zen 5”核心架構相較上一代帶來17%的IPC(每周期指令數)提升,以及全鏈路AVX-512(主要用於加速 AI 計算和高性能計算任務)能力的支持,AI和高性能計算(HPC)的IPC提升37%。

AMD第五代EPYC處理器Turin

與AMD長達十年的合作見證了阿裏雲彈性計算二次革命。在移走了“虛擬化損耗”的大山、滿足移動互聯網時代的算力需求後,數據開始以更高的精度和更龐大的規模展示其價值。

AIGC奇點的快步到來再次改寫了計算的範式,也讓雲計算的長跑進入新一輪的馬拉鬆。

AIGC時代,做創新的承重牆

2021年前後,AIGC以另一種維度展現了數據的價值,揭示了其徹底顛覆人們生產生活的潛力。

這些願景被寄托於算力之上,雲計算規模成為劃定AIGC發展進程的標尺,如何應對前所未有的算力需求暴漲,也成為雲計算廠商的全新考題。

當時,小鵬汽車找到阿裏雲,希望提供“超算”支持其自動駕駛訓練,以解決自動駕駛算法訓練中海量視頻處理量超載的問題。

“超算”是個“小眾且頂奢”的概念。與傳統雲服務器注重資源共享、適用於通用計算場景相比,“超算”強調極致的計算能力和並行處理能力,常用來解決需要大量計算資源的科學研究等問題。

但代價極度昂貴。特斯拉當年的Dojo超算集群運行在1萬顆GPU上,建造成本3億美元起步,對於任何企業都是無法輕易消化的支出,而Dojo最後的無疾而終更證明了高投入背後的高風險。

作為國內自動駕駛的領跑者之一,小鵬是最早決定將超算應用於自動駕駛訓練的新勢力之一。但放眼全球,能夠滿足需求的超算集群屈指可數。幸運的是,阿裏雲是為數不多具備該能力的企業之一。

2022年8月,阿裏雲宣布與小鵬汽車合建烏蘭察布智算中心“扶搖”,飛天智算平台與智能計算靈駿同時出道,以15 EFLOPS的算力成為當時全球最大規模智算平台。

而今複盤,“靈駿”的公開時點相當微妙——它甚至比ChatGPT發布還早三個月。

糧草先行的“靈駿”,也成為後來國產大模型奮起直追的底氣。巔峰時期,國內80%以上的大模型都是在“靈駿”上訓練的,還承擔了包括通義千問Qwen、Kimi在內的top級國產大模型的日常訓練和推理。

AIGC給雲計算帶來新的需求,也進一步提高了後來者入局的門檻,大模型上雲的背後,是對彈性更為極致的考驗:

一方麵要更能“伸”,以持續擴容的算力應對大規模任務和參數規模指數級增長的模型訓練。

這個過程並非簡單的算卡堆疊,其中涉及到並行計算同步性等諸多“技術陷阱”,業內尚無通用之法,隻能倒逼雲計算廠商從芯片到網絡架構、係統軟件多個維度自研。但有能力做到的廠商屈指可數。

另一方麵要更能“縮”,即對不同的計算資源進行顆粒度更高的分配,避免資源的浪費,同時能夠更加快速、靈活地拉起進程,以應對諸如對話、智能駕駛等需要及時反饋的需求。

比如大語言模型日常需要處理文字、圖像、音頻等各類數據,需要足夠豐富的計算資源以供調配。同時,用戶對不同任務的體驗標尺不同,比如“詢問天氣”對延遲的容忍度最低,文獻歸納對精確度要求最高,需要更科學的資源調度策略。

這便是對技術積累厚度實打實的考驗。阿裏雲從“飛天”到“神龍”,從虛擬化技術到裸金屬技術、容器技術,積累的“工具箱”可謂應有盡有,隨取隨用。

根據Gartner發布的2025年度全球《容器管理魔力象限》報告,阿裏雲成為亞太地區唯一一家連續三年進入“領導者”象限的雲容器服務供應商。 在其關鍵能力評估報告中阿裏雲雲端部署(Cloud Deployment)與運維能力(IT Operations)兩項評分更是位列第一。

在技術硬實力的基礎上,對用戶需求的洞察力,則是當前擺在雲計算廠商麵前更棘手的問題。

在阿裏雲,產品經理要隨時與客戶研發團隊保持密切溝通,不僅要參與到客戶模型的算子優化,在交付後還要頻繁回訪,跟蹤使用效率,排查故障、優化迭代。

百花齊放的模型帶來了高度定製化的需求,決定了雲計算供應商需要更早地參與到客戶的研發流程,而創新的不確定性,也需要產業鏈原本獨立的各個環節重新擰成一股繩。

雲計算作為基礎設施,貫穿模型產品的整個生命周期,意味著廠商需要始終走在下遊需求的前麵,以保證有足夠大的算力和足夠豐富的工具箱承接住更多的“ChatGPT時刻”。

阿裏雲AI Infra

2024年,彈性計算產品線迎來了再次升級,集通用計算、容器計算和加速計算三大產品線於一體,進一步釋放了解決方案的靈活性和適應性。

這一年,阿裏雲用戶範圍擴大至全球29個地域、89個可用區,在各行各業密集落地。Gartner報告顯示,阿裏雲在亞太地區IaaS市場份額繼續排名第一。

在AI需求的強勁驅動下,阿裏雲彈性計算的服務器集群正以前所未有的速度迅猛擴張,以機械之身托舉起人類曆經數個世紀對人工智能的全部憧憬與想象。

尾聲

2013年初,一封來自秦嶺巴山的感謝信,悄然落在阿裏雲辦公室的案頭。

寫信人是一位鐵路巡線工,常年在幽深隧道中徒步巡查。過去,他靠雙腳傳遞險情;如今,他用手機拍照上傳,信息幾秒內就能送達調度中心。改變這一切的,不是驚天動地的技術突破,而是一次安靜的算力遷移——從機房到雲端,從企業級係統到底層個體的工作流。

這個故事沒有出現在財報裏,也未被寫進發布會的PPT,但它成了阿裏雲彈性計算十五年曆程中最真實的注腳:真正的技術價值,往往藏在那些看不見的地方。

十五年來,從支撐雙11流量洪峰的“飛天”係統,到打破虛擬化損耗瓶頸的“神龍架構”;從率先推出CIPU,到構建大規模智算集群“靈駿”——阿裏雲始終在做一件事:把複雜的底層技術變成簡單可用的算力服務。

今天,算力正在從“資源”演變為“能力”,而彈性,也不再隻是資源的伸縮,更是對千行百業複雜需求的精準適配。這條路依然漫長,挑戰遠未終結。

但曆史已經證明:那些在無人處“鑿山鋪路”的人,終會被時代看見。而那些默默支撐變革的係統,終將成為新世界的底色。

參考資料

[1]AI to lift cloud investment to $460bn in 2025, more than Apollo program, Nikkei Asia

[2]“雙11”幕後:支付寶曾差4秒就崩潰,今年隻需十幾人待命,澎湃新聞

[3]《中國電子商務報告(2008-2009)》,商務部

[4]看淘寶這十年:改變國人消費觀念印證商業變遷,人民網

[5]2016天貓雙11正式進入“千億時代” 移動端占比82.42%,中國經濟網

[6]《在線》,王堅

[7]爆發了,阿裏的雲,華商韜略

作者:何律衡

編輯:李墨天

責任編輯:何律衡

封麵圖片來自ShotDeck

漯河
上一篇:{loop type="arclist" row=1 }{$vo.title}