- 回首頁
- 機械工業雜誌
機械工業雜誌
購物提醒:當您要離開或跳轉頁面時,請先將您想要購買的文章加入購物車,以便快速紀錄完成購買流程!
產業脈動|AI晶片伺服器高效率散熱技術的現況與未來發展趨勢
作者
鄭詠仁、何亞奇
刊登日期:2025/06/01
摘要
隨著人工智慧技術的快速發展,AI晶片伺服器成為高效能運算(HPC)與資料中心的重要基礎。然而高密度、高功耗的AI伺服器帶來極大的散熱挑戰。傳統氣冷散熱技術因成本低、設計成熟,仍被廣泛應用,但面對 AI 晶片熱設計功率(TDP)急遽上升,其效率已趨近瓶頸。液冷技術以高效熱傳遞能力顯著降低 PUE(Power Usage Effectiveness),使其成為當前資料中心升級的關鍵方案之一。浸潤式冷卻技術作為新一代散熱解決方案,透過非導電冷卻液直接浸泡設備,也大幅提升散熱效率並降低運營能耗。市場趨勢顯示,為應對 AI 伺服器功耗持續攀升,液冷與浸潤式冷卻技術的需求將快速成長。全球領先廠商如 NVIDIA、Google、Amazon 的數據中心已研發液冷技術多年,強調可提升運算能力並符合環保規範。根據市場預測液冷及浸潤式冷卻技術將在高效能伺服器中採用率不斷升高,尤其浸潤式冷卻則有望在超大規模數據中心逐步普及。隨著環保法規趨嚴、能源成本上升以及AI訓練規模擴大,高效散熱技術已成為企業追逐AI競爭力的關鍵,一併可推動整個產業鏈的轉型與技術升級。
Abstract
With the rapid advancement of artificial intelligence (AI) technology, AI chip servers have become a fundamental component of high-performance computing (HPC) and data centers. However, the high density and power consumption of AI servers pose significant cooling challenges. Traditional air cooling remains widely used due to its low cost and mature design, but as the thermal design power (TDP) of AI chips continues to rise sharply, its efficiency is approaching its limits. Liquid cooling, with its superior heat transfer capabilities, significantly reduces Power Usage Effectiveness (PUE), making it one of the key solutions for modern data center upgrades. Immersion cooling, as a next-generation thermal management solution, submerges servers in non-conductive cooling liquid, greatly enhancing heat dissipation efficiency while reducing operational energy consumption. Market trends indicate that to address the increasing power demands of AI servers, the demand for both liquid and immersion cooling technologies will grow rapidly.
Leading global companies, such as NVIDIA, Google, and Amazon, have been developing liquid cooling technologies for years, emphasizing their ability to enhance computational performance while meeting environmental regulations. According to market forecasts, the adoption rate of liquid and immersion cooling technologies in high-performance servers will continue to rise, with immersion cooling expected to gradually become mainstream in hyperscale data centers. As environmental regulations tighten, energy costs rise, and the scale of AI training expands, efficient cooling technologies have become a key factor in maintaining AI competitiveness. Simultaneously, they drive the transformation and technological advancement of the entire industry supply chain.
前言
隨著人工智慧 (AI) 技術的快速發展與大數據、深度學習等應用的普及,AI 晶片伺服器在資料中心和超高性能運算 (HPC) 領域中扮演著越來越重要的角色。這類伺服器通常搭載數顆高性能 GPU、專用加速器以及 CPU,例如 NVIDIA 的 Blackwell 架構 GPU 與 Grace CPU,其運算效能極高,能夠滿足兆級參數模型的訓練和推論需求。然而,高密度、高功耗的運算平台同時也帶來了嚴峻的散熱挑戰。如何在保證 AI 晶片伺服器運算效能的同時,實現高效率散熱,降低能源消耗、延長硬體壽命並符合環保要求,成為當前業界迫切需要解決的問題。
散熱技術不僅關係到伺服器硬體本身的運行穩定性,更直接影響到資料中心的能源利用效率(以PUE,Power Usage Effectiveness 為衡量指標)以及整個運營成本。傳統氣冷散熱方案由於設計成熟、組件價格低廉,曾長期占據市場主流;但隨著 AI 晶片熱設計功率(TDP,Thermal Design Power)不斷攀升,單靠氣冷方式已難以應對極高熱量輸出,液冷及浸潤式(immersion cooling)冷卻等新一代高效散熱技術逐漸受到重視,並將是未來資料中心散熱技術的發展方向,預估散熱系統可占約5~10%的伺服器成本。本文旨在全面探討 AI 晶片伺服器高效率散熱技術的現況與未來發展趨勢為業界技術人員、企業決策者以及投資者提供詳盡的參考和指引。[1][2][3]
資料中心散熱技術挑戰
在過去的十年中,隨著深度學習、神經網絡和大規模數據處理技術的突破,AI 晶片伺服器成為推動技術進步和商業應用的重要硬體基礎。以 NVIDIA 為例,其從 GeForce 顯示卡起家,逐步進軍資料中心、雲運算以及超高性能運算市場,其最新推出的 GB200 系統便代表了 AI 運算平台的最新水平[4]。該伺服器搭載數顆高 TDP 的 GPU,例如基於 Blackwell 架構的 B200 GPU,其 TDP 可達上千瓦,單台伺服器的總 TDP 可高達 2700W以上,極大提升了運算能力的同時,也對散熱技術提出了極高要求。隨著 AI 晶片伺服器在數據中心中越來越普及,散熱問題成為運營中不可忽視的環節。
更完整的內容歡迎訂購
2025年06月號
(單篇費用:參考材化所定價)