MLPerf 高效能運算基準測試結果，展現高效能運算結合人工智慧的力量

2021-11-18 timscience PC電腦, 新聞 0

MLPerf 高效能運算基準測試結果，展現高效能運算結合人工智慧的力量

NVIDIA 在專注於高效能運算領域的人工智慧的五項新產業指標中，有四項拔得頭籌，這是推動科學與工業發展前進的方法

搭載 NVIDIA 技術的系統在 MLPerf 高效能運算 (HPC) 1.0 的五項測試中，有四項拔得頭籌，MLPerf HPC 1.0 是用於衡量 HPC 領域之人工智慧 (AI) 效能的產業基準。

這是 MLPerf 的最新測試結果，MLPerf 是一套在 2018 年 5 月首次發布的深度學習產業基準。MLPerf HPC 提出了一種運算方式，用 AI 加速及增強超級電腦上的模擬作業。

在分子動力學、天文學及氣候模擬方面的最新進展，皆採用了「HPC + AI」的模式，在科學研究上取得突破性成就。這項趨勢推動科學與工業領域的用戶採用 Exascale 等級的 AI。

這些基準測量那些內容

MLPerf HPC 1.0 使用 HPC 中心的三種典型作業負載，測量 AI 模型的訓練結果。

CosmoFlow 估計望遠鏡影像中的物體細節
DeepCAM 測試氣候資料中的颶風和大氣河流的偵測
OpenCatalyst 追蹤系統對分子內原子之間作用力的預測程度

每項測試分為兩個部分。衡量系統訓練模型的速度稱為強縮放 (strong scaling)，而與其對應的弱縮放 (weak scaling) 則是用於測量系統的最大處理量，即系統在特定時間內能訓練模型的數量。

與去年進行的 MLPerf 0.7 回合強縮放最佳結果相比，NVIDIA 在 CosmoFlow 方面的表現進步 5倍。在 DeepCAM 方面的表現更是進步 7 倍。

勞倫斯柏克萊國家實驗室 (Lawrence Berkeley National Lab) 的 Perlmutter Phase 1 超級電腦系統，使用其 6,144 個 NVIDIA A100 Tensor 核心 GPU 中的 512 個 GPU，在 OpenCatalyst 基準測試的強縮放類別中領先。

在弱縮放類別中，我們使用 16 個節點來處理每項作業，同時處理 256 個作業以在 DeepCAM 類別中領先。所有的測試皆在我們的內部系統，同時也是全球最大的工業超級電腦 NVIDIA Selene (如上圖) 上進行。

最新的測量結果展現出 NVIDIA AI 平台的另一個維度，與其領先業界的效能表現。這象徵著 NVIDIA 第八次在 MLPerf 基準測試中拿下最高分，這些測試涵蓋了資料中心、雲端和網路邊緣的 AI 訓練與推論作業。

廣泛的商業生態系

在這一回合測量活動中的八名參賽者，有七名使用 NVIDIA 的 GPU。

這些單位包括德國的 Jülich 超級電腦中心 (Jülich Supercomputing Centre)、瑞士國家超級運算中心 (Swiss National Supercomputing Centre)，以及美國的阿貢國家實驗室 (Argonne National Laboratory) 和勞倫斯柏克萊國家實驗室、國家超級電腦應用中心 (National Center for Supercomputing Applications) 及德州先進運算中心 (Texas Advanced Computing Center)。

Jülich 超級電腦中心主任 Thomas Lippert 在一篇部落格文章中寫道：「我們藉由這項基準測試，證明我們的超級電腦能發揮潛力來處理各項實際運算作業，有助於歐洲保持在 AI 方面的領先地位。」

MLPerf 基準獲 MLCommons 的支持，這是一個由阿里巴巴 (Alibaba)、Google、英特爾 (Intel)、Meta、NVIDIA 等公司所率領的產業組織。

我們怎麼做到的

一個包含完整軟體堆疊的成熟 NVIDIA AI 平台，造就出如此優秀的表現。

我們在這一回合的測量活動中，利用大家都能拿到的工具來調整程式碼，像是使用 NVIDIA DALI 加速資料處理；使用 CUDA Graph 減少小批量的延遲，以有效地擴大到最多 1,024 個或更多的 GPU。我們還用了 NVIDIA MagnumIO 裡的關鍵組件之一 NVIDIA SHARP，它提供網路運算功能，以加速通訊及將資料操作卸載到 NVIDIA Quantum InfiniBand 交換器。

請參閱我們的開發者部落格，更深入地了解我們如何使用這些工具。

可以從 MLPerf 資源庫中下載我們用於提交測試結果所使用的各項軟體。我們定期將這些程式碼加至 NGC 目錄，在這個軟體中心裡可以取得預先訓練的 AI 模型、產業應用程式框架、GPU 應用程式及其它軟體資源。