AWS 與 NVIDIA 宣布策略合作
針對生成式 AI 推出全新超級電腦基礎設施、軟件及服務
- AWS 推出首款結合 NVIDIA Grace Hopper Superchip 超級晶片與 AWS UltraCluster 擴充技術的 AI 超級電腦
- NVIDIA DGX Cloud率先配備 NVIDIA GH200 NVL32,並將首次在 AWS 上提供此 AI訓練即服務
- NVIDIA和AWS在 Project Ceiba上的合作,設計全球最快的 GPU驅動AI 超級電腦以及最新的 NVIDIA DGX Cloud 超級電腦,供 NVIDIA 的AI 研發與自訂模型開發服務
- 配備 NVIDIA GH200、H200、L40S 及 L4 GPUs 等核心的全新Amazon EC2 instances,將大幅提升生成式 AI、高效能運算、設計、以及模擬的工作負載效能
- 在 AWS 上運行的 NVIDIA 軟件,包括 NeMo LLM 框架、NeMo Retriever、以及 BioNeMo,將加速自訂模型、語意檢索、新藥研發等應用的生成式 AI發展
在 AWS re:Invent 全球大會上,Amazon Web Services(AWS)、亞馬遜(Amazon)、NVIDIA 宣布擴大策略合作,聯手推出先進的基礎設施、軟件及服務,藉此賦能客戶在生成式 AI(Generative AI)上創新。
策略合作將集合NVIDIA 與 AWS 的尖端技術,結合NVIDIA 新一代 GPU、CPU 與 AI 軟件的最新多節點系統,和AWS 的 Nitro System 先進虛擬化與安全平台、Elastic Fabric Adapter(EFA)互連介面、以及 UltraCluster 擴充服務,以提供理想環境來訓練基礎模型及構建生成式 AI 應用。
是次擴大合作將進一步鞏固雙方長久的合作關係,為投入機器學習(ML)的先驅提供所需的運算效能,同時協助發展尖端技術,合力推動生成式 AI 時代。
合作的擴展將大幅加速各行各業應用生成式 AI 上:
- AWS 成為首家配備多節點 NVLink 技術的 NVIDIA GH200 Grace Hopper 超級晶片的雲端服務供應商。NVIDIA GH200 NVL32 多節點平台將運用 NVIDIA NVLink 與 NVSwitch 技術連結 32 個 Grace Hopper 超級晶片,組成一個執行個體。此平台將在 Amazon Elastic Compute Cloud(Amazon EC2)instances 上營運,結合 Amazon 的強大網路(EFA)、先進的虛擬化能力(AWS Nitro System)以及超大規模叢集的支援(Amazon EC2 UltraClusters),賦能共同客戶將其使用的方案擴充至配備數千顆 GH200 超級晶片的規模。
- NVIDIA 與 AWS 將聯手在 AWS 上推出首個採用 GH200 NVL32 的 DGX Cloud 方案 — NVIDIA DGX Cloud AI 訓練即服務(AI-training-as-a-service)方案,在運行單一 instance 的情況下,為開發者提供最大容量的共用記憶體。在 AWS 上運行的 DGX Cloud 將加速訓練擁有超過 1 兆參數的尖端生成式 AI 與大型語言模型。
- NVIDIA 與 AWS 正合力推動 Project Ceiba,聯手設計全球最快的GPU驅動的 AI 超級電腦。這開創先河的超級電腦配備 GH200 NVL32 與 Amazon EFA 互連技術以及16,384顆 NVIDIA GH200 超級晶片,具備65 exaflops 速度等級的 AI 運算能力。該電腦的大規模系統將由 AWS 代管,並為 NVIDIA 研發團隊提供服務,助其推動新一波生成式 AI 的創新。
- AWS 將再推出三款 Amazon EC2 instances:P5e instance配置 NVIDIA H200 Tensor Core GPUs,針對大規模與尖端生成式 AI 及 HPC 工作負載;以及分別配置 NVIDIA L4 GPUs 與 NVIDIA L40S GPUs 的 G6 與 G6e instance,能夠運行包括 AI 微調、推論、繪圖、以及影片工作負載等廣泛應用。G6e instances 特別適合用於開發 3D 工作流程、數碼分身、以及其他使用 NVIDIA Omniverse 的應用,用來連結與構建各種生成式 AI 的 3D 應用。
AWS 行政總裁 Adam Selipsky 表示:「AWS 與 NVIDIA 的合作已達 13 年。於最初的合作中,我們推出了全球首個配置 GPU 的雲端instance。如今,我們為各種工作負載提供覆蓋範圍最廣的 NVIDIA GPU 解決方案,涵蓋繪圖、遊戲、高效能運算、機器學習,延伸至目前的生成式 AI。AWS 持續運用 NVIDIA 技術推動創新,結合新一代 NVIDIA Hopper 超級晶片與 AWS 的 EFA 強大網路、EC2 UltraClusters 的超大規模叢集、以及 Nitro 的先進虛擬化功能,讓 AWS 成為執行 GPU 運算的最佳雲端環境。」
NVIDIA 創辦人暨行政總裁黃仁勳表示:「生成式 AI 正改革各種雲端作業的負載,為多元內容創作導入加速的運算動能。本著為每位客戶提供高成效且最先進的生成式 AI的共同目標, NVIDIA 與 AWS 攜手開發 AI 基礎設施、加速函式庫、基礎模型、以及生成式 AI 服務。」
AWS 上運行的 NVIDIA 軟件加速生成式 AI 的研發
此外,NVIDIA 發布在 AWS 上運行的軟件,將加速生成式 AI 的研發。NVIDIA NeMo Retriever 微服務提供多項新工具,包括可以用以創造高精準度聊天機械人的工具和能加速語意檢索技術的歸納工具。在 Amazon SageMaker 服務上運行的 BioNeMo 計畫在 AWS 托管的 NVIDIA DGX Cloud 上執行,讓製藥企業運用自己的數據簡化與加速模型訓練,藉此加快新藥開發。
在 AWS 上運行的 NVIDIA 軟件助 Amazon 為服務與營運創新。AWS 正運用NVIDIA NeMo 框架訓練新一代的 Amazon Titan 大型語言模型,而 Amazon Robotics 亦已開始運用 NVIDIA Omniverse Isaac 構建數碼分身,在虛擬化環境中規劃及完善無人倉庫,推動其自動化,助日後遷移至真實環境。
發表迴響