AWS 宣布 Amazon Trainium2 執行個體正式可用,並宣佈推出新一代 AI 訓練晶片 Amazon Trainium3 的計畫
全新 Amazon EC2 Trn2 執行個體採用 AWS 最新 Trainium2 AI 晶片,性價比較當前基於 GPU 的 EC2 執行個體提升 30-40%
全新 Amazon EC2 Trn2 UltraServers 採用 NeuronLink 超高速互連技術,將四個 Trn2 伺服器連接成一個大型伺服器,能夠在 AWS 上為超大規模模型提供超高速的訓練和推理
Amazon Web Services(AWS)在 2024 re:Invent 全球大會上,宣布基於 Amazon Trainium2 的 Amazon Elastic Compute Cloud(Amazon EC2)Trn2 執行個體正式可用,並推出全新的 Amazon EC2 Trn2 UltraServers,讓用戶以超高性價比的方式訓練和部署最新的人工智能,以及未來的大型語言模型(LLM)和基礎模型(FM)。此外,AWS 還宣布了新一代 Amazon Trainium3 晶片的計畫。
與現時基於 GPU 的 EC2 P5e 和 P5en 執行個體相比,Amazon EC2 Trn2 執行個體的性價比高出 30 至 40%。它配備 16 個 Trainium2 晶片,可提供高達20.8 Petaflops 浮點運算力的效能,非常適合訓練和部署具有數十億參數的大型語言模型(LLMs)。
- 最新推出的 Amazon EC2 Trn2 UltraServers 伺服器機型配備 64 個互相連接的 Trainium2 晶片,採用 NeuronLink 超高速互連技術,可提供高達83.2 Petaflops 的浮點運算力,其計算、記憶體和網絡處理能力是單一執行個體的四倍,能夠支援訓練和部署超大規模的模型。
- AWS 正攜手 Anthropic 構建名為 Project Rainier 的 EC2 UltraCluster,其包含數十萬顆Trainium2 晶片,所需的超級算力比訓練他們目前的領先 AI 模型高出5倍以上。
- AWS 宣布了新一代 AI 晶片 Trainium3 的計劃,讓客戶更快速地構建更大規模的模型,並在部署時提供更佳的即時性能。
AWS 運算和網絡副總裁 David Brown 表示:「Amazon Trainium2 是專為支援大型、前沿的生成式 AI工作負載而設計的,能夠滿足訓練和推理的需求,並在 AWS 上提供卓越的性價比。隨著模型參數接近萬億,我們意識到客戶需要一種創新和的高效的方法來訓練和運行規模龐大的工作負載。在 AWS 上,全新 Amazon EC2 Trn2 UltraServers 提供超高速的訓練和推理性能,讓不同領域的企業以更快的速度和更低的成本訓練和部署全球規模最大的模型。」
隨著模型規模不斷擴大,客戶希望縮短訓練時間和推理延遲,這對運算和網絡基礎設施的要求亦相應提高。AWS 已提供廣泛的 Amazon EC2 加速執行個體選擇,包括基於 GPU 和機器學習晶片的執行個體。然而,即使是目前最快的加速執行個體,客戶仍持續追求更高的性能和更大的可擴展性,以更低的成本更快地訓練這些日益複雜的模型。隨著模型複雜性和數據量的增加,以及並行化的限制,單純擴大集群規模已無法有效縮短訓練時間。同時,即時推理的需求亦超出了單一執行個體架構的承載能力。
Amazon EC2 Trn2 執行個體為深度學習和生成式 AI 提供卓越性能
與目前基於 GPU 的 EC2 實例執行個體相比,Amazon EC2 Trn2 的性價比提高了 30% 至 40%。單個 Trn2 執行個體整合了 16 個 Trainium2 晶片,通過 NeuronLink 超速高頻寬、低延遲的晶片之間的互聯,可提供高達 20.8 Petaflops 的浮點運算力,非常適合訓練和部署數十億參數的模型。
Amazon EC2 Trn2 UltraServers 滿足全球超大模型日益增長的 AI 運算需求
對於需要更強運算力的超大模型,Amazon EC2 Trn2 UltraServers 讓客戶能突破單個 Trn2 執行個體的限制進行擴展,從而減少訓練時間,加快投放市場的速度,實現快速反覆運算以提高模型準確性。作為全新的 EC2 產品,Trn2 UltraServers 利用 NeuronLink 超高速互聯將四個 Trn2 伺服器連接為一個巨型伺服器。客戶通過全新的 Trn2 UltraServers,可以在 64 個 Trainium2 晶片上擴展他們的生成式 AI 工作負載。在推理工作負載方面,客戶可以使用 Trn2 UltraServers 提升生產環境中萬億參數模型的即時推理效能。AWS 正與 Anthropic 共同構建一個名為 Project Rainier 的 EC2 UltraCluster 運算集群,該集群由 Trn2 UltraServers 組成,能在數十萬個 Trainium2 晶片之間,透過第三代低延遲的 PB 級 EFA 網絡進行分散式模型訓練 — 所需的算力比訓練 Anthropic 目前的領先 AI 模型高出 5 倍以上。該項目完成後,預計將成為全球最大可用的 AI 運算集群,供 Anthropic 構建和部署未來模型使用。
Anthropic 專注於 AI 安全和研究,致力於創造可靠、可解釋和可控的 AI 系統。Anthropic 的旗艦產品Claude 是全球數百萬用戶信賴的大型語言模型。作為 Anthropic 與 AWS 深化合作的一部分,Anthropic 已開始優化 Claude 模型,以便在 Amazon 最先進的 AI 硬件 Trainium2 上運行。Anthropic 將使用數十萬個 Trainium2 晶片,該規模是其之前集群的五倍以上,為使用 Amazon Bedrock 上的Claude 客戶提供卓越的效能。
Databricks Mosaic AI 使企業能夠構建和部署高質量的智能系統。該系統基於數據湖原生架構,用戶可以輕鬆、安全地使用企業數據客製模型,從而提供更準確和特定領域的輸出。受惠於 Trainium 的高性能和成本效益,客戶能夠以較低的成本在 Mosaic AI 上擴展模型訓練。隨著全球客戶對 Mosaic AI 需求的不斷增長,Trainium2 的推出將為 Databricks 及其客戶帶來重大優勢。作為全球最大的數據和 AI 公司之一,Databricks 計畫使用 Trainium2 為客戶提供更優的性能,並降低總體擁有成本(TCO)達 30%。
Hugging Face 是全球領先的 AI 開源開發者平台,擁有超過 200 萬個模型、數據集和 AI 應用程式,其用戶社區匯聚了超過 500 萬名研究人員、數據科學家、機器學習工程師和軟件開發人員。在過去幾年,Hugging Face 與 AWS 合作,協助開發人員透過 Optimum Neuron 開源庫體驗 Amazon Inferentia 和 Amazon Trainium 的性能與成本優勢。該開源庫現已整合到 Hugging Face Inference Endpoints 中,並在新的 HUGS 自家部署服務中進行優化,用戶可以透過 AWS Marketplace 獲取。隨著 Trainium2 的發布,Hugging Face 用戶將享受更高的效能,從而更快地開發和部署模型。
poolside 致力於構建一個由 AI 驅動的世界,以推動具經濟價值的工作和科學進步。他們相信,軟件開發將成為神經網絡中首個達到人類智慧水準的重要能力。為此,poolside 正在開發基礎模型(FMs)、API 和智能應用程式,將生成式 AI 的優勢帶給開發人員。實現此目標的關鍵在於他們構建和運行產品所用的基礎設施。借助 Amazon Trainium2,poolside 的客戶將能以其他 AI 加速器無法比擬的性價比擴展其服務。此外,poolside 計畫利用 Amazon EC2 Trainium2 UltraServers 訓練未來的模型,預計相較於使用 Amazon EC2 P5 執行個體可節省 40% 的成本。
Amazon Trainium3 晶片,專為新一代前沿生成式 AI 工作負載的高性能需求而設計
AWS 宣布了新一代 AI 訓練晶片 Amazon Trainium3 的計畫。Trainium3 是 AWS 首款採用 3 納米製程生產的晶片,在性能、能源效率和密度方面樹立了新標準。搭載 Trainium3 的 UltraServers 性能預計將是 Trn2 UltraServers 的 4 倍,讓客戶在構建模型時能夠更快反覆運算,並在部署時提供卓越的即時效能。首批基於 Trainium3 的執行個體預計將在 2025 年底推出。
Amazon Neuron Software 賦能客戶充分發揮 Trainium2 的性能
Amazon Neuron SDK 包括編譯器、執行階段函式庫和開發工具,讓開發者優化模型以在 Trainium 上運行。它讓開發者能夠針對 Trainium 晶片優化模型以獲得最佳效能。它與 JAX 和 PyTorch 等熱門框架實現原生整合,讓客戶在 Trainium 上使用現有程式碼和工作流程時,只需進行少量程式碼修改。同時,Neuron 支援 Hugging Face 模型庫中的超過10萬個模型。通過 Neuron Kernel Interface(NKI),開發者可以直接存取裸機的 Trainium 晶片,編寫運算核心,以最大限度地提升運算密集型工作負載的性能。
Amazon Neuron 旨在簡化使用 JAX 等主流框架在 Trainium2 上訓練和部署模型,同時將程式碼修改需求和對特定供應商解決方案的依賴降至最低。Google 支持 AWS 透過 OpenXLA 原生整合,讓客戶能夠使用 JAX 進行大規模訓練和推理,提供簡單靈活的編碼路徑,讓用戶快速學習如何使用 Trn2 執行個體。隨著業界廣泛的開源協作,以及 Trainium2 的推出,Google 預計 JAX 在機器學習領域的應用將顯著增加,這將成為整個機器學習生態系統的重要里程碑。
目前,Amazon EC2 Trn2 執行個體在美國東部(俄亥俄)區域已正式可用,亦即將在其他區域推出。Amazon EC2 Trn2 UltraServers 目前已提供預覽。
發表迴響