在AI計算機訓(xùn)練與推理領(lǐng)域,存在著這樣一種理念:如果計算需求很大,那么為其提供動力所需的能量也將很大。這種理念也被該領(lǐng)域廣泛接受。那么有沒有可能開發(fā)出一種既可以顯著提升計算能力又無需消耗過多能量的方法呢?IBM在頂會ISSCC上介紹了一種7nm訓(xùn)練推理節(jié)能芯片。
自動駕駛汽車、文本轉(zhuǎn)語音和送貨無人機,這些都是人工智能的典型應(yīng)用。為了不斷推動 AI 淘金熱,人們一直致力于改善 AI 硬件技術(shù)的核心,即賦能深度學(xué)習(xí)的數(shù)字 AI 內(nèi)核,它是人工智能的關(guān)鍵推動力。
在該領(lǐng)域的深入探索中,IBM Research 通過材料、設(shè)備、芯片架構(gòu)和整體軟件堆棧方面的創(chuàng)新,在適應(yīng) AI 系統(tǒng)的負載復(fù)雜性以及簡化和加速性能方面取得了長足進步,從而推動具有尖端性能和無可比擬能效的下一代 AI 計算機系統(tǒng)的開發(fā)。
近日,在 2021 年國際固態(tài)電路虛擬會議(ISSCC)上發(fā)表的一篇新論文《A 7nm 4-Core AI Chip with 25.6TFLOPS Hybrid FP8 Training, 102.4TOPS INT4 Inference and Workload-Aware Throttling》中,IBM 團隊詳細介紹了全球首個采用 7nm 技術(shù)進行低精度訓(xùn)練與推斷的節(jié)能 AI 芯片。通過其新穎的設(shè)計,該 AI 硬件加速器芯片支持多種模型類型,同時在所有模型類型上均實現(xiàn)了領(lǐng)先的能效。
IBM 表示,通過令訓(xùn)練更靠近邊緣以及使數(shù)據(jù)更靠近來源,這一芯片技術(shù)可以擴展并用于多種商業(yè)應(yīng)用,從云上的大規(guī)模模型訓(xùn)練到安全隱私服務(wù)。此外,這種高效節(jié)能的 AI 硬件加速器可以顯著提升計算能力,包括混合云環(huán)境中的計算能力,并且無需大量的能源。
AI 模型的復(fù)雜性和適應(yīng)性正在迅速擴展,現(xiàn)已用于藥物發(fā)現(xiàn)、遺留 IT 應(yīng)用的現(xiàn)代化以及為新應(yīng)用編寫代碼等。但是,AI 模型復(fù)雜性的快速演化也增加了該技術(shù)的能耗,并且面臨的一個主要問題是如何創(chuàng)建復(fù)雜的 AI 模型而不增加碳排放量。從歷史上看,該領(lǐng)域已經(jīng)接受了這樣一種理念,即如果計算需求很大,那么為其提供動力所需的能源也將很大。
IBM 想要改變這種理念,開發(fā)出一種既可以顯著提升計算能力又無需消耗過多能量的全新節(jié)能 AI 硬件加速器。
如何實現(xiàn)
這篇 ISSCC 論文聚焦如何創(chuàng)建針對所有不同 AI 模型類型的低精度訓(xùn)練與推斷進行高度優(yōu)化的芯片,且該芯片在應(yīng)用層面上對質(zhì)量不造成損害。
IBM 展示了該新芯片的多種新特性:
IBM 表示這是首個集成了超低精度混合 FP8 (HFP8) 形式的硅芯片,可以 SOTA 硅技術(shù)節(jié)點(7 nm EUV-based 芯片)訓(xùn)練深度學(xué)習(xí)模型。在所有不同精度條件下,其原始能效是最優(yōu)的。下圖 2 展示了 IBM 芯片性能與能效超過其他專用的推斷和訓(xùn)練芯片。
從上圖中,我們可以看到 IBM 將該 7nm 芯片與多款芯片做了對比,包括阿里巴巴 12nm 的芯片以及英偉達的 A100。
但這并不是全部。它還是將電源管理整合到 AI 硬件加速器中的第一批芯片之一。該研究表明,通過放慢高功耗計算階段的速度,可以在芯片的總功耗預(yù)算內(nèi)最大化其性能。
最后,芯片除具有出色的峰值性能外,還具有可轉(zhuǎn)化為實際應(yīng)用性能的高持續(xù)利用率,這也是該芯片提高能效的關(guān)鍵部分。作者稱,與遠低于 30%的典型 GPU 利用率相比,該芯片可實現(xiàn) 80%以上的訓(xùn)練利用率和 60%以上的推斷利用率。
應(yīng)用前景廣泛
IBM 研究員表示,這一新的 AI 核與芯片可用于多種跨行業(yè)的云與邊緣應(yīng)用。例如,相對于當前行業(yè)中使用的 16 位(bit)和 32 位格式,該芯片可用于 8 位視覺、語音和自然語言處理的大規(guī)模深度學(xué)習(xí)模型云訓(xùn)練。它們還可用于語音到文本 AI 服務(wù)、文本到語音 AI 服務(wù)、NLP 服務(wù)、金融交易欺詐檢測等云推斷應(yīng)用程序。
自動駕駛汽車、安全攝像頭和移動電話也可以從中受益,該芯片可以方便地在邊緣設(shè)備上進行聯(lián)邦學(xué)習(xí),以實現(xiàn)定制化,保護客戶的隱私、安全性和合規(guī)性。
作者希望通過這項工作建立一種全新的方式,來創(chuàng)建和部署可擴展性能并降低功耗的 AI 模型。