?
投資 干貨 消費 評論 學(xué)院 滾動
風(fēng)投 科技 創(chuàng)業(yè) 業(yè)內(nèi) 要聞
優(yōu)化可以將AI培訓(xùn)的碳足跡減少多達(dá)75%
發(fā)布日期: 2023-04-18 10:13:07 來源: 萬能網(wǎng)

一種優(yōu)化深度學(xué)習(xí)模型訓(xùn)練的新方法,一種為人工智能提供動力的快速發(fā)展的工具,可以大幅削減人工智能的能源需求。

由密歇根大學(xué)開發(fā)的開源優(yōu)化框架在訓(xùn)練期間研究深度學(xué)習(xí)模型,確定能耗與訓(xùn)練速度之間的最佳權(quán)衡。

電氣工程和計算機科學(xué)副教授MosharafChowdhury表示:“在極端規(guī)模下,訓(xùn)練GPT-3模型一次僅消耗1,287兆瓦時,足以為美國普通家庭供電120年?!?/p>


(資料圖片僅供參考)

借助Chowdhury和他的團隊開發(fā)的新能源優(yōu)化框架Zeus,無需任何新硬件即可將此類數(shù)字減少多達(dá)75%,而且對訓(xùn)練模型所需的時間影響很小。它在波士頓舉行的2023年USENIX網(wǎng)絡(luò)系統(tǒng)設(shè)計與實現(xiàn)(NSDI)研討會上發(fā)表。

在過去三年中,大量深度學(xué)習(xí)模型的主流用途呈爆炸式增長,從圖像生成模型和富有表現(xiàn)力的聊天機器人到為TikTok和亞馬遜提供支持的推薦系統(tǒng)。隨著云計算的排放量已經(jīng)超過商業(yè)航空,人工智能增加的氣候負(fù)擔(dān)成為一個重大問題。

“現(xiàn)有工作主要側(cè)重于優(yōu)化深度學(xué)習(xí)訓(xùn)練以加快完成速度,通常不考慮對能源效率的影響,”計算機科學(xué)與工程博士生、該研究的共同第一作者Jae-WonChung說?!拔覀儼l(fā)現(xiàn)我們注入GPU的能量正在遞減,這使我們能夠顯著降低能耗,而且速度相對較慢?!?/p>

深度學(xué)習(xí)是一系列利用多層人工神經(jīng)網(wǎng)絡(luò)來處理一系列常見機器學(xué)習(xí)任務(wù)的技術(shù)。這些也稱為深度神經(jīng)網(wǎng)絡(luò)(DNN)。模型本身非常復(fù)雜,從機器學(xué)習(xí)中使用過的一些最龐大的數(shù)據(jù)集中學(xué)習(xí)。正因為如此,他們極大地受益于圖形處理單元(GPU)的多任務(wù)處理能力,GPU消耗了70%的能量用于訓(xùn)練其中一個模型。

Zeus使用兩個軟件旋鈕來降低能耗。一個是GPU功率限制,它會降低GPU的功率使用,同時減慢模型的訓(xùn)練速度,直到再次調(diào)整設(shè)置。另一個是深度學(xué)習(xí)模型的批量大小參數(shù),它控制模型在更新模型表示它在數(shù)據(jù)中找到的關(guān)系的方式之前處理的訓(xùn)練數(shù)據(jù)中的樣本數(shù)量。更高的批次大小減少了訓(xùn)練時間,但增加了能量消耗。

Zeus能夠?qū)崟r調(diào)整這些設(shè)置中的每一個,尋求最佳權(quán)衡點,在該點上能量使用最小化,同時對訓(xùn)練時間的影響盡可能小。在示例中,該團隊能夠通過顯示這兩個參數(shù)的所有可能組合來直觀地展示此權(quán)衡點。雖然這種程度的徹底性在實踐中不會發(fā)生在特定的訓(xùn)練工作中,但Zeus將利用機器學(xué)習(xí)的重復(fù)性來達(dá)到非常接近的程度。

“幸運的是,公司在更新的數(shù)據(jù)上一遍又一遍地訓(xùn)練同一個DNN,頻率高達(dá)每小時一次。我們可以通過觀察這些重復(fù)來了解DNN的行為,”計算機科學(xué)與工程專業(yè)的新近博士畢業(yè)生JieYou說。和該研究的共同主要作者。

Zeus是第一個旨在為各種機器學(xué)習(xí)任務(wù)和GPU插入現(xiàn)有工作流的框架,無需對系統(tǒng)的硬件或數(shù)據(jù)中心基礎(chǔ)設(shè)施進行任何更改即可降低能耗。

此外,該團隊還開發(fā)了疊加在Zeus之上的補充軟件,以進一步減少碳足跡。這款名為Chase的軟件在低碳能源可用時優(yōu)先考慮速度,并在高峰時段以犧牲速度為代價選擇效率,高峰時段更有可能需要增加煤炭等碳密集型能源的生產(chǎn)。Chase在去年的CarbonHack黑客馬拉松中獲得第二名,并將于5月4日在國際學(xué)習(xí)代表研討會上展示。

計算機科學(xué)與工程專業(yè)的碩士生楊振寧說:“由于數(shù)據(jù)集規(guī)模大或數(shù)據(jù)法規(guī)的原因,并不總是能夠輕松地將DNN培訓(xùn)工作遷移到其他位置。”“將培訓(xùn)工作推遲到更環(huán)保的時間框架也可能不是一種選擇,因為DNN必須使用最新的數(shù)據(jù)進行培訓(xùn),并迅速部署到生產(chǎn)中以實現(xiàn)最高的準(zhǔn)確性。

“我們的目標(biāo)是設(shè)計和實施不與這些現(xiàn)實限制相沖突的解決方案,同時仍然減少DNN培訓(xùn)的碳足跡?!?/p>

關(guān)鍵詞:
24小時熱點 精彩推薦
資訊新聞
?