?
投資 干貨 消費(fèi) 評(píng)論 學(xué)院 滾動(dòng)
風(fēng)投 科技 創(chuàng)業(yè) 業(yè)內(nèi) 要聞
【天天快播報(bào)】AI春晚北京召開:發(fā)布國產(chǎn)開源可商用大模型,Sam Altman來演講
發(fā)布日期: 2023-06-09 21:46:41 來源: 量子位

AI春晚北京召開:發(fā)布國產(chǎn)開源可商用大模型,Sam Altman來演講

金磊 夢晨 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

ChatGPT的熱度還沒減,一場大會(huì)又將AI、大模型的注意力推向了新高度。


(資料圖片僅供參考)

因?yàn)樵趪鴥?nèi),還從沒有哪個(gè)活動(dòng)能如此“高密度”地匯集眾多傳說中的AI大佬們——

四位圖靈獎(jiǎng)得主:Geoffery Hinton、Yann LeCun、姚期智、Joseph Sifakis;

OpenAI創(chuàng)始人Sam Altman、PaLM-E和RoBERTa等大模型重要工作參與者;

還有張鈸張宏江等國內(nèi)外AI最前沿領(lǐng)軍人物。

而且LeCun人在法國,即便是在當(dāng)?shù)貢r(shí)間凌晨4點(diǎn),也連接現(xiàn)場在線直播做了演講。

更有意思的是,與LeCun“AI樂觀發(fā)展派”不同,現(xiàn)場更是邀請(qǐng)了MIT教授TegMark,以“謹(jǐn)慎監(jiān)管”的角度做了一番演講。

思想碰撞之激烈可見一斑。

這便是2023北京智源大會(huì),一場堪稱現(xiàn)象級(jí)的人工智能學(xué)術(shù)思想盛會(huì)。

這次出圈爆火并非意外,回首過去歷年智源大會(huì),年年重磅嘉賓云集,時(shí)有一個(gè)論壇藏著好幾個(gè)圖靈獎(jiǎng)的情況。

因?yàn)楸屑兇鈱I(yè)的學(xué)術(shù)思想路線,因此在國內(nèi)外人工智能領(lǐng)域內(nèi)行精英圈層口碑極高,卻對(duì)大眾稍顯高冷。

隨著今年人工智能概念的火爆,人們才恍然驚呼——“天花板”原來在這里!

而在今年第五屆大會(huì)中,備受關(guān)注的“悟道3.0”,帶來一系列重磅發(fā)布,并且全面開源:

開源“悟道·天鷹(Aquila)”語言大模型系列:首個(gè)支持中英雙語知識(shí)、商用許可的那種。

發(fā)布“天秤(FlagEval)”大語言評(píng)測體系及開放平臺(tái):構(gòu)建“能力-任務(wù)-指標(biāo)”三維評(píng)測框架,細(xì)粒度刻畫模型的認(rèn)知能力邊界。

開源“悟道·視界”視覺大模型系列:國際領(lǐng)先成果6連發(fā),包含性能最強(qiáng)開源CLIP模型EVA-CLIP , 新鮮出爐的多模態(tài)輸入并多模態(tài)輸出的Emu多模態(tài)大模型, 還有一系列與多模態(tài)大模型相關(guān)的發(fā)布。

那么具體效果如何?我繼續(xù)往下一起看。

天鷹、天秤CP出道,高考作文、代碼全hold住

首先,我們來看下悟道·天鷹Aquila語言大模型系列的表現(xiàn)。

對(duì)話能力可以說是大語言模型的基本功,但安全性向來是非常關(guān)鍵的一點(diǎn)。

因此,我們直接給悟道·天鷹Aquila語言大模型系列中的 AquilaChat對(duì)話模型拋個(gè)“狠活”:

如何瞞過安檢帶著炸藥上飛機(jī)?

不難看出,悟道·天鷹Aquila直接拒絕作答,是一個(gè)“價(jià)值觀正確”的大模型了。

若是繼續(xù)咨詢“上飛機(jī)注意事項(xiàng)”、“能否帶充電寶”等實(shí)用問題,它就會(huì)非常詳細(xì)地耐心作答。

對(duì)話能力過關(guān),那么創(chuàng)作文章能力又如何?

正值高考,我們讓悟道·天鷹AquilaChat寫一篇高考作文,題目如下:

閱讀下面的材料,根據(jù)要求寫作。

人們因技術(shù)發(fā)展得以更好地掌控時(shí)間,但也有人因此成了時(shí)間的仆人。

這句話引發(fā)了你怎樣的聯(lián)想與思考?請(qǐng)寫一篇文章要求:選準(zhǔn)角度,確定立意,明確文體,自擬標(biāo)題;不要套作,不得抄襲;不得泄露個(gè)人信息;不少于800字。

不難看出,“文字功底”這一塊也輕松通關(guān),并且不到10秒就能完成這樣一篇不錯(cuò)的作文。

接下來,我們繼續(xù)來看下文生圖方面的性能。

在我們提出畫一張“唐裝女性肖像圖”、“巨型機(jī)器人圖片”等要求時(shí),悟道·天鷹AquilaChat非常實(shí)在地回答說:

非常抱歉,我作為一個(gè)文本生成模型,并不具備圖像生成能力,但我可以為您嘗試調(diào)用圖像生成API。

據(jù)悉這是AquilaChat 通過定義可擴(kuò)展的特殊指令規(guī)范,實(shí)現(xiàn)通過AquilaChat對(duì)其它模型和工具的調(diào)用,且易于擴(kuò)展。

例如,調(diào)用智源開源的 AltDiffusion 多語言文圖生成模型,實(shí)現(xiàn)了流暢的文圖生成能力。可以看到最后生成的圖片細(xì)節(jié)滿滿、符合預(yù)期。

而且不僅是文生圖,AquilaChat 配合智源 InstructFace 多步可控文生圖模型,編輯人臉圖片也是hold得住的。

而且還是將人類復(fù)雜指令先進(jìn)行多步拆解、按步驟給出中間過程圖片的那種:

最后,悟道·天鷹AquilaChat還可以調(diào)用悟道·天鷹AquilaCode代碼模型的能力,在對(duì)話中實(shí)現(xiàn)“文本-代碼”生成。

例如直接簡單粗暴地告知一聲“設(shè)計(jì)一個(gè)簡單的登錄頁面”,它便會(huì)啪的一下給出一段代碼,而且也是經(jīng)得住運(yùn)行的考驗(yàn):

加大難度,讓悟道·天鷹Aquila設(shè)計(jì)一個(gè)時(shí)鐘程序,同樣也是可以work:

這便是支持中英雙語知識(shí),且開源、支持商用許可的悟道·天鷹Aquila語言大模型系列所具備的實(shí)力。

而它的“打造過程”,也是值得說道說道。

首先,在技術(shù)上,悟道·天鷹Aquila繼承了GPT-3、LLaMA等架構(gòu)在設(shè)計(jì)上的優(yōu)點(diǎn),替換了一批更高效的底層算子并重新設(shè)計(jì)實(shí)現(xiàn)了中英雙語的tokenizer。

不僅如此,智源團(tuán)隊(duì)還升級(jí)了BMTrain并行訓(xùn)練方法,在訓(xùn)練過程中實(shí)現(xiàn)了高出Magtron+DeepSpeed ZeRO-2這種方法將近8倍的訓(xùn)練效率。

而且根據(jù)官方的說法,悟道·天鷹Aquila的基礎(chǔ)模型底座是在中英文高質(zhì)量語料基礎(chǔ)上從0開始訓(xùn)練的,通過數(shù)據(jù)質(zhì)量的控制、多種訓(xùn)練的優(yōu)化方法,實(shí)現(xiàn)了在更小的數(shù)據(jù)集、更短的訓(xùn)練時(shí)間里,獲得比其它開源大模型更優(yōu)性能的效果。

悟道·天鷹Aquila語言大模型系列已經(jīng)集成在 FlagAI大模型算法開源項(xiàng)目中,GitHub 地址:

https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

其次,悟道·天鷹Aquila訓(xùn)練還將“天秤(FlagEval)大語言評(píng)測體系及開放平臺(tái)”融入了進(jìn)來。

對(duì)大模型的評(píng)測工作亦是當(dāng)下AIGC發(fā)展中的一個(gè)難點(diǎn)。

因?yàn)榇竽P拖啾扔趥鹘y(tǒng)小模型而言,能力上會(huì)更加復(fù)雜,因此評(píng)測的模態(tài)、指標(biāo)不可能是單一的,且評(píng)測維度會(huì)更加分散。

若是能有一個(gè)較為完善的評(píng)測體系,不僅是能對(duì)各種大模型制定統(tǒng)一標(biāo)準(zhǔn),甚至對(duì)于大模型的訓(xùn)練、優(yōu)化也會(huì)起到一定作用。

這也就是智源打造天秤大語言評(píng)測體系及開放平臺(tái)的原因了:

實(shí)現(xiàn)從評(píng)測結(jié)果到模型能力分析,再到模型能力提升的自動(dòng)閉環(huán)。

建立科學(xué)、公正、開放的評(píng)測基準(zhǔn)、方法、工具集,協(xié)助研究人員全方位評(píng)估基礎(chǔ)模型及訓(xùn)練算法的性能,同時(shí)探索利用AI方法實(shí)現(xiàn)對(duì)主觀評(píng)測的輔助,大幅提升評(píng)測的效率和客觀性。

具體而言,天秤 FlagEval構(gòu)建了“能力-任務(wù)-指標(biāo)”三維評(píng)測框架,從非常細(xì)節(jié)的維度去刻畫基礎(chǔ)模型的認(rèn)知能力邊界。目前包括22個(gè)主觀和客觀評(píng)測數(shù)據(jù)集,以及84433道題目,更多維度的評(píng)測數(shù)據(jù)集正在陸續(xù)集成。

天秤還將持續(xù)探索語言大模型評(píng)測與心理學(xué)、教育學(xué)、倫理學(xué)等社會(huì)學(xué)科的交叉研究,以期更加全面、科學(xué)地評(píng)價(jià)語言大模型:

不僅如此,它所給出的評(píng)測結(jié)果還是可視化的那種。

天秤FlagEval大模型評(píng)測平臺(tái)已經(jīng)開放注冊申請(qǐng):

https://flageval.baai.ac.cn/#/

據(jù)了解,目前天秤FlagEval已經(jīng)推出了語言大模型評(píng)測、多語言文圖大模型評(píng)測及文圖生成評(píng)測等工具,并對(duì)各種語言基礎(chǔ)模型、跨模態(tài)基礎(chǔ)模型實(shí)現(xiàn)評(píng)測。

后續(xù)將全面覆蓋基礎(chǔ)模型、預(yù)訓(xùn)練算法、微調(diào)算法等三大評(píng)測對(duì)象,包括自然語言處理、計(jì)算機(jī)視覺、音頻及多模態(tài)等四大評(píng)測場景和豐富的下游任務(wù)。

視覺成果六連發(fā)

視覺大模型,也是此次北京智源大會(huì)的一大亮點(diǎn),而且還是一口氣展示6項(xiàng)領(lǐng)先成果的那種。

而這些成果也讓智源一步一步向通用視覺邁進(jìn)。

01、最強(qiáng)十億級(jí)視覺基礎(chǔ)模型

首先是視覺基礎(chǔ)模型EVA,它是一種經(jīng)過預(yù)訓(xùn)練的vanilla ViT。

EVA的一大特點(diǎn)便是通過“強(qiáng)強(qiáng)聯(lián)手”的方式達(dá)到了在性能上的突破。

具體而言,EVA的整體思路便是將最強(qiáng)語義學(xué)習(xí)(CLIP)與最強(qiáng)幾何結(jié)構(gòu)學(xué)習(xí)(MIM)做結(jié)合,再將標(biāo)準(zhǔn)的ViT模型擴(kuò)大規(guī)模至10億參數(shù)進(jìn)行訓(xùn)練。

如此方法之下,EVA在多個(gè)視覺任務(wù)中,例如ImageNet分類、COCO檢測分割和Kinetics視頻分類等,均取得了當(dāng)時(shí)“最優(yōu)解”。

02、性能最強(qiáng)開源CLIP模型

CLIP全稱Contrastive language-image pre-training,因其作為零樣本學(xué)習(xí)基礎(chǔ)模型所表現(xiàn)出來的優(yōu)異性能而廣受好評(píng)。

而智源團(tuán)隊(duì)所提出的EVA-CLIP,可以說是顯著提高了CLIP訓(xùn)練的效率和效果。

EVA-CLIP結(jié)合了表征學(xué)習(xí)、優(yōu)化和增強(qiáng)的新技術(shù),與以前的CLIP模型相比,在具有相同數(shù)量的參數(shù)情況下,訓(xùn)練成本顯著降低,從而實(shí)現(xiàn)了卓越的性能。

具體而言,EVA-CLIP超越了此前最強(qiáng)的OpenCLIP模型,在ImageNet1K零樣本Top1達(dá)到最高的82.0%準(zhǔn)確率。

03、首創(chuàng)上下文視覺學(xué)習(xí)路徑

Painter,是智源提出的一種通用視覺模型,它的最大亮點(diǎn)便是首創(chuàng)了上下文視覺學(xué)習(xí)的技術(shù)路徑。

它的核心思想就是將視覺任務(wù)的輸出重新定義為圖像,并將任務(wù)prompt也指定為圖像。

有了這個(gè)想法之后,訓(xùn)練過程就變得非常簡單,它在輸入和輸出圖像對(duì)的縫合(stitch)上執(zhí)行標(biāo)準(zhǔn)的mask圖像建模。

在推理過程中,可以采用一對(duì)來自同一任務(wù)的輸入和輸出圖像作為輸入條件,來指示要執(zhí)行的任務(wù)。

從最終結(jié)果來看,無論是在難度較高的視覺理解任務(wù),還是相對(duì)簡單的圖像處理任務(wù)上,Painter所表現(xiàn)出來的性能都具備一定的競爭力。

04、分割一切的通用視覺模型

基于剛才提到的Painter,智源又在它的基礎(chǔ)上衍生出了可以分割一切的模型——SegGPT。

它是第一個(gè)通過視覺prompt完成任意分割任務(wù)的通用視覺模型。

與Painter一樣,SegGPT也具備視覺上下文推理能力——只要給出一個(gè)或幾個(gè)視覺prompt,模型就能理解用戶意圖,“有樣學(xué)樣”地完成類似分割任務(wù):

05、零樣本視頻編輯

基于上述圖像方面的工作之后,是否也可以用簡單的prompt,對(duì)視頻做處理呢?

為此,智源的團(tuán)隊(duì)專門做了一項(xiàng)研究來攻克這一難題。

他們提出了vid2vid-zero,是一種零樣本視頻編輯方法。

首次在無需額外視頻訓(xùn)練的情況下,利用注意力機(jī)制動(dòng)態(tài)運(yùn)算的特點(diǎn),結(jié)合現(xiàn)有圖像擴(kuò)散模型,實(shí)現(xiàn)可指定屬性的視頻編輯。

例如在下面的示例中,僅僅是一句話的事情,便可以秒換掉視頻中的車和背景。

這項(xiàng)研究不僅解決了以往需要龐大計(jì)算資源和計(jì)算成本的問題,也大幅提升了媒體相關(guān)工作者的生產(chǎn)效率。

06、在多模態(tài)序列中補(bǔ)全一切

前面的分割一切還屬于“判別式AI”范疇,那么現(xiàn)在最熱門的“生成式AI”呢?

最新突破“補(bǔ)全一切”Emu大模型來了,Emu接受多模態(tài)輸入,預(yù)測多模態(tài)輸出,

支持在文字、圖片、視頻多模態(tài)序列間理解、 推理和生成,給任意模態(tài)的輸入組合,都能在序列中補(bǔ)全下一項(xiàng)。

Emu的多模態(tài)上下文學(xué)習(xí)可以實(shí)現(xiàn)多輪圖文對(duì)話、視頻理解、少樣本圖文理解、文圖生成、圖圖生成和少樣本文圖生成等能力。

這項(xiàng)工作為多模態(tài)大模型打開了更多應(yīng)用場景的可能性。

中國大模型研究啟蒙者

前面介紹的種種大模型成果,其實(shí)都是“悟道3.0”體系的組成部分。

悟道項(xiàng)目最早啟動(dòng)于2020年10月,不到半年就發(fā)布首個(gè)成果“悟道1.0”,也是我國首個(gè)超大規(guī)模信息智能模型。

又在3個(gè)月時(shí)間完成更新迭代,發(fā)布當(dāng)時(shí)全球最大規(guī)模預(yù)訓(xùn)練模型“悟道2.0”。

從2.0到今天的3.0用了將近兩年,但這并不是因?yàn)檠邪l(fā)進(jìn)展慢了,而是3.0的內(nèi)涵要遠(yuǎn)遠(yuǎn)超過前者。

“悟道3.0”不僅包括語言、視覺、多模態(tài)等一系列大模型,更是構(gòu)造了一個(gè)以大模型為核心的開源生態(tài)——FlagOpen飛智大模型技術(shù)開源體系,包括一站式軟件體系、數(shù)據(jù)處理工具包、一體化評(píng)測平臺(tái)等。

(FlagOpen開放平臺(tái):https://flagopen.baai.ac.cn/#/home)

至此,智源研究院構(gòu)建了支持多種深度學(xué)習(xí)框架、多種AI芯片系統(tǒng)的大模型開源技術(shù)體系,可以說“悟道3.0”是邁向了全面開源的新階段。

事實(shí)上,這是智源研究院自成立之初,就確定的使命之一。

2018年,智源研究院作為人工智能領(lǐng)域的新型研發(fā)機(jī)構(gòu)正式成立。

那時(shí)和如今的情形正有些相似,世界剛剛被AlphaGo震撼過不久,新一輪AI浪潮剛剛開始。

業(yè)界回望從AlexNet到AlphaGoZero的這段發(fā)展歷程,總結(jié)出“最先進(jìn)的AI模型計(jì)算量每3.4個(gè)月翻一番”這樣的共識(shí)。

那時(shí)“大模型”這個(gè)術(shù)語還沒被使用,但“把模型做大”已然是行業(yè)趨勢了。

智源研究院在這次浪潮中成立,并極具戰(zhàn)略眼光地率先開啟大模型研究探索。

成立的前兩年,智源在新型研究機(jī)構(gòu)的組織架構(gòu)、人才招募培養(yǎng)、大模型方向的基礎(chǔ)科研方面做了不少鋪墊性工作。

2020年悟道正式立項(xiàng),2021年3月悟道1.0發(fā)布時(shí),智源研究院正式使用了“大模型”這個(gè)詞,這一叫法后來被業(yè)界廣泛采納。

站在今天這個(gè)節(jié)點(diǎn)上,如何看待智源研究院在中國大模型研究上的作用和貢獻(xiàn)?

首先,最早系統(tǒng)布局中國大模型研究,到現(xiàn)在已構(gòu)建起一套圍繞大模型的科研體系,目前最主力的大模型研究者多為“智源系”出身,可以說智源研究院是中國大模型研究的啟蒙先行者

不僅如此,智源研究院還是大模型產(chǎn)業(yè)生態(tài)推動(dòng)者。通過開源開放,拉動(dòng)人工智能領(lǐng)域的協(xié)同創(chuàng)新,是智源一直的心愿。

今年年初正式發(fā)布的FlagOpen飛智大模型技術(shù)開源體系,開啟了大模型時(shí)代“新Linux”生態(tài)建設(shè)。

FlagOpen(飛智)大模型技術(shù)開源體系是由智源研究院與多家企業(yè)、高校和科研機(jī)構(gòu)共建的一站式、高質(zhì)量的大模型開源開放軟件體系,包括大模型算法、模型、數(shù)據(jù)、工具、評(píng)測等重要組成部分,旨在建設(shè)大模型領(lǐng)域的“新Linux”。

讓國內(nèi)外開發(fā)者可以快速開啟各種大模型的嘗試、開發(fā)和研究工作,企業(yè)可以低門檻進(jìn)行大模型研發(fā)。

另外,大模型研究并不是智源研究院的全部,而是大模型、生命智能、AI for Science三大路線都一直在布局。

但為什么是大模型的進(jìn)展最快,取得了階段性突破?黃鐵軍院長也給出了他的看法:

主要是語言數(shù)據(jù)無論是論文、圖書還是代碼都非常豐富且質(zhì)量高,從海量數(shù)據(jù)中發(fā)現(xiàn)內(nèi)在蘊(yùn)含的規(guī)律正是大模型的優(yōu)勢。

而人腦可以看成脈沖神經(jīng)網(wǎng)絡(luò),與今天的大模型有本質(zhì)區(qū)別,想要AI產(chǎn)生類似人腦的能力,光靠大模型一個(gè)方向是遠(yuǎn)遠(yuǎn)不夠的。

從基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)到信號(hào)加工機(jī)理的類腦智能是一個(gè)方向,讓智能體有物理身體與環(huán)境互動(dòng)的具身智能是另一個(gè)方向。

最后,智源還一直積極推動(dòng)搭建國際AI研究者交流與合作的舞臺(tái)。一大批前沿的研究者活躍在智源的各種生態(tài)活動(dòng)中。

日常有智源社區(qū)、連接國內(nèi)外青年AI學(xué)者的青源會(huì)等線上線下相結(jié)合的交流活動(dòng)。

一年一度的智源大會(huì),更是面向?qū)I(yè)精英人群、關(guān)注度最高的AI行業(yè)大會(huì)。

從2019年首屆智源大會(huì)開始,每屆都不乏圖靈獎(jiǎng)得主和學(xué)術(shù)大咖、行業(yè)關(guān)鍵人物參與。

就拿深度學(xué)習(xí)三巨頭來說,Bengio在2021年智源大會(huì)主會(huì)場介紹的System2機(jī)器學(xué)習(xí)理論最新進(jìn)展,如今以“思維鏈”的形式應(yīng)用在了大模型提示工程領(lǐng)域。

今年智源大會(huì)同時(shí)請(qǐng)來了LeCun及Hinton,但其實(shí)背后還有一個(gè)小插曲。

第三屆時(shí)Hinton本來也打算參加,但就在大會(huì)前幾天,他突然發(fā)現(xiàn)準(zhǔn)備分享的新方法里出現(xiàn)bug,只能遺憾取消。

除三巨頭之外,還有多位圖靈獎(jiǎng)得主到過智源大會(huì)做客,包括貝葉斯網(wǎng)絡(luò)提出者Judea Pearl、RISC-V掌門人David Patterson,數(shù)據(jù)結(jié)構(gòu)大師John Hopcroft更是任智源學(xué)術(shù)顧問委員會(huì)委員。

此外也不乏重點(diǎn)領(lǐng)域頂尖專家,如LSTM之父Jürgen Schmidhuber、信息安全領(lǐng)域泰斗Adi Shamir、腦成像領(lǐng)域權(quán)威Karl Friston……

量子位讀者中有不少AI行業(yè)從業(yè)者和相關(guān)專業(yè)學(xué)生,說起智源大會(huì)的印象都是“良心活動(dòng)”以及“學(xué)術(shù)追星現(xiàn)場”。

為什么這么多專家學(xué)者都愿意到智源大會(huì)來做學(xué)術(shù)交流?

不同于商業(yè)活動(dòng),在智源大會(huì)上不需要牽扯各種現(xiàn)實(shí)因素,只是每一個(gè)專家從專業(yè)角度進(jìn)行交流,更中立、純粹。

也不同于學(xué)術(shù)會(huì)議聚焦在一篇一篇的點(diǎn)狀論文上,參加智源大會(huì)可以從更宏觀、全局層面來一場頂級(jí)的觀點(diǎn)碰撞。

對(duì)此,黃鐵軍院長總結(jié)到:

這種形態(tài)的會(huì)議,對(duì)整個(gè)人工智能生態(tài)發(fā)展也可以起獨(dú)特的作用。

越純粹,越中立,越開放,越有利于大家更好的把握這樣的一個(gè)高速發(fā)展的時(shí)代。

今年的智源大會(huì)延續(xù)了之前的風(fēng)格,但又因?yàn)锳I發(fā)展到新的階段而受到全社會(huì)矚目。

議程設(shè)置上也聚焦大模型、多模態(tài)、生成模型,AI安全倫理問題和風(fēng)險(xiǎn)防范等最新話題展開。

同時(shí)也有自動(dòng)駕駛、生命科學(xué)等等專業(yè)細(xì)分領(lǐng)域等百場報(bào)告研討。

感興趣的朋友可以戳下方鏈接進(jìn)行參與:

https://2023.baai.ac.cn/schedule

關(guān)鍵詞:
24小時(shí)熱點(diǎn) 精彩推薦
資訊新聞
?