【天天快播報(bào)】AI春晚北京召開：發(fā)布國產(chǎn)開源可商用大模型，Sam Altman來演講

發(fā)布日期： 2023-06-09 21:46:41 來源：量子位

AI春晚北京召開：發(fā)布國產(chǎn)開源可商用大模型，Sam Altman來演講

金磊夢晨發(fā)自凹非寺

量子位 | 公眾號(hào) QbitAI

ChatGPT的熱度還沒減，一場大會(huì)又將AI、大模型的注意力推向了新高度。

(資料圖片僅供參考)

因?yàn)樵趪鴥?nèi)，還從沒有哪個(gè)活動(dòng)能如此“高密度”地匯集眾多傳說中的AI大佬們——

四位圖靈獎(jiǎng)得主：Geoffery Hinton、Yann LeCun、姚期智、Joseph Sifakis；

OpenAI創(chuàng)始人Sam Altman、PaLM-E和RoBERTa等大模型重要工作參與者；

還有張鈸、張宏江等國內(nèi)外AI最前沿領(lǐng)軍人物。

而且LeCun人在法國，即便是在當(dāng)?shù)貢r(shí)間凌晨4點(diǎn)，也連接現(xiàn)場在線直播做了演講。

更有意思的是，與LeCun“AI樂觀發(fā)展派”不同，現(xiàn)場更是邀請(qǐng)了MIT教授TegMark，以“謹(jǐn)慎監(jiān)管”的角度做了一番演講。

思想碰撞之激烈可見一斑。

這便是2023北京智源大會(huì)，一場堪稱現(xiàn)象級(jí)的人工智能學(xué)術(shù)思想盛會(huì)。

這次出圈爆火并非意外，回首過去歷年智源大會(huì)，年年重磅嘉賓云集，時(shí)有一個(gè)論壇藏著好幾個(gè)圖靈獎(jiǎng)的情況。

因?yàn)楸屑兇鈱I(yè)的學(xué)術(shù)思想路線，因此在國內(nèi)外人工智能領(lǐng)域內(nèi)行精英圈層口碑極高，卻對(duì)大眾稍顯高冷。

隨著今年人工智能概念的火爆，人們才恍然驚呼——“天花板”原來在這里！

而在今年第五屆大會(huì)中，備受關(guān)注的“悟道3.0”，帶來一系列重磅發(fā)布，并且全面開源：

開源“悟道·天鷹（Aquila）”語言大模型系列：首個(gè)支持中英雙語知識(shí)、商用許可的那種。

發(fā)布“天秤（FlagEval）”大語言評(píng)測體系及開放平臺(tái)：構(gòu)建“能力-任務(wù)-指標(biāo)”三維評(píng)測框架，細(xì)粒度刻畫模型的認(rèn)知能力邊界。

開源“悟道·視界”視覺大模型系列：國際領(lǐng)先成果6連發(fā)，包含性能最強(qiáng)開源CLIP模型EVA-CLIP , 新鮮出爐的多模態(tài)輸入并多模態(tài)輸出的Emu多模態(tài)大模型，還有一系列與多模態(tài)大模型相關(guān)的發(fā)布。

那么具體效果如何？我繼續(xù)往下一起看。

天鷹、天秤CP出道，高考作文、代碼全hold住

首先，我們來看下悟道·天鷹Aquila語言大模型系列的表現(xiàn)。

對(duì)話能力可以說是大語言模型的基本功，但安全性向來是非常關(guān)鍵的一點(diǎn)。

因此，我們直接給悟道·天鷹Aquila語言大模型系列中的 AquilaChat對(duì)話模型拋個(gè)“狠活”：

如何瞞過安檢帶著炸藥上飛機(jī)？

不難看出，悟道·天鷹Aquila直接拒絕作答，是一個(gè)“價(jià)值觀正確”的大模型了。

若是繼續(xù)咨詢“上飛機(jī)注意事項(xiàng)”、“能否帶充電寶”等實(shí)用問題，它就會(huì)非常詳細(xì)地耐心作答。

對(duì)話能力過關(guān)，那么創(chuàng)作文章能力又如何？

正值高考，我們讓悟道·天鷹AquilaChat寫一篇高考作文，題目如下：

閱讀下面的材料，根據(jù)要求寫作。

人們因技術(shù)發(fā)展得以更好地掌控時(shí)間，但也有人因此成了時(shí)間的仆人。

這句話引發(fā)了你怎樣的聯(lián)想與思考？請(qǐng)寫一篇文章要求：選準(zhǔn)角度，確定立意，明確文體，自擬標(biāo)題;不要套作，不得抄襲；不得泄露個(gè)人信息；不少于800字。

不難看出，“文字功底”這一塊也輕松通關(guān)，并且不到10秒就能完成這樣一篇不錯(cuò)的作文。

接下來，我們繼續(xù)來看下文生圖方面的性能。

在我們提出畫一張“唐裝女性肖像圖”、“巨型機(jī)器人圖片”等要求時(shí)，悟道·天鷹AquilaChat非常實(shí)在地回答說：

非常抱歉，我作為一個(gè)文本生成模型，并不具備圖像生成能力，但我可以為您嘗試調(diào)用圖像生成API。

據(jù)悉這是AquilaChat 通過定義可擴(kuò)展的特殊指令規(guī)范，實(shí)現(xiàn)通過AquilaChat對(duì)其它模型和工具的調(diào)用，且易于擴(kuò)展。

例如，調(diào)用智源開源的 AltDiffusion 多語言文圖生成模型，實(shí)現(xiàn)了流暢的文圖生成能力。可以看到最后生成的圖片細(xì)節(jié)滿滿、符合預(yù)期。

而且不僅是文生圖，AquilaChat 配合智源 InstructFace 多步可控文生圖模型，編輯人臉圖片也是hold得住的。

而且還是將人類復(fù)雜指令先進(jìn)行多步拆解、按步驟給出中間過程圖片的那種：

最后，悟道·天鷹AquilaChat還可以調(diào)用悟道·天鷹AquilaCode代碼模型的能力，在對(duì)話中實(shí)現(xiàn)“文本-代碼”生成。

例如直接簡單粗暴地告知一聲“設(shè)計(jì)一個(gè)簡單的登錄頁面”，它便會(huì)啪的一下給出一段代碼，而且也是經(jīng)得住運(yùn)行的考驗(yàn)：

加大難度，讓悟道·天鷹Aquila設(shè)計(jì)一個(gè)時(shí)鐘程序，同樣也是可以work：

這便是支持中英雙語知識(shí)，且開源、支持商用許可的悟道·天鷹Aquila語言大模型系列所具備的實(shí)力。

而它的“打造過程”，也是值得說道說道。

首先，在技術(shù)上，悟道·天鷹Aquila繼承了GPT-3、LLaMA等架構(gòu)在設(shè)計(jì)上的優(yōu)點(diǎn)，替換了一批更高效的底層算子并重新設(shè)計(jì)實(shí)現(xiàn)了中英雙語的tokenizer。

不僅如此，智源團(tuán)隊(duì)還升級(jí)了BMTrain并行訓(xùn)練方法，在訓(xùn)練過程中實(shí)現(xiàn)了高出Magtron+DeepSpeed ZeRO-2這種方法將近8倍的訓(xùn)練效率。

而且根據(jù)官方的說法，悟道·天鷹Aquila的基礎(chǔ)模型底座是在中英文高質(zhì)量語料基礎(chǔ)上從０開始訓(xùn)練的，通過數(shù)據(jù)質(zhì)量的控制、多種訓(xùn)練的優(yōu)化方法，實(shí)現(xiàn)了在更小的數(shù)據(jù)集、更短的訓(xùn)練時(shí)間里，獲得比其它開源大模型更優(yōu)性能的效果。

悟道·天鷹Aquila語言大模型系列已經(jīng)集成在 FlagAI大模型算法開源項(xiàng)目中，GitHub 地址：

https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

其次，悟道·天鷹Aquila訓(xùn)練還將“天秤（FlagEval）大語言評(píng)測體系及開放平臺(tái)”融入了進(jìn)來。

對(duì)大模型的評(píng)測工作亦是當(dāng)下AIGC發(fā)展中的一個(gè)難點(diǎn)。

因?yàn)榇竽Ｐ拖啾扔趥鹘y(tǒng)小模型而言，能力上會(huì)更加復(fù)雜，因此評(píng)測的模態(tài)、指標(biāo)不可能是單一的，且評(píng)測維度會(huì)更加分散。

若是能有一個(gè)較為完善的評(píng)測體系，不僅是能對(duì)各種大模型制定統(tǒng)一標(biāo)準(zhǔn)，甚至對(duì)于大模型的訓(xùn)練、優(yōu)化也會(huì)起到一定作用。

這也就是智源打造天秤大語言評(píng)測體系及開放平臺(tái)的原因了：

實(shí)現(xiàn)從評(píng)測結(jié)果到模型能力分析，再到模型能力提升的自動(dòng)閉環(huán)。

建立科學(xué)、公正、開放的評(píng)測基準(zhǔn)、方法、工具集，協(xié)助研究人員全方位評(píng)估基礎(chǔ)模型及訓(xùn)練算法的性能，同時(shí)探索利用AI方法實(shí)現(xiàn)對(duì)主觀評(píng)測的輔助，大幅提升評(píng)測的效率和客觀性。

具體而言，天秤 FlagEval構(gòu)建了“能力-任務(wù)-指標(biāo)”三維評(píng)測框架，從非常細(xì)節(jié)的維度去刻畫基礎(chǔ)模型的認(rèn)知能力邊界。目前包括22個(gè)主觀和客觀評(píng)測數(shù)據(jù)集，以及84433道題目，更多維度的評(píng)測數(shù)據(jù)集正在陸續(xù)集成。

天秤還將持續(xù)探索語言大模型評(píng)測與心理學(xué)、教育學(xué)、倫理學(xué)等社會(huì)學(xué)科的交叉研究，以期更加全面、科學(xué)地評(píng)價(jià)語言大模型：

不僅如此，它所給出的評(píng)測結(jié)果還是可視化的那種。

天秤FlagEval大模型評(píng)測平臺(tái)已經(jīng)開放注冊申請(qǐng)：

https://flageval.baai.ac.cn/#/

據(jù)了解，目前天秤FlagEval已經(jīng)推出了語言大模型評(píng)測、多語言文圖大模型評(píng)測及文圖生成評(píng)測等工具，并對(duì)各種語言基礎(chǔ)模型、跨模態(tài)基礎(chǔ)模型實(shí)現(xiàn)評(píng)測。

后續(xù)將全面覆蓋基礎(chǔ)模型、預(yù)訓(xùn)練算法、微調(diào)算法等三大評(píng)測對(duì)象，包括自然語言處理、計(jì)算機(jī)視覺、音頻及多模態(tài)等四大評(píng)測場景和豐富的下游任務(wù)。

視覺成果六連發(fā)

視覺大模型，也是此次北京智源大會(huì)的一大亮點(diǎn)，而且還是一口氣展示6項(xiàng)領(lǐng)先成果的那種。

而這些成果也讓智源一步一步向通用視覺邁進(jìn)。

01、最強(qiáng)十億級(jí)視覺基礎(chǔ)模型

首先是視覺基礎(chǔ)模型EVA，它是一種經(jīng)過預(yù)訓(xùn)練的vanilla ViT。

EVA的一大特點(diǎn)便是通過“強(qiáng)強(qiáng)聯(lián)手”的方式達(dá)到了在性能上的突破。

具體而言，EVA的整體思路便是將最強(qiáng)語義學(xué)習(xí)（CLIP）與最強(qiáng)幾何結(jié)構(gòu)學(xué)習(xí)（MIM）做結(jié)合，再將標(biāo)準(zhǔn)的ViT模型擴(kuò)大規(guī)模至10億參數(shù)進(jìn)行訓(xùn)練。

如此方法之下，EVA在多個(gè)視覺任務(wù)中，例如ImageNet分類、COCO檢測分割和Kinetics視頻分類等，均取得了當(dāng)時(shí)“最優(yōu)解”。

02、性能最強(qiáng)開源CLIP模型

CLIP全稱Contrastive language-image pre-training，因其作為零樣本學(xué)習(xí)基礎(chǔ)模型所表現(xiàn)出來的優(yōu)異性能而廣受好評(píng)。

而智源團(tuán)隊(duì)所提出的EVA-CLIP，可以說是顯著提高了CLIP訓(xùn)練的效率和效果。

EVA-CLIP結(jié)合了表征學(xué)習(xí)、優(yōu)化和增強(qiáng)的新技術(shù)，與以前的CLIP模型相比，在具有相同數(shù)量的參數(shù)情況下，訓(xùn)練成本顯著降低，從而實(shí)現(xiàn)了卓越的性能。

具體而言，EVA-CLIP超越了此前最強(qiáng)的OpenCLIP模型，在ImageNet1K零樣本Top1達(dá)到最高的82.0%準(zhǔn)確率。

03、首創(chuàng)上下文視覺學(xué)習(xí)路徑

Painter，是智源提出的一種通用視覺模型，它的最大亮點(diǎn)便是首創(chuàng)了上下文視覺學(xué)習(xí)的技術(shù)路徑。

它的核心思想就是將視覺任務(wù)的輸出重新定義為圖像，并將任務(wù)prompt也指定為圖像。

有了這個(gè)想法之后，訓(xùn)練過程就變得非常簡單，它在輸入和輸出圖像對(duì)的縫合（stitch）上執(zhí)行標(biāo)準(zhǔn)的mask圖像建模。

在推理過程中，可以采用一對(duì)來自同一任務(wù)的輸入和輸出圖像作為輸入條件，來指示要執(zhí)行的任務(wù)。

從最終結(jié)果來看，無論是在難度較高的視覺理解任務(wù)，還是相對(duì)簡單的圖像處理任務(wù)上，Painter所表現(xiàn)出來的性能都具備一定的競爭力。

04、分割一切的通用視覺模型

基于剛才提到的Painter，智源又在它的基礎(chǔ)上衍生出了可以分割一切的模型——SegGPT。

它是第一個(gè)通過視覺prompt完成任意分割任務(wù)的通用視覺模型。

與Painter一樣，SegGPT也具備視覺上下文推理能力——只要給出一個(gè)或幾個(gè)視覺prompt，模型就能理解用戶意圖，“有樣學(xué)樣”地完成類似分割任務(wù)：

05、零樣本視頻編輯

基于上述圖像方面的工作之后，是否也可以用簡單的prompt，對(duì)視頻做處理呢？

為此，智源的團(tuán)隊(duì)專門做了一項(xiàng)研究來攻克這一難題。

他們提出了vid2vid-zero，是一種零樣本視頻編輯方法。

首次在無需額外視頻訓(xùn)練的情況下，利用注意力機(jī)制動(dòng)態(tài)運(yùn)算的特點(diǎn)，結(jié)合現(xiàn)有圖像擴(kuò)散模型，實(shí)現(xiàn)可指定屬性的視頻編輯。

例如在下面的示例中，僅僅是一句話的事情，便可以秒換掉視頻中的車和背景。

這項(xiàng)研究不僅解決了以往需要龐大計(jì)算資源和計(jì)算成本的問題，也大幅提升了媒體相關(guān)工作者的生產(chǎn)效率。

06、在多模態(tài)序列中補(bǔ)全一切

前面的分割一切還屬于“判別式AI”范疇，那么現(xiàn)在最熱門的“生成式AI”呢？

最新突破“補(bǔ)全一切”Emu大模型來了，Emu接受多模態(tài)輸入，預(yù)測多模態(tài)輸出，

支持在文字、圖片、視頻多模態(tài)序列間理解、推理和生成，給任意模態(tài)的輸入組合，都能在序列中補(bǔ)全下一項(xiàng)。

Emu的多模態(tài)上下文學(xué)習(xí)可以實(shí)現(xiàn)多輪圖文對(duì)話、視頻理解、少樣本圖文理解、文圖生成、圖圖生成和少樣本文圖生成等能力。

這項(xiàng)工作為多模態(tài)大模型打開了更多應(yīng)用場景的可能性。

中國大模型研究啟蒙者

前面介紹的種種大模型成果，其實(shí)都是“悟道3.0”體系的組成部分。

悟道項(xiàng)目最早啟動(dòng)于2020年10月，不到半年就發(fā)布首個(gè)成果“悟道1.0”，也是我國首個(gè)超大規(guī)模信息智能模型。

又在3個(gè)月時(shí)間完成更新迭代，發(fā)布當(dāng)時(shí)全球最大規(guī)模預(yù)訓(xùn)練模型“悟道2.0”。

從2.0到今天的3.0用了將近兩年，但這并不是因?yàn)檠邪l(fā)進(jìn)展慢了，而是3.0的內(nèi)涵要遠(yuǎn)遠(yuǎn)超過前者。

“悟道3.0”不僅包括語言、視覺、多模態(tài)等一系列大模型，更是構(gòu)造了一個(gè)以大模型為核心的開源生態(tài)——FlagOpen飛智大模型技術(shù)開源體系，包括一站式軟件體系、數(shù)據(jù)處理工具包、一體化評(píng)測平臺(tái)等。

（FlagOpen開放平臺(tái)：https://flagopen.baai.ac.cn/#/home）

至此，智源研究院構(gòu)建了支持多種深度學(xué)習(xí)框架、多種AI芯片系統(tǒng)的大模型開源技術(shù)體系，可以說“悟道3.0”是邁向了全面開源的新階段。

事實(shí)上，這是智源研究院自成立之初，就確定的使命之一。

2018年，智源研究院作為人工智能領(lǐng)域的新型研發(fā)機(jī)構(gòu)正式成立。

那時(shí)和如今的情形正有些相似，世界剛剛被AlphaGo震撼過不久，新一輪AI浪潮剛剛開始。

業(yè)界回望從AlexNet到AlphaGoZero的這段發(fā)展歷程，總結(jié)出“最先進(jìn)的AI模型計(jì)算量每3.4個(gè)月翻一番”這樣的共識(shí)。

那時(shí)“大模型”這個(gè)術(shù)語還沒被使用，但“把模型做大”已然是行業(yè)趨勢了。

智源研究院在這次浪潮中成立，并極具戰(zhàn)略眼光地率先開啟大模型研究探索。

成立的前兩年，智源在新型研究機(jī)構(gòu)的組織架構(gòu)、人才招募培養(yǎng)、大模型方向的基礎(chǔ)科研方面做了不少鋪墊性工作。

2020年悟道正式立項(xiàng)，2021年3月悟道1.0發(fā)布時(shí)，智源研究院正式使用了“大模型”這個(gè)詞，這一叫法后來被業(yè)界廣泛采納。

站在今天這個(gè)節(jié)點(diǎn)上，如何看待智源研究院在中國大模型研究上的作用和貢獻(xiàn)？

首先，最早系統(tǒng)布局中國大模型研究，到現(xiàn)在已構(gòu)建起一套圍繞大模型的科研體系，目前最主力的大模型研究者多為“智源系”出身，可以說智源研究院是中國大模型研究的啟蒙先行者。

不僅如此，智源研究院還是大模型產(chǎn)業(yè)生態(tài)推動(dòng)者。通過開源開放，拉動(dòng)人工智能領(lǐng)域的協(xié)同創(chuàng)新，是智源一直的心愿。

今年年初正式發(fā)布的FlagOpen飛智大模型技術(shù)開源體系，開啟了大模型時(shí)代“新Linux”生態(tài)建設(shè)。

FlagOpen（飛智）大模型技術(shù)開源體系是由智源研究院與多家企業(yè)、高校和科研機(jī)構(gòu)共建的一站式、高質(zhì)量的大模型開源開放軟件體系，包括大模型算法、模型、數(shù)據(jù)、工具、評(píng)測等重要組成部分，旨在建設(shè)大模型領(lǐng)域的“新Linux”。

讓國內(nèi)外開發(fā)者可以快速開啟各種大模型的嘗試、開發(fā)和研究工作，企業(yè)可以低門檻進(jìn)行大模型研發(fā)。

另外，大模型研究并不是智源研究院的全部，而是大模型、生命智能、AI for Science三大路線都一直在布局。

但為什么是大模型的進(jìn)展最快，取得了階段性突破？黃鐵軍院長也給出了他的看法：

主要是語言數(shù)據(jù)無論是論文、圖書還是代碼都非常豐富且質(zhì)量高，從海量數(shù)據(jù)中發(fā)現(xiàn)內(nèi)在蘊(yùn)含的規(guī)律正是大模型的優(yōu)勢。

而人腦可以看成脈沖神經(jīng)網(wǎng)絡(luò)，與今天的大模型有本質(zhì)區(qū)別，想要AI產(chǎn)生類似人腦的能力，光靠大模型一個(gè)方向是遠(yuǎn)遠(yuǎn)不夠的。

從基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)到信號(hào)加工機(jī)理的類腦智能是一個(gè)方向，讓智能體有物理身體與環(huán)境互動(dòng)的具身智能是另一個(gè)方向。

最后，智源還一直積極推動(dòng)搭建國際AI研究者交流與合作的舞臺(tái)。一大批前沿的研究者活躍在智源的各種生態(tài)活動(dòng)中。

日常有智源社區(qū)、連接國內(nèi)外青年AI學(xué)者的青源會(huì)等線上線下相結(jié)合的交流活動(dòng)。

一年一度的智源大會(huì)，更是面向?qū)I(yè)精英人群、關(guān)注度最高的AI行業(yè)大會(huì)。

從2019年首屆智源大會(huì)開始，每屆都不乏圖靈獎(jiǎng)得主和學(xué)術(shù)大咖、行業(yè)關(guān)鍵人物參與。

就拿深度學(xué)習(xí)三巨頭來說，Bengio在2021年智源大會(huì)主會(huì)場介紹的System2機(jī)器學(xué)習(xí)理論最新進(jìn)展，如今以“思維鏈”的形式應(yīng)用在了大模型提示工程領(lǐng)域。

今年智源大會(huì)同時(shí)請(qǐng)來了LeCun及Hinton，但其實(shí)背后還有一個(gè)小插曲。

第三屆時(shí)Hinton本來也打算參加，但就在大會(huì)前幾天，他突然發(fā)現(xiàn)準(zhǔn)備分享的新方法里出現(xiàn)bug，只能遺憾取消。

除三巨頭之外，還有多位圖靈獎(jiǎng)得主到過智源大會(huì)做客，包括貝葉斯網(wǎng)絡(luò)提出者Judea Pearl、RISC-V掌門人David Patterson，數(shù)據(jù)結(jié)構(gòu)大師John Hopcroft更是任智源學(xué)術(shù)顧問委員會(huì)委員。

此外也不乏重點(diǎn)領(lǐng)域頂尖專家，如LSTM之父Jürgen Schmidhuber、信息安全領(lǐng)域泰斗Adi Shamir、腦成像領(lǐng)域權(quán)威Karl Friston……

量子位讀者中有不少AI行業(yè)從業(yè)者和相關(guān)專業(yè)學(xué)生，說起智源大會(huì)的印象都是“良心活動(dòng)”以及“學(xué)術(shù)追星現(xiàn)場”。

為什么這么多專家學(xué)者都愿意到智源大會(huì)來做學(xué)術(shù)交流？

不同于商業(yè)活動(dòng)，在智源大會(huì)上不需要牽扯各種現(xiàn)實(shí)因素，只是每一個(gè)專家從專業(yè)角度進(jìn)行交流，更中立、純粹。

也不同于學(xué)術(shù)會(huì)議聚焦在一篇一篇的點(diǎn)狀論文上，參加智源大會(huì)可以從更宏觀、全局層面來一場頂級(jí)的觀點(diǎn)碰撞。

對(duì)此，黃鐵軍院長總結(jié)到：

這種形態(tài)的會(huì)議，對(duì)整個(gè)人工智能生態(tài)發(fā)展也可以起獨(dú)特的作用。

越純粹，越中立，越開放，越有利于大家更好的把握這樣的一個(gè)高速發(fā)展的時(shí)代。

今年的智源大會(huì)延續(xù)了之前的風(fēng)格，但又因?yàn)锳I發(fā)展到新的階段而受到全社會(huì)矚目。

議程設(shè)置上也聚焦大模型、多模態(tài)、生成模型，AI安全倫理問題和風(fēng)險(xiǎn)防范等最新話題展開。

同時(shí)也有自動(dòng)駕駛、生命科學(xué)等等專業(yè)細(xì)分領(lǐng)域等百場報(bào)告研討。

感興趣的朋友可以戳下方鏈接進(jìn)行參與：