北京智源大會是智源研究院主辦的“AI內行頂級盛會”,以“全球視野、思想碰撞、前沿引領”為特色,匯聚海內外研究者分享研究成果、探尋前沿知識、交流實踐經驗。2024北京智源大會邀請到了圖靈獎得主姚期智,OpenAI、Meta、DeepMind、斯坦福、UC Berkeley等國際明星機構與技術團隊代表,以及百度、零一萬物、百川智能、智譜AI、面壁智能等國內主流大模型公司CEO與CTO,匯聚了200余位人工智能頂尖學者和產業專家,圍繞人工智能關鍵技術路徑和應用場景展開精彩演講和尖峰對話。
開幕式由智源研究院理事長黃鐵軍主持。
智源研究院院長王仲遠做2024智源研究院進展報告,匯報智源研究院在語言、多模態、具身、生物計算大模型的前沿探索和研究進展以及大模型全棧開源技術基座的迭代升級與版圖布局。
王仲遠表示,現階段語言大模型的發展已經具備了通用人工智能非常核心的理解和推理能力,并且形成了一條以語言大模型為核心對齊和映射其他模態的技術路線,從而讓模型具備了初步的多模態理解和生成能力。但這并不是讓人工智能感知、理解物理世界的終極技術路線,而是應該采取統一模型的范式,實現多模態的輸入和輸出,讓模型具備原生的多模態擴展能力,向世界模型演進。未來,大模型將以數字智能體的形態與智能硬件融合,以具身智能的形態從數字世界進入物理世界,同時,大模型這一技術手段可為科學研究提供新的知識表達范式,加速人類對微觀物理世界規律的探索與研究突破,不斷趨近通用人工智能的終極目標。
智源大模型全家桶
一、智源語言大模型
全球首個低碳單體稠密萬億語言模型Tele-FLM-1T
針對大模型訓練算力消耗高的問題,智源研究院和中國電信人工智能研究院(TeleAI)基于模型生長和損失預測等關鍵技術,聯合研發并推出全球首個低碳單體稠密萬億語言模型 Tele-FLM-1T。該模型與百億級的52B版本,千億級的102B版本共同構成Tele-FLM系列模型。
Tele-FLM系列模型實現了低碳生長,僅以業界普通訓練方案9%的算力資源,基于112臺A800服務器,用4個月完成3個模型總計2.3Ttokens的訓練,成功訓練出萬億稠密模型Tele-FLM-1T。模型訓練全程做到了零調整零重試,算力能效高且模型收斂性和穩定性好。目前,TeleFLM系列模型已經全面開源了52B版本,核心技術(生長技術、最優超參預測)、訓練細節(loss曲線、最優超參、數據配比和Grad Norm等)均開源,期望技術開源可以對大模型社區產生有益促進。Tele-FLM-1T版本即將開源,希望可以為社區訓練萬億稠密模型提供一個優秀的初始參數,避免萬億模型訓練收斂難等問題。
Tele-FLM-52B 版本開源地址
https://huggingface.co/CofeAI/Tele-FLM
Tele-FLM-Chat 試用(純模型單輪對話版)地址
https://modelscope.cn/studios/FLM/ChatFLM
在基礎模型的性能方面:BPB 顯示,英文能力上,Tele-FLM-52B接近Llama3-70B,優于 Llama2-70B和Llama3-8B;中文能力上,Tele-FLM-52B 為開源最強,優于 Llama3-70B 和 Qwen1.5-72B。在對話模型性能方面:AlignBench評測顯示,Tele-FLM-Chat(52B)已經達到GPT-4 中文語言能力的96%,總體能力達到GPT-4 的80%。
通用語言向量模型BGE系列
針對大模型幻覺等問題,智源研究院自主研發了通用語義向量模型BGE(BAAI General Embedding)系列,基于檢索增強RAG技術,實現數據之間精準的語義匹配,支持大模型調用外部知識的調用。自2023年8月起,BGE模型系列先后進行了三次迭代,分別在中英文檢索、多語言檢索、精細化檢索三個任務中取得了業內最佳的表現,綜合能力顯著優于OpenAI、Google、Microsoft、Cohere等機構的同類模型。目前,BGE模型系列下載總量位列國產AI模型首位,并被HuggingFace、Langchain、Llama Index等國際主流AI開發框架以及騰訊、華為、阿里、字節、微軟、亞馬遜等主要云服務提供商集成,對外提供商業化服務。
二、智源多模態大模型
原生多模態世界模型Emu 3
行業現有的多模態大模型多為對于不同任務而訓練的專用模型,例如Stable Diffusion之于文生圖,Sora之于文生視頻,GPT-4V之于圖生文。每類模型都有對應的架構和方法,例如對于視頻生成,行業普遍參照Sora選擇了DiT架構。但是現有模型的能力多為單一分散的能力組合,而不是原生的統一能力,例如目前Sora還做不到圖像和視頻的理解。
為了實現多模態、統一、端到端的下一代大模型,智源研究院推出了Emu3原生多模態世界模型。Emu3采用智源自研的多模態自回歸技術路徑,在圖像、視頻、文字上聯合訓練,使模型具備原生多模態能力,實現了圖像、視頻、文字的統一輸入和輸出。Emu3從模型訓練開始就是為統一的多模態生成和理解而設計的,目前具備生成高質量圖片和視頻、續寫視頻、理解物理世界等多模態能力。簡單來說,Emu3既統一了視頻、圖像、文字,也統一了生成和理解。值得注意的是,Emu3在持續訓練中,經過安全評估之后將逐步開源。
輕量級圖文多模態模型系列Bunny-3B/4B/8B
為適應智能端側的應用,智源研究院推出了輕量級圖文多模態模型系列 Bunny-3B/4B/8B,該模型系列采用靈活架構,可支持多種視覺編碼器和語言基座模型。多個榜單的綜合結果表明,Bunny-8B 的多模態能力可達到 GPT-4o 性能的 87%。目前,Bunny 模型參數、訓練代碼、訓練數據已全部開源。
開源地址:
https://github.com/BAAI-DCAI/Bunny
三、智源具身大模型
智源研究院具身智能創新中心在機器人泛化動作執行和智能大小腦決策控制等方面取得了多項世界級突破性成果。
全球領先真機實驗成功率突破95% 的泛化抓取技術ASGrasp
在具身智能通用抓取能力方面,針對跨任意形狀和材質的泛化難題,智源率先突破95%的真機實驗成功率,從而實現了全球領先的商業級動作執行水平。借助這項技術,即使在復雜光線透射、反射的情況下,我們的機器人依然能夠準確感知包括透明、高反光物體的形狀和姿態,并預測出高成功率的抓取位姿。
分級具身大模型系統之能反思、可隨機應變的鉸接物體操作大模型系統SAGE
在分級具身大模型系統方面,智源研發了能夠從失敗中重思考、再嘗試的鉸接物體操作大模型系統SAGE。該系統有效結合了三維視覺小模型對空間幾何的精確感知能力和通用圖文大模型的通用物體操作知識,使大模型驅動的機器人能夠在任務執行失敗時能夠重新思考并再次嘗試新的交互方式,實現了傳統機器人技術無法企及的智能性和魯棒性。
分級具身大模型系統之全球首個開放指令六自由度拿取放置大模型系統Open6DOR
在分級具身大模型系統方面,智源還研發了全球首個能做到開放指令控制六自由度物體拿取放置的大模型系統Open6DOR。該系統不僅像谷歌RT系列大模型一樣按照自然語言指令中的要求將物體放到指定位置,還能夠進一步對物體的姿態進行精細化控制。該項技術極大地提高了具身操作大模型的商業應用范圍和價值。
全球首個端到端基于視頻的多模態具身導航大模型NaVid
在面向技術終局的端到端具身大模型層面,智源發布了全球首個端到端基于視頻的多模態具身導航大模型NaVid。該模型可直接將機器人視角的視頻和用戶的自然語言指令作為輸入,端到端輸出機器人的移動控制信號。不同于以往的機器人導航技術,NaVid無需建圖,也不依賴于深度信息和里程計信息等其它傳感器信號,而是完全依靠機器人攝像頭采集的單視角RGB視頻流,并在只利用合成導航數據進行訓練的情況下,通過Sim2Real的方式,實現在真實世界室內場景甚至是室外場景的zero-shot真機泛化,是一項勇敢而成功的前沿技術探索工作。
智能心臟超聲機器人
智源研究院聯合領視智遠研發了全球首個智能心臟超聲機器人,實現了全球首例真人身上的自主心臟超聲掃查,可解決心臟B超醫生緊缺,診斷準確率不高,標準化欠缺,效率低的難題?;诔曈跋窈蜋C械臂的受力信息,智能心臟超聲機器人可在高速動態環境下,快速計算,提取心臟特征,實現了相當于自動駕駛L2、 L3 級的智能化水平。臨床驗證結果顯示,準確性上,智能心臟超聲機器人能和高年資醫生保持一致;穩定性上,智能心臟超聲機器人更高;舒適性上,智能超聲機器人的力度可以控制在 4 牛以內,更舒適;效率上,智能超聲機器人實驗機可與人類醫生持平。
通用計算機控制框架Cradle
為實現通用計算機控制,智源研究院提出了通用計算機控制框架Cradle,讓智能體像人一樣看屏幕,通過鼠標、鍵盤完成計算機上的所有任務。Cradle 由信息收集、自我反思、任務推斷、技能管理、行動計劃以及記憶模塊等 6 個模塊組成,可進行 “反思過去,總結現在,規劃未來”的強大決策推理。不同于業界其他方法,Cradle不依賴任何內部API實現了通用性。目前,智源研究院與昆侖萬維研究院等單位合作,在荒野大鏢客、星露谷物語、城市天際線、當鋪人生4款游戲,以及Chrome、Outlook、飛書、美圖秀秀以及剪映5種軟件上,對Cradle進行了驗證。智能體不僅可以根據提示自主學習玩游戲,還能對圖片、視頻進行有想象力的編輯。
未來,智源將依托多模態大模型技術優勢資源,聯合北大、清華、中科院等高校院所,銀河通用、加速進化等產業鏈上下游企業,建設具身智能創新平臺,重點開展數據、模型、場景驗證等研究,打造具身智能創新生態。
四、智源生物計算大模型
全原子生物分子模型OpenComplex 2
此外,智源研究院,還探索了生成式人工智能應用于分子生物學中的應用。智源研究院研發的全原子生物分子模型OpenComplex 2,是世界領先的大分子結構預測模型,能有效預測蛋白質、RNA、DNA、糖類、小分子等復合物。在生物分子結構預測領域國際競賽CAMEO(Continous Automated Model EvaluatiOn)中,OpenComplex 連續2年穩居賽道第一,并獲得了CASP(Critical Assessment of Techniques for Protein Structure Prediction)15的RNA自動化賽道預測冠軍。
OpenComplex 2 是基于全原子建模的生命分子基礎模型,科研人員發現不僅可以預測大分子的穩定結構,還初步具備預測分子多構型以及折疊過程的能力?;谶@樣的能力,生命科學家可以進一步探索蛋白質的生物學功能。目前,智源已和研究伙伴在多項重要疾病上展開了研究,提供成藥性和分子機理研究。未來,基于OpenComplex的能力,我們有望能夠開啟生命科學研究的新紀元,為進一步揭示如HIV病毒、神經元等復雜生命機理提供新的可能。
全球首個實時孿生心臟計算模型
智源研究院構建了全球首個實時孿生心臟計算模型,可實現高精度的前提下生物時間/仿真時間比小于1,位于國際領先水平。
實時心臟計算模型是虛擬心臟科學研究的開端,是孿生心臟走向臨床應用的基礎?;谶@一模型,智源將創新性地采用物理-數據雙驅動模型,融合第一性原理和人工智能方法,從亞細胞級、細胞級、器官級、軀干級仿真出一個“透明心臟”,且能根據患者的臨床數據,構建出反映患者的個性化生理病理的孿生心臟,從而進行藥物篩選、治療方案優化、術前規劃等臨床應用。
目前,智源與北醫一院共同成立了“北京大學第一醫院-北京智源人工智能研究院心臟AI 聯合研究中心”,正在開展基于超聲影像的急性心肌梗死診斷、心衰的病理仿真、腎動脈造影等課題,與安貞醫院合作進行室速疾病的無創心外膜標測技術的前沿研究,與斯高電生理研究院開展藥物篩選平臺的開發與應用以及與清華長庚醫院和朝陽醫院合作開展肥厚性心肌病課題。
智源研究院作為創新性研究機構,引領人工智能前沿技術的發展,也發揮第三方中立、非營利機構的優勢,搭建公共技術基座,解決當前產業的痛點。
FlagOpen大模型開源技術基座2.0,模型、數據、算法、評測、系統五大版圖布局升級
為幫助全球開發者一站式啟動大模型開發和研究工作,智源研究院推出了面向異構芯片、支持多種框架的大模型全棧開源技術基座FlagOpen 2.0,在1.0的基礎上,進一步完善了模型、數據、算法、評測、系統五大版圖布局,旨在打造大模型時代的 Linux。
FlagOpen 2.0可支持多種芯片和多種深度學習框架。目前,開源模型全球總下載量超 4755 萬次,累計開源數據集 57 個,下載量近9萬次,開源項目代碼下載量超 51 萬次。
開源地址:
https://github.com/FlagOpen
一、支持異構算力集群的大模型“操作系統”FlagOS
為滿足不斷攀升的大模型訓練和推理計算需求,應對大規模AI系統和平臺面臨的集群內或集群間異構計算、高速互聯、彈性穩定的技術挑戰,智源研究院推出了面向大模型、支持多種異構算力的智算集群軟件棧 FlagOS。FlagOS融合了智源長期深耕的面向多元AI芯片的關鍵技術,包括異構算力智能調度管理平臺九鼎、支持多元AI異構算力的并行訓推框架FlagScale、支持多種AI芯片架構的高性能算子庫FlagAttention和FlagGems,集群診斷工具FlagDiagnose和AI芯片評測工具FlagPerf。FlagOS如同“操作系統”一樣,集異構算力管理、算力自動遷移、并行訓練優化、高性能算子于一體。向上支撐大模型訓練、推理、評測等重要任務,向下管理底層異構算力、高速網絡、分布式存儲。目前,FlagOS已支持了超過50個團隊的大模型研發,支持8種芯片,管理超過4600個AI加速卡,穩定運行20個月,SLA超過99.5%,幫助用戶實現高效穩定的集群管理、資源優化、大模型研發。FlagOS的推出將為中國新一代智算中心的建設提供助力,顯著提升智算集群的能力水平,加速大模型產業的發展。
二、首個千萬級高質量開源指令微調數據集 InfinityInstruct
高質量的指令數據是大模型性能的“養料”。智源研究院發布首個千萬級高質量開源指令微調數據集開源項目,首期發布經過驗證的300萬條中英文指令數據,近期將完成千萬條指令數據的開源。智源對現有開源數據進行領域分析,確保合理類型分布,對大規模數據進行質量篩選保留高價值數據,針對開源數據缺乏的領域和任務,進行數據增廣,并結合人工標注對數據質量進行控制,避免合成數據分布偏差。當前開源的300萬條指令數據集已經顯示出超越Mistral、Openhermes等的SFT數據能力。我們期待在提升到千萬級數據量級后,基座模型基于該指令微調數據集進行訓練,對話模型能力可達GPT-4 水平。
三、全球最大的開源中英文多行業數據集IndustryCorpus
為加速推進大模型技術的產業應用進程,智源研究院構建并開源了IndustryCorpus中英文多行業數據集,包含總計3.4TB預訓練數據集,其中中文1TB,英文2.4TB,覆蓋18類行業,分類準確率達到80%,未來計劃增加到30類。
智源通過構建多行業數據算子,訓練行業分類和質量過濾模型,實現高效的高質量預訓練數據處理流程,并提出了一套提升精調數據集問題復雜度、解答思維鏈和多輪問答質量篩選的方法,處理預訓練、SFT和RLHF數據。
為驗證行業數據集的性能表現,智源訓練了醫療行業示范模型,對比繼續預訓練前的模型,客觀性能總體提升了20%,而經過我們制作的醫療SFT數據集和DPO數據集的精調訓練,相對參考答案的主觀勝率達到82%,5分制多輪對話能力CMTMedQA評分達到4.45。
行業預訓練數據集:
https://data.baai.ac.cn/details/BAAI-IndustryCorpus
醫療示范模型地址:
https://huggingface.co/BAAI/AquilaMed-RL
醫療示范模型SFT數據集地址:
https://huggingface.co/datasets/BAAI/AquilaMed-Instruct
醫療示范模型DPO數據集地址:
https://huggingface.co/datasets/BAAI/AquilaMed-RL
四、支持多元AI異構算力的并行訓練框架FlagScale實現首次突破
FlagScale首次在異構集群上實現不同廠商跨節點RDMA直連和多種并行策略的高效混合訓練,成為業界首個在多元異構AI芯片上同時支持縱向和橫向擴展兩階段增長模式的訓練框架。
FlagScale支持語言及多模態模型的稠密及稀疏訓練,可實現1M長序列大規模穩定訓練和推理;支持基于國產算力的8x16B千億參數MoE語言大模型1024卡40天以上的穩定訓練,實現端到端的訓練、微調與推理部署;支持不同架構的多種芯片合池訓練,基于業界領先的異構并行策略,可達到85%以上的混合訓練性能上界,與同構芯片的模型訓練效果一致;適配8款國內外不同芯片,可在不同集群進行規模訓練驗證,實現Loss逐位與收斂曲線嚴格對齊。
五、面向大模型的開源Triton算子庫
為更好地支持多元AI芯片統一生態發展,智源研究院推出了面向大模型的開源Triton算子庫,包括首個通用算子庫FlagGems和大模型專用算子庫FlagAttention,可基于統一開源編程語言,大幅提升算子開發效率,同時,面向多元芯片共享算子庫。
目前主流語言和多模態模型需要的127個算子,通用算子庫FlagGems已覆蓋66個,預計2024年底實現全覆蓋。大模型專用算子庫FlagAttention,包含6種高頻使用的且緊跟算法前沿的最新Attention類算子,為用戶提供編程范例,可自定義算子。
應用了專為 pointwise 類別的算子設計的自動代碼生成技術,用戶只需通過簡潔的計算邏輯描述,即可自動生成高效的 Triton 代碼。該技術目前已經應用于31個pointwise類算子,占算子庫整體的47%。同時,基于運行時優化技術,算子運行速度提升70%,保障了算子高性能。
六、FlagEval大模型評估全面升級
打造丈量大模型能力高峰的“尺子”乃是充滿挑戰的科研難題。智源秉持科學、權威、公正、開放原則,不斷推動評估工具和方法的迭代優化。FlagEval大模型評估自2023年發布以來,已從主要面向語言模型擴展到視頻、語音、多模態模型,實現多領域全覆蓋,采用主觀客觀結合以及開卷閉卷綜合的考察方式,首次聯合權威教育部門開展大模型K12學科測驗,與中國傳媒大學合作共建文生視頻模型主觀評價體系。智源研究院已與全國10余家高校和機構合作共建評測方法與工具,探索基于AI的輔助評測模型 FlagJudge,打造面向大模型新能力的有挑戰的評測集,包括與北京大學共建的HalluDial幻覺評測集、與北師大共建的CMMU多模態評測集、多語言跨模態評測集MG18、復雜代碼評測集TACO以及長視頻理解評測MLVU等,其中與北京大學共建的HalluDial是目前全球規模最大的對話場景下的幻覺評測集,有18000多個輪次對話,和14萬多個回答。
智源研究院牽頭成立了IEEE大模型評測標準小組P3419,與hugging face社區合作發布多個榜單,并將先進的評測數據以及裁判模型與新加坡IMDA合作,共同貢獻到AI Verify Foundation,以促進在大模型評估方法和工具上的國際合作。
大模型先鋒集結共探AGI之路
2024北京智源大會開幕式上,OpenAI Sora及DALL·E團隊負責人Aditya Ramesh,紐約大學助理教授謝賽寧,就多模態模型的技術路徑以及未來演化方向進行了觀點碰撞。
在智源研究院理事長黃鐵軍主持的Fireside Chat中,零一萬物CEO李開復,中國工程院院士、清華大學智能產業研究院(AIR)院長張亞勤,分別分享了對通用人工智能技術發展的趨勢判斷。
百度CTO王海峰做“大模型為通用人工智能帶來曙光”的報告分享。
在通往AGI的尖峰對話中,智源研究院王仲遠,百川智能CEO王小川,智譜AI CEO張鵬,月之暗面CEO楊植麟,面壁智能CEO李大海針對大模型的技術路徑依賴與突破、開放生態與封閉研究、商業模式探索等熱點話題,展開深度討論。
未來,智源研究院將繼續堅持原始技術創新,做前沿方向的路線探索,廣泛鏈接學術生態,賦能產業發展。