<sub id="rff7b"><sub id="rff7b"></sub></sub>
    <meter id="rff7b"></meter>

          <form id="rff7b"></form>

          <noframes id="rff7b">
          <big id="rff7b"></big>

          <listing id="rff7b"></listing><big id="rff7b"></big>
          <big id="rff7b"><sub id="rff7b"></sub></big>
          <listing id="rff7b"></listing>

            登錄甲子光年
            其他登錄方式
            登錄即表示你已閱讀并同意
            《甲子光年用戶注冊協議隱私政策
            找回密碼
            獲取驗證碼
            注冊甲子光年
            獲取驗證碼
            注冊即表示你已閱讀并同意
            《甲子光年用戶注冊協議隱私政策
            綁定手機號
            獲取驗證碼
            登錄即表示你已閱讀并同意
            《甲子光年用戶注冊協議隱私政策
            完善資料
            登錄即表示你已閱讀并同意
            《甲子光年用戶注冊協議隱私政策
            微信登錄
            掃描二維碼 | 授權登錄甲子光年
            芯片戰爭新思路:用英偉達的方式,抗衡英偉達
            作者:王藝 2024-06-07


            作者|王藝

            編輯|王博


            6月6日,英偉達市值達到了3.01萬億美元,超過蘋果成為全球市值第二高的公司,僅次于微軟。


            而去年此時,英偉達的市值剛剛突破萬億美元,成為美國第七個,也是史上第九個躋身萬億市值俱樂部的科技公司。


            當年的曹阿瞞,如今已成為了曹丞相。


            “規模達3萬億美元的IT行業,即將打造的商品能夠直接服務于100萬億美元的其他行業。這個商品不再僅僅是信息存儲或數據處理工具,而是一個能為各個行業生成智能的工廠?!庇ミ_創始人兼CEO黃仁勛6月2日在Computex 2024(2024臺北國際電腦展)上發表主題演講時志得意滿。


            在生成式AI時代,英偉達的成功無需贅述。盡管臺下站滿了挑戰者,包括老對手英特爾、AMD,大廠華為、谷歌、微軟,以及國內獨角獸摩爾線程、寒武紀、壁仞科技等,不時還有英偉達的“裂縫”“破綻”等分析文章,挑戰者不可謂不強,分析也不是沒有道理,但英偉達的市值說明了一切。


            但是,這并不意味著其它芯片廠商就沒有機會,關鍵是要找到合適的方法。


            面對號稱擁有的八十萬大軍的曹操,江東群儒議論紛紛,甚至有人喊出:“曹操雖挾天子以令諸侯,猶是相國曹參之后。劉豫州雖云中山靖王苗裔,卻無可稽考,眼見只是織席販屨之夫耳,何足與曹操抗衡哉!”


            面對強勢的英偉達,國內妄自菲薄之聲也不少,就像當年的江東群儒一樣。


            但也有人在思考“破曹之策”。曹操此前贏得官渡之戰,來自烏巢的一場火。而赤壁之戰前,諸葛亮和周瑜寫在手心的默契也是“火”。


            用英偉達蠶食英特爾市場的方式,來與英偉達抗衡,就是芯片廠商欲燃起的“火”。


            1.改變CPU依賴

            上世紀80到90年代,是英特爾及其x86架構主導的年代。


            x86架構始于1978年,當時英特爾公司推出了16位微處理器8086。由于以“86”作為結尾,因此其架構被稱為x86。


            到了1997年,全球超過90%的個人電腦和數據中心都搭載了英特爾的CPU(中央處理器),計算機內部大部分的互聯協議、接口標準、芯片組和主板標準、內存標準、網絡標準等,都是由英特爾定義的。


            那個年代,還有不少公司也在開發CPU這種執行輸入計算機的命令的通用芯片。不過,上世紀90年代初,SunSoft公司有三位工程師(兩位工程師、一位合作工程師)被委派構建一種可以與CPU一起插入SunSoft工作站并可以在屏幕上渲染圖形的芯片。


            這款芯片被認為是英偉達GPU(圖形處理器)的前身,而這三個人是克里斯·馬拉科夫斯基(Chris Malachowsky)、柯蒂斯·普里姆(Curtis Priem)和黃仁勛。


            1993年,他們三個人共同創立了英偉達,他們并沒有選擇研發CPU直接與英特爾競爭,而是選擇入局基于圖形和視頻游戲的計算卡市場。


            盡管英偉達首款產品NV1賣得并不好,但是1997年其推出的128位3D處理器RIVA 128在四個月內出貨量突破100萬臺;1999年推出的GeForce 256更是成為了當時的爆款產品,圖形計算卡也因此有了一個新的名字——GPU。


            GeForce256的革命性突破在于T&L引擎(Transforming&Lighting,坐標轉化和光照計算)的加入,這使得顯卡能夠進行大量浮點運算,并將原本依賴CPU的3D計算剝離到顯卡上,從而釋放了大量CPU資源。這讓游戲運行更流暢的同時,也大幅提高了畫面的精細度。


            因此,GeForce256直接改變了業內的競爭格局,之前用“高端CPU”才能完成的工作,變成了用“常規CPU+GeForce256”就能完成,而且流暢度更好。


            這意味著,一部分用戶對CPU的依賴,逐漸轉到了對GPU的依賴。


            CPU和GPU是計算機中兩種不同類型的處理器,CPU設計用于執行廣泛的計算任務,特別是順序處理和復雜邏輯,擁有較少但功能強大的核心;而GPU則專為處理大量并行計算任務而設計,如圖形渲染和視頻處理,擁有大量但功能相對簡單的核心,使得GPU在處理多線程和數據密集型任務時更為高效。

            CPU和GPU的對比,圖片來源:英偉達

            英偉達最初設計GPU是為了給《光環》和《俠盜獵車手》等熱門的電子游戲快速渲染圖形,但在這個過程中,深度學習的研究人員意識到,GPU同樣擅長運行支撐神經網絡的數學?;谶@些芯片,神經網絡能夠在更短的時間內從更多的數據中進行學習。


            2006年,英偉達推出CUDA(Compute Unified Device Architecture,統一計算架構),極大地簡化了并行編程的復雜性,使得開發者能夠輕松地為裝有GPU的電腦編程,讓電腦不僅能夠處理圖形設計任務,還能夠進行高效的數據運算。實際上,這樣的電腦在性能上已經相當于一個超級計算機,成本卻大大降低,這使得高性能計算變得更加普及。


            2009年深秋,一位六十多歲的學者從加拿大多倫多來到美國西雅圖,由于腰椎間盤有傷,他幾乎無法彎腰或坐著,只能躺著或站著,但他還是堅持和當地微軟實驗室的同仁開啟了一個項目——利用之前的研究成果打造一個原型,訓練一個神經網絡來識別口語詞匯。


            這位學者就是多倫多大學計算機科學系教授杰弗里·辛頓(Geoffrey Hinton),在這個項目中,他們就使用了英偉達的GPU。在項目組里的人認為GPU是用來玩游戲的,而不是用來做人工智能研究的時候,辛頓當時直言,如果沒有一套完全不同的硬件,包括一塊價值一萬美元的GPU顯卡,這個項目就不會成功。

            杰弗里·辛頓,圖片來源:多倫多大學

            2012年10月,辛頓和他的兩名學生——亞歷克斯·克里哲夫斯基(Alex Krizhevsky)、伊利亞·蘇茨克維(Ilya Sutskever),在ImageNet圖像識別比賽上拿了冠軍,并且發表論文介紹了AlexNet架構,而他們訓練這種全新的深度卷積神經網絡架構僅用了兩塊英偉達GPU。


            AlexNet團隊參賽的時候發現,如果用CPU來訓練AlexNet需要幾個月的時間,于是他們嘗試了一下英偉達的GPU,沒想到用兩張GTX 580顯卡只花了一周的時間就完成了1400萬張圖片的訓練。這場比賽不僅加速了神經網絡研究的發展,更是讓GPU進入了更多AI研究者、工程師的視野——很快,互聯網公司和高校實驗室就開始向英偉達訂購GPU。


            英偉達自然也意識到了GPU對于AI加速計算的重要性,并開始著重布局專門用于AI訓練的GPU產品。2016年,黃仁勛向OpenAI捐贈了首臺DGX-1,并在上面寫到:To Elon & the OpenAI Team! To the future of computing and humanity. I present you the World's First DGX-1?。ㄖ掳B『蚈penAI團隊!致計算和人類的未來。我為你們呈上世界上首臺DGX-1?。?/span>

            黃仁勛向OpenAI捐贈DGX-1,圖片來源:馬斯克社交媒體賬號

            六年后,OpenAI的ChatGPT掀起大模型浪潮,開啟了對算力的新一輪緊迫需求;后面的故事大家都知道了——英偉達的GPU和數據中心迎超強勁爆發,一年內利潤暴漲8倍,一卡難求。


            而英特爾,逐漸被英偉達甩開了。


            根據Counterpoint的數據,2022年Q4英特爾的數據中心還有46.4%的市場份額,但是由于在AI芯片領域的競爭力不足,2023年Q3其市場份額降至19.1%;而英偉達數據中心的市場份額則一路走高,從2022年Q4的36.5%增長到2023年Q3的72.8%。

            英偉達、AMD、英特爾的數據中心市場份額變化,圖片來源:Finbold

            如今,英偉達是AI領域繞不過去的名字。四年前,當27歲的英偉達市值首次超過英特爾時,這被看作“一個時代的終結”。而到了今年6月6日,當英偉達市值達到3.01萬億美元時,其市值已是英特爾的23倍。

            英偉達和英特爾市值對比(圖表數據截至2024年1月),圖片來源:EEAGLI

            英偉達超越英特爾并不是研發出了比英特爾更強的CPU,也不是強行新建生態,而是先融入到英特爾的生態中,再利用其獨特優勢,瞄準GPU進行單點突破,讓用戶逐漸減少對CPU的依賴,轉而加強對GPU的依賴,最終建立自己的生態。


            最終的結果是,由于需求的減少,CPU的迭代速度變慢,而GPU的迭代速度在加快。


            去年,英偉達發文宣布了“黃氏定律(Huang's Law)”,該定律預測GPU將推動AI性能實現逐年翻倍。與摩爾定律關注于晶體管數量的翻倍不同,黃氏定律著重于GPU在AI處理能力方面的增長。在過去十年中,英偉達GPU的人工智能處理能力增長了1000倍。

            單芯片推理性能變化,圖片來源:英偉達

            黃仁勛在Computex 2024的主題演講中特意曬出了CPU和GPU的對比圖,并表示,CPU性能的擴展速度無法再跟上數據持續呈指數級增長的速度,但還有一個更好的辦法就是加速計算。


            “CUDA增強了(原本由)CPU(提供的計算能力),卸載的同時加速了更適合由專用處理器處理的工作負載。事實上,性能提升十分顯著,隨著CPU擴展速度減慢并最終基本停止,答案顯而易見,加速計算才是解決之道?!秉S仁勛說。

            黃仁勛在Computex 2024的主題演講,圖片來源:英偉達

            如果要用一個詞總結英偉達的打法,那就是“異構”。


            英偉達所做的“異構”,就是把算力的提供方從CPU,變成CPU+GPU。這種創新架構帶來的性能提升是驚人的,加速100倍,而功率僅增加約3倍,成本僅上升約50%?!拔覀冊赑C行業早已實踐了這種策略。在數據中心,我們也采用了同樣的方法?!秉S仁勛說。


            英偉達在今年GTC推出的GB200超級芯片就是由兩張B200 Blackwell GPU和一張Grace CPU組成。這種組合提供了強大的推理能力,特別是在處理大語言模型時,推理性能比H100提升了30倍,成本和能耗降至原來的1/25。

            GB200超級芯片,圖片來源:英偉達

            英偉達超越英特爾,不是一個新的CPU的故事,也不是GPU取代了CPU的故事,而是CPU+GPU異構的硬件形態逐漸地取代了CPU集群的故事。


            英偉達的打法,對如今的AI芯片公司有很大的借鑒意義——跟巨頭競爭,可以不走“替代”的邏輯,而是進行“配比”的藝術,在原有的游戲規則下把單點拉滿,拉到原有霸主追不上,進而擴展自己的生態位。


            那么,新的單點是什么呢?


            2.尋找新的單點

            現在算力行業的痛點是,英偉達的芯片太貴、供不應求,對于國內用戶來說,還要加上高性能芯片無法通過合法渠道買到這一條。


            盡管其它芯片廠家也在追趕英偉達,推出各種AI芯片。但是,某芯片廠商大模型專家陳風(化名)告訴「甲子光年」,想要提升算力,必須在軟件和硬件兩方面同步發力,而英偉達的CUDA和其硬件的適配體系做得太好,以至于在算力利用率上,其他廠商很難望其項背。


            “就以AMD為例,單卡算力是383TFLOPs,已經比英偉達的某些卡要高了,但是算力的利用率就是比英偉達低,為什么呢?因為軟件沒有辦法充分發揮硬件的性能。大家都能做7納米又如何?你即使是用7納米的芯片,算力利用率也做不過英偉達320TFLOPs的GPU?!标愶L說。

            AMD與英偉達算力對比,圖片來源:財通證券

            不過英偉達的這種算力集群,也是規模不經濟的。如今,大模型巨大的邊際成本也已經成為其商業化最大的障礙。紅杉資本透露,AI行業去年僅在英偉達芯片上就花費了500億美元,但產出的營收只有30億美元,投入產出比為17:1。


            有芯片廠商意識到,英偉達的好和貴,是把自家單卡產品疊疊羅漢、加上NVLink、NVSwitch和Infiniband等互聯技術和CUDA平臺,構成一個封閉的體系實現的。如果參考英偉達超越英特爾的方式,不跟英偉達硬拼“CPU+GPU”,而是去找一個新單點,用“CPU+GPU+新單點”的體系,慢慢侵蝕掉英偉達封閉昂貴的舊體系,是不是就能把價格打下來,同時解構掉英偉達原來的優勢地位了呢?


            那么,這個新單點是什么呢?


            把目光放到需求端,一切似乎都有了答案。


            目前,以GPT為代表的大模型主要是Transformer架構,這一架構的特點就是相當吃顯存。


            這不只是因為Transformer模型通常包含大量的權重參數,更是因為自回歸算法讓Transformer模型在處理序列數據時,每增加一個輸入序列的長度,就需要更多的顯存來存儲該序列的嵌入向量、鍵(key)、查詢(query)和值(value)向量,以及中間計算的隱藏狀態,特別是自注意力機制的計算復雜度還與序列長度的平方成正比;同時,Transformer每層都會產生大量的激活張量,這些張量在反向傳播期間用于計算梯度,也需要暫存在顯存中……種種因素,導致隨著輸入序列長度的增長,顯存占用迅速上升。


            針對大模型推理這類訪存密集型的任務,顯存及其帶寬會明顯限制其對算力的利用,因此在考慮算力需求的時候,似乎也不能單單考慮FLOPs的需求,顯存容量及帶寬同樣重要。


            在大模型的游戲規則下,顯存容量、顯存帶寬以及互聯帶寬變成了最核心的競爭力,而算力的重要性和優先級則在默默向后排。


            做一張“顯存指標很高的新型計算卡”就是新的單點,這就給其它芯片廠商提供了一個和英偉達競爭的新思路——向著顯存,全速前進。


            3.大膽假設,小心求證

            季宇就是這么想的,作為英偉達的粉絲,他希望用英偉達的方式超越英偉達,也因此將目光聚焦在了大模型對顯存的需求上。


            季宇畢業于清華大學計算機系,博士期間一直專注于神經網絡加速器、編譯器和面向系統優化的機器學習的研究,畢業后作為華為“天才少年”在海思從事昇騰編譯器架構師相關工作。2023年8月,他創立了行云集成電路,主要致力于研發下一代針對大模型場景的AI加速計算芯片。


            具體來說,行云集成電路希望做一張“顯存指標很高的新型計算卡”,通過”CPU+GPU+新型計算卡”的組合,去應對大模型推理時訪存密集的各種任務,進而把“顯存”這一單點拉滿,成為與英偉達體系相抗衡的存在。


            “大模型有巨大的顯存需求是業界的共識。在英偉達也在不斷提升GPU的顯存規格來滿足市場需求,但我們希望用兩張卡,也就是一張算力密集的卡、一張訪存密集的卡來解決這個問題。兩張卡的方案里面,算力密集的那張卡甚至可以是英偉達的GPU?!奔居钫f。


            季宇也特別在意“異構”,“不過我講的‘異構’是類似過去CPU和GPU這種不同產品生態位的異構,今天算力行業說得很多的‘異構’是指同一個芯片生態位下不同芯片的異構,比如不同的AI芯片”。行云集成電路的定位是一家芯片廠商,而非算力運營商,“我們是賣卡,英偉達和服務器廠商什么關系,我們就和服務器廠商什么關系”。


            對于生態,季宇認為任何繁榮的產業都需要一個開放的生態體系,也就是一個“白盒”,大模型產業也不例外。但英偉達是一個封閉的體系,把算力、內存、互聯等各項標準都做得很強,導致自己的黑盒體系越來越有競爭力、也越來越封閉。


            “今天有太多公司為了跟英偉達的這套體系競爭,既要做單卡、又要做互聯、服務器、網絡,自建和英偉達對標的私有體系投入巨大,也極其困難,如果能給業界塑造一個可擴展的白盒體系,讓體系內的參與者在每個維度與英偉達充分競爭,把英偉達的這套私有體系的力量打散,或許能有與英偉達體系博弈的機會?!奔居罡嬖V「甲子光年」,“當然英偉達也可以在每個維度做到非常領先,只是它的溢價一定會被越來越強的同行給稀釋罷了?!?/span>


            不過季宇也坦言,目前產品還沒出來,一些假設也有待論證。目前最重要的是吸引更多志同道合的人才、合作伙伴,踏實做好研發工作。


            長期關注半導體行業的新鼎資本合伙人劉霞認為,這種新的AI芯片競爭思路可以更好地滿足不同的應用需求,在某些特定的場景下會產生更好的效果和性價比?!?strong>這種方案的確很有啟發性,但是也有困難和風險,涉及到各個廠商之間的高度的協作和協調,也涉及到技術指標、利潤分配等各種復雜的問題,需要在研發過程當中,不斷的適配新場景,不斷的探索和優化?!眲⑾颊f。


            魯民投上海投資總監楊浩也表示,這種聯合全行業做白盒生態的思路非常新穎,“現在大家都想挑戰英偉達,但是確實生態跟不上,國內只有少部分公司在做。如果能通過新型產品打開突破口,建立一個新的生態的話,前景確實值得期待?!?/span>


            然而,在國內某芯片初創公司工程師劉永(化名)看來,行云集成電路提出的新思路,還有待討論。


            “目前主流擴顯存的方式是在一張卡里把GPU和HBM的配比做到均衡,然后利用片間互連的方式,將多張這樣的卡相連接,共同為大模型提供服務。這種方式能夠實現顯存的擴展,也可以充分利用其他卡的算力資源,實現并行計算,同時高效的數據交換和同步?!眲⒂勒f。


            劉永認為,行云集成電路的確提出了一種新穎的設計方式,可以顯著擴展可用顯存容量,從而能夠處理更大規模的模型和數據集,超越單卡顯存容量的限制,在大顯存卡上可能會顛覆現有的存儲層次結構(多級cache+HBM的方案),設計可能會更簡單,也有更多面積可以用到HBM上,成本更低、容量更大。

            GPU緩存機制,圖片來源:ZOMI醬

            劉永提到的HBM(High Bandwidth Memory,高帶寬內存)是一種先進的存儲技術,專為需要大量數據吞吐量的應用場景設計,非常適合用于AI加速計算,HBM也是制約單芯片能力的最大瓶頸之一。


            HBM將多個DRAM芯片通過硅中介層(interposer)堆疊在一起,并直接連接到GPU或其他處理器,而不是像傳統內存那樣通過主板上的內存插槽連接。由于每個DRAM層都能夠通過短路徑直接與處理器通信,減少了數據傳輸的延遲,因此HBM的這種三維堆疊結構極大提高了顯存容量和能力。


            但HBM技術涉及到先進封裝工藝,也是國內被外部限制的領域,想靠HBM擴大顯存,阻力重重。


            “HBM的成本幾乎占據了一張芯片成本的50%,而且現在國內能做HBM的企業不多,只有長鑫存儲,但是長鑫存儲的工藝較之臺積電、日月光還是落后一點。HBM3E(最新一代HBM)還在流片過程中且質量不穩定,而英偉達Blackwell架構的GPU B100已經用上HBM3E了?!睍N騰大模型訓練專家、B站AI科普視頻UP主ZOMI醬告訴「甲子光年」。


            由此看來,大模型和GPU是明戰,HBM則是暗戰。


            甲子光年智庫認為,AI生產時代,算力是生產力的壓艙石。這里面最大的命題是,要解決算力供需結構的矛盾。整個“算力江湖”的構成是極其復雜和多元的,并不存在一個能夠統領全局的“鐵王座”。


            雖說技術對芯片至關重要,但芯片更需要的是市場。


            英偉達用一種方式超越了英特爾,誰能說不會出現新的挑戰者,用英偉達的方式與英偉達抗衡呢?


            “東風不與周郎便,銅雀春深鎖二喬?!痹谛酒摹皯馉帯敝?,不少芯片廠商如同江東的將士們一樣,已經做好了準備,“只待風來”。


            *應受訪者要求,陳風、劉永為化名。

            *參考資料:

            《芯片戰爭》,余盛

            《深度學習革命》,凱德·梅茨

            (封面圖來源:電影《赤壁》)



            • 35268
            • 0
            • 0
            • 0
            評論
            三级网站视频国产在线观看_自慰毛片无码地下_中码AV在线欧美老妇精品_淫秽录像一级a片在线免费看

              <sub id="rff7b"><sub id="rff7b"></sub></sub>
              <meter id="rff7b"></meter>

                    <form id="rff7b"></form>

                    <noframes id="rff7b">
                    <big id="rff7b"></big>

                    <listing id="rff7b"></listing><big id="rff7b"></big>
                    <big id="rff7b"><sub id="rff7b"></sub></big>
                    <listing id="rff7b"></listing>