12月11日面壁智能宣布公司完成新一輪數(shù)億元融資,本輪融資后,面壁智能將進(jìn)一步提速以端側(cè)AI為代表的高效大模型商業(yè)化布局,面壁智能CEO李大海表示,更高知識(shí)密度的小模型和端側(cè)智能,成為大模型發(fā)展的新階段。如今,因?yàn)槎藗?cè)智能發(fā)展的深刻影響,主流消費(fèi)電子和新興硬件正演變成一個(gè)個(gè)在不同場(chǎng)景、執(zhí)行特定任務(wù)的超級(jí)智能體,成為新一輪科技創(chuàng)業(yè)大風(fēng)口。
隨著AI PC和AI手機(jī)的推出以及Apple Intelligence等產(chǎn)品不斷改進(jìn),以及其他在小型語(yǔ)言模型上運(yùn)行的應(yīng)用程序正在形成,一部分AI查詢會(huì)在邊緣或設(shè)備上進(jìn)行處理,Barclays最新的一篇AI推理計(jì)算的未來發(fā)展趨勢(shì)報(bào)告指出,邊緣查詢從2024年總查詢的1%上升到2025年的10%。估計(jì)到2026年,將有15%的查詢?cè)诮K端設(shè)備上進(jìn)行,到2028年約為25%,一些專家估計(jì),未來端側(cè)AI的占比預(yù)計(jì)會(huì)增長(zhǎng)至50%。
隨著大模型能力持續(xù)增強(qiáng),應(yīng)用場(chǎng)景持續(xù)突破,大模型應(yīng)用架構(gòu)也逐漸清晰,其中在應(yīng)用層中agent成為業(yè)內(nèi)關(guān)注的焦點(diǎn),智能體是大模型能力的擴(kuò)展,彌補(bǔ)大模型在操作和執(zhí)行方面的不足,具備記憶、搜索、規(guī)劃、決策、執(zhí)行等能力。
Barclays的最新報(bào)告認(rèn)為,目前AI行業(yè)發(fā)展的處于Chatbot及Copilot時(shí)代,2025—2026年即將迎來agent時(shí)代。12月11日谷歌發(fā)布最新模型Gemini 2.0的同時(shí)推出了一系列agent,智能體正成為大模型的下一站。
端側(cè)大模型和智能體正成為AI的新階段,未來AI算力需求或?qū)⒂瓉硇伦兓?。Barclays的最新報(bào)告認(rèn)為推理計(jì)算將逐漸主導(dǎo)AI算力需求。隨著像GPT-5這樣的大型語(yǔ)言模型和新的AI基礎(chǔ)設(shè)施(如NVIDIA Blackwell GPU)的出現(xiàn),AI應(yīng)用,尤其是agent系統(tǒng),將迎來爆發(fā)式增長(zhǎng),消費(fèi)者和企業(yè)人工智能市場(chǎng)可能會(huì)真正開始騰飛。
報(bào)告預(yù)測(cè),隨著agent系統(tǒng)推出,很大一部分計(jì)算可能會(huì)轉(zhuǎn)移到對(duì)這些服務(wù)的推理上,約占推理市場(chǎng)的30%。隨著采用的增加,整體推理可能會(huì)超過訓(xùn)練計(jì)算,報(bào)告預(yù)測(cè),到2026年,如果消費(fèi)者AI采用率超過10億DAU,agent在企業(yè)任務(wù)滲透率超過5%,那么所需的總計(jì)算量約為1500億EFLOPs,其中推理計(jì)算將占近75%,訓(xùn)練計(jì)算占25%。
基于企業(yè)級(jí)agent的采用估計(jì),企業(yè)推理需求的計(jì)算量在2026年約為50億EFLOPs,隨著B200從明年開始安裝,H100應(yīng)該用于企業(yè)推理,報(bào)告估計(jì)只有未滿足的30億EFLOPs企業(yè)推理需求需要在2026年使用新芯片。
企業(yè)推理需求的計(jì)算量在2026年約為 50億EFLOPs
NVIDIA GPU目前占據(jù)推理市場(chǎng)約80%的份額,但到2028年這一比例將下降至約50%,主要原因是最大型的超大規(guī)模云服務(wù)商都在定制構(gòu)建定制ASIC(亞馬遜的Inferentia、Meta的MTIA、谷歌TPU v6、Grok和其他),報(bào)告預(yù)測(cè)ASIC芯片市場(chǎng)份額將持續(xù)增長(zhǎng),到2028年,這些ASIC可以處理高達(dá)40%的消費(fèi)者推理計(jì)算。
定制ASIC芯片上推理工作負(fù)載比例的增加,預(yù)計(jì)將進(jìn)一步降低每token的單位成本,推理單元成本(每百萬tokens)正以每18個(gè)月超過90%的速率持續(xù)下降。不過,報(bào)告指出,單位成本的降低并沒有導(dǎo)致產(chǎn)能過剩,而是帶來了更多的使用,刺激了更多AI產(chǎn)品的開發(fā)和應(yīng)用,從而增加了對(duì)算力的總需求。
定制ASIC芯片上推理工作負(fù)載比例的增加
此外,市場(chǎng)對(duì)算力相關(guān)資本支出的估計(jì)過低,Barclays的半導(dǎo)體研究團(tuán)隊(duì)預(yù)測(cè),到2026年,僅AI芯片相關(guān)的資本支出就需要近3000億美元,這比市場(chǎng)共識(shí)預(yù)測(cè)高出370%以上,如果將其他計(jì)算和數(shù)據(jù)中心資產(chǎn)的資本支出考慮在內(nèi),總資本支出可能高達(dá)7000億美元。
到 2026 年,僅 AI 芯片相關(guān)的資本支出就需要近 3000 億美元
端側(cè)大模型算力需求方面,報(bào)告認(rèn)為,雖然端側(cè)AI可以處理一部分AI查詢,但占比相對(duì)較小,由于設(shè)備的算力、內(nèi)存和功耗限制,大型語(yǔ)言模型難以在端側(cè)有效運(yùn)行,云端數(shù)據(jù)中心仍將是滿足AI算力需求的主力軍。
明年端側(cè)大模型和AI智能體將會(huì)迎來怎樣的發(fā)展,agent時(shí)代將如何重塑計(jì)算需求?11月19日,第十九屆中國(guó)IDC產(chǎn)業(yè)年度大典,中國(guó)工程院院士鄔賀銓將帶來《端側(cè)大模型與AI智能體》的主旨演講。大會(huì)聚焦“智算崛起”“賦能協(xié)同”“環(huán)球布局”“誰(shuí)主沉浮”“算力新十年”幾大議題模塊,歡迎掃描以下二維碼即可報(bào)名。
“多元重構(gòu) 算力躍遷” 第十九屆中國(guó)IDC產(chǎn)業(yè)年度大典 報(bào)名二維碼