編者薦語:
人們與DeepSeek的對話僅使用了它很少一部分功能,其實作為AI基座,可以發(fā)揮更大作用。一邊是人工智能基礎(chǔ)模型,一邊是現(xiàn)實的企業(yè)和個人需求,中間的Gap由誰彌補(bǔ),就是智川平臺。
以下文章來源于中國企業(yè)家雜志 ,作者趙東山
未來,我們可能需要構(gòu)建自己的統(tǒng)一計算框架,一旦能夠打造好,那國內(nèi)的GPU芯片生態(tài)建設(shè)必將向前邁出一大步。
采訪|何伊凡
文|《中國企業(yè)家》記者 趙東山
編輯|姚赟
頭圖攝影|鄧攀
臘月二十八那天,中科聞歌董事長王磊跟團(tuán)隊開會到凌晨2點,技術(shù)嗅覺敏感的他們一直在討論DeepSeek可能給自己及行業(yè)帶來的影響。
2025年春節(jié)前夕,DeepSeek AI智能助手同時沖上中美iOS免費應(yīng)用排行榜第一,因在技術(shù)優(yōu)化、成本壓縮以及開源模式上的優(yōu)勢,迅速在全球AI大模型圈引起沖擊波,迄今熱度不減。
“真正的變革是在此之后的AI技術(shù)快速普惠,以及行業(yè)、個人應(yīng)用層的加快變革、創(chuàng)新,未來18個月,我們將看到各行業(yè)AI滲透率迅速突破零界點?!鄙硖幮袠I(yè)中心的王磊給出了自己的思考。
春節(jié)過后,中科聞歌旗下智川X-Agent平臺也全面接入DeepSeek全系大模型,通過多種模型的支持,其客戶可快速構(gòu)建行業(yè)AI應(yīng)用,如AI搜索、翻譯、客服、報告生成等,降低技術(shù)門檻,縮短開發(fā)周期。
2017年,王磊離開中國科學(xué)院自動化研究所,創(chuàng)立中科聞歌。其核心創(chuàng)始團(tuán)隊除聯(lián)合創(chuàng)始人羅引博士等青年科學(xué)家外,還有海外歸國教授、IEEE Fellow、AAAS Fellow、中國科學(xué)院自動化研究所研究員曾大軍。曾大軍早年在美國卡內(nèi)基梅隆大學(xué)攻讀人工智能博士期間,導(dǎo)師便是智能體(Agent)理論的主要奠基者之一。
2018年,國家提出融媒體建設(shè),中科聞歌很快專注于AI+媒體領(lǐng)域。王磊回憶,“那年飛了174次,平均兩天一趟,甚至還在大雪紛飛的晚上困在內(nèi)蒙古呼和浩特到山西右玉縣高速路上?!彪S后的5年間,中科聞歌又將業(yè)務(wù)觸角拓展至金融、醫(yī)療、能源等領(lǐng)域。
2022年ChatGPT問世,王磊果斷決定自研雅意大模型。到2024年,中科聞歌收入已達(dá)數(shù)億級,其中超一半營收跟雅意直接相關(guān),80%以上收入源于雅意強(qiáng)大支撐,生態(tài)合作空間廣闊,交付項目周期顯著縮短,復(fù)雜項目從過去交付的6~9個月降低到現(xiàn)在的3個月左右。
過去兩年間,資本對大模型創(chuàng)業(yè)公司態(tài)度快速經(jīng)歷從技術(shù)信仰到務(wù)實落地的翻轉(zhuǎn)。DeepSeek引爆全球AI大模型圈之后,一切都變了。甚至金沙江創(chuàng)始合伙人朱嘯虎也從認(rèn)為“大模型六小虎的最佳命運是被大廠收購”,到如今的“今年最佳的投資主題是China AI”。
在王磊看來,機(jī)會來了。
過去7年間,中科聞歌既做了底層AI大模型和數(shù)據(jù)技術(shù),推出國產(chǎn)全自主知識產(chǎn)權(quán)雅意大模型、優(yōu)雅多模態(tài)視頻模型、決策智能操作系統(tǒng)DIOS,專注決策智能和大規(guī)模機(jī)器學(xué)習(xí)模型的研發(fā);同時,也更專注上層行業(yè)應(yīng)用。
2024年12月,美國AI數(shù)據(jù)分析公司Databricks獲得100億美元天價融資,超過OpenAI上次60億美元的融資紀(jì)錄,成為當(dāng)年規(guī)模最大的一筆風(fēng)險投資。王磊分析:“數(shù)據(jù)+AI市場前景廣闊,正是因為決策智能化時代的到來,使得Databricks這樣以數(shù)據(jù)為驅(qū)動、以創(chuàng)新AI基礎(chǔ)架構(gòu)為支撐、做大數(shù)據(jù)應(yīng)用落地的企業(yè)成為資本市場的寵兒。
”沉浸AI賽道多年的王磊對AI的判斷更為深刻,他表示:“AI是場馬拉松,企業(yè)級AI價值已來,這不是短期資本游戲,而是持續(xù)20年的智能革命,堅持最重要。”
攝影:鄧攀
以下是《中國企業(yè)家》對中科聞歌董事長王磊的訪談實錄(有刪減):
01.DeepSeek的震撼和啟發(fā)
《中國企業(yè)家》:在使用和研究DeepSeek時,受到怎樣的震撼?
王磊:可以總結(jié)為中文理解效果、技術(shù)創(chuàng)新性、成本降低、AI生態(tài)貢獻(xiàn)這4個方面。
DeepSeek不是橫空出世,R1之前就有很多版本,我們一直在關(guān)注。剛開始主要是覺得效果好,尤其中文能力突出,如果以前的AI中文水平是信和達(dá),現(xiàn)在有“雅”的感覺了。
后來看到他們的技術(shù)報告,發(fā)現(xiàn)技術(shù)有很大創(chuàng)新性,尤其DeepSeek-R1在后訓(xùn)練階段大規(guī)模使用低數(shù)據(jù)樣本的強(qiáng)化學(xué)習(xí),采用MoE+RL(混合專家模型結(jié)合強(qiáng)化學(xué)習(xí)),在僅有極少標(biāo)注數(shù)據(jù)的情況下極大提升模型推理能力。
來源:視覺中國
R1訓(xùn)練成本也是ChatGPT的1/10到1/20,成本大幅降低也讓人很欣喜。以往大家都覺得訓(xùn)練模型需要高成本、多芯片,花很多錢,成本下降會讓大家更想深入?yún)⑴c這件事。
此外,DeepSeek把技術(shù)論文等開源,還允許用R1做數(shù)據(jù)蒸餾訓(xùn)練自家模型,對生態(tài)方面的貢獻(xiàn)也非常大。原來我們老覺得中美AI之間還是有很大的距離,但DeepSeek的出現(xiàn)讓大家意識到只要敢于創(chuàng)新和突破,就能跟世界頂尖AI水平并肩。
我認(rèn)為,DeepSeek的火爆更將極大推動全球AI市場的應(yīng)用落地和產(chǎn)業(yè)化進(jìn)程,中國市場龐大,AI行業(yè)應(yīng)用企業(yè)迎來全面爆發(fā),我們甚至?xí)杏鲆慌愃苹ヂ?lián)網(wǎng)時代的AI平臺型和應(yīng)用型企業(yè)。
《中國企業(yè)家》:開源和閉源之爭也是此次行業(yè)爭論的關(guān)鍵問題,DeepSeek的火爆可以理解為是開源的勝利嗎?
王磊:開源和閉源的爭論,早在軟件時代就存在。雖然我看好開源,但仍然認(rèn)為在閉源領(lǐng)域率先突破也非常必要。
開源開放生態(tài)有助于生態(tài)創(chuàng)新和技術(shù)發(fā)展,但我們應(yīng)該充分理解閉源模型,他們在前面的探索中投入了大量資源、資本和努力,應(yīng)該鼓勵他們保護(hù)知識產(chǎn)權(quán)成果。當(dāng)他們保持技術(shù)優(yōu)勢后,先部分開源,再逐步全面開源,這也是一個行業(yè)螺旋上升的過程。
《中國企業(yè)家》:DeepSeek的訓(xùn)練成本引起了很多關(guān)于工程優(yōu)化創(chuàng)新的討論,很多人認(rèn)為他們繞過了英偉達(dá)的CUDA平臺,提升了節(jié)點間的通信效率,你怎么看?
王磊:CUDA(英偉達(dá)公司設(shè)計研發(fā)一種并行計算平臺和編程模型,包含了CUDA指令集架構(gòu)以及GPU內(nèi)部的并行計算引擎)是大模型訓(xùn)練中重要的算力工程管理平臺,在優(yōu)化使用與提升效率層面發(fā)揮關(guān)鍵作用。畢竟,當(dāng)幾千張甚至幾萬張卡并行運作時,如何充分利用每張卡運行性能,提高利用率、計算并行度,讓算子執(zhí)行效率更高效,一直是訓(xùn)練模型過程中需要考慮的問題。
這次媒體有一個誤解是把PTX(Parallel Thread Execution,一種底層硬件指令集,用于直接與GPU驅(qū)動函數(shù)進(jìn)行交互,實現(xiàn)更為精細(xì)的硬件操作)和CUDA分割開,其實PTX也是CUDA的組成部分,只是它更貼近硬件。CUDA本質(zhì)上是用于操作大規(guī)模GPU卡的操作系統(tǒng),而PTX處于更底層,下面還有一層是機(jī)器執(zhí)行語言,從DeepSeek論文中可以看到,靠近硬件層確實還可以做一些技術(shù)優(yōu)化,節(jié)省時間與成本。
未來,我們可能需要構(gòu)建自己的統(tǒng)一計算框架,一旦能夠打造好,那國內(nèi)的GPU芯片生態(tài)建設(shè)必將向前邁出一大步。當(dāng)然離不開AI開發(fā)公司和研發(fā)公司共同努力,這次DeepSeek在這方面的工作就激勵更多技術(shù)人員深入底層硬件開展相關(guān)工作。
《中國企業(yè)家》:你覺得為什么是DeepSeek做到了?
王磊:目前國內(nèi)能夠在大規(guī)模算力卡上進(jìn)行訓(xùn)練的隊伍并不多,除了有這樣的環(huán)境,還需要有優(yōu)秀的、合理的人才隊伍,各個層次的人才都要具備。DeepSeek得益于有很好的硬件訓(xùn)練環(huán)境、人才齊備等相關(guān)條件,他們的創(chuàng)新也會激勵更多有實力的企業(yè)投入AI研發(fā)。
《中國企業(yè)家》:目前業(yè)內(nèi)認(rèn)為它的創(chuàng)新之處,除了降低成本,還在于不需要有監(jiān)督的微調(diào),你認(rèn)同這一說法嗎?
王磊:既認(rèn)同,也有不同觀點。我認(rèn)同它從V3到R1的訓(xùn)練過程中,主要創(chuàng)新亮點是通過少量冷啟動數(shù)據(jù)提供樣本,基于強(qiáng)化學(xué)習(xí)框架,通過評價機(jī)制提升模型能力,進(jìn)而達(dá)成目標(biāo),而不是依賴于過去大量提交標(biāo)注和提示詞的模板。這在強(qiáng)化學(xué)習(xí)提升模型能力方面,確實另辟蹊徑。
但在實際產(chǎn)業(yè)落地層面,有兩個關(guān)鍵邊界,其一,當(dāng)涉及醫(yī)療診斷、復(fù)雜科學(xué)問題解決等場景時,高質(zhì)量訓(xùn)練語料進(jìn)行微調(diào)依然是非常經(jīng)典、可靠的實現(xiàn)路徑;其二,雖然R1在文本生成、中文方面表現(xiàn)出色,但在專業(yè)領(lǐng)域的深度推理能力仍有很大提升空間。像聞歌這樣既具有高價值行業(yè)數(shù)據(jù),又能夠進(jìn)一步從底層優(yōu)化模型能力的團(tuán)隊,將越來越不可或缺。
《中國企業(yè)家》:他們采用的MoE+RL的方式,是重要創(chuàng)新之處嗎?
王磊:MoE(Mixture of Experts,混合專家模型)是一個經(jīng)典路線,我們提出問題之后,它可以自動路由到局部專家模型,專家模型在訓(xùn)練時可以分而訓(xùn)之,回答時不需激活全局參數(shù)作答,這大大降低算力消耗。
DeepSeek也存在一些其他大模型共性的不足,比如推理過程不夠簡潔,幻覺和安全性問題依然很大程度上存在,基礎(chǔ)常識和復(fù)雜問題準(zhǔn)確性不一致等,這都亟待解決。
《中國企業(yè)家》:因為這一次DeepSeek沒有公布預(yù)訓(xùn)練的語料,經(jīng)過個人使用,你感覺它的預(yù)訓(xùn)練過程有什么特點?
王磊:DeepSeek預(yù)訓(xùn)練的Token規(guī)模相當(dāng)大,達(dá)到14.8萬億,這也充分說明在預(yù)訓(xùn)練階段,Scaling Law(規(guī)?;▌t,也稱尺度定律)還是非常有意義的,語料的收集整理以及高質(zhì)量語料還是起著關(guān)鍵作用。當(dāng)然也十分期待未來在預(yù)訓(xùn)練階段,僅通過少量語料輸入就能實現(xiàn)良好模型效果。
《中國企業(yè)家》:最近朱嘯虎態(tài)度180度大轉(zhuǎn)彎,表示他都快相信AGI了。你覺得AGI到底還有多遠(yuǎn)?你理解的AGI是怎樣的?
王磊:諾貝爾獎獲得者、AlphaFold創(chuàng)始人哈薩比斯認(rèn)為,現(xiàn)在離AGI至少還需要2~3個Transformer量級的成果。當(dāng)AI大模型既能理解高深復(fù)雜的問題,又在常識性問題上表現(xiàn)出色,對簡單和復(fù)雜問題達(dá)到精準(zhǔn)理解和高質(zhì)量作答的一致性;同時,這些AI工具還必須能夠極大推動行業(yè)研究、工業(yè)生產(chǎn)及日常生活的進(jìn)步,這是AGI的基礎(chǔ)。
我很認(rèn)同他的觀點,我不認(rèn)為AI會取代人類,AGI狀態(tài)應(yīng)該是人機(jī)共融,就像我們公司的名字“聞歌”,聞弦歌知雅意,高山流水、人機(jī)共融,技術(shù)與人類社會發(fā)展和諧共生時才是我期待看到的AGI時代。
《中國企業(yè)家》:所以觀念對齊很重要。
王磊:是的,全球都很重視這塊。我作為實驗室副主任,與中國科學(xué)院自動化所的研究員曾毅,在北京市科委的支持下成立了人工智能安全與超級對齊北京市重點實驗室。目前我們太多關(guān)注AI的超級智能邊界和能力,而安全對齊是發(fā)展人工智能的必經(jīng)之路。我們實驗室就是致力于在人類價值觀和人機(jī)和諧共處方面實現(xiàn)進(jìn)一步的安全有序?qū)R。
02.DeepSeek給行業(yè)帶來哪些機(jī)會
《中國企業(yè)家》:我們看到智川全面接入DeepSeek,全面接入的含義是什么?
王磊:“智川”X-Agent是聞歌推出的面向全行業(yè)的一站式智能體開發(fā)平臺,內(nèi)置我們具有自主知識產(chǎn)權(quán)的雅意大模型,也支持按需接入國內(nèi)外先進(jìn)大模型,包括DeepSeek。
人們與DeepSeek的對話僅使用了它很少一部分功能,其實作為AI基座,可以發(fā)揮更大作用,例如定制服務(wù)、數(shù)據(jù)處理、報表分析等。一邊是人工智能基礎(chǔ)模型,一邊是現(xiàn)實的企業(yè)和個人需求,中間的Gap由誰彌補(bǔ),就是我們智川平臺。這些技術(shù)模型,在智川平臺,可按照自身業(yè)務(wù)定制數(shù)據(jù)和工具調(diào)用,最終實現(xiàn)企業(yè)級應(yīng)用。
我們認(rèn)為2025年是AI+Agent的元年,智川要做的就是如何基于這些基礎(chǔ)模型,解決企業(yè)接入到企業(yè)生產(chǎn)力提升的最后一公里,讓大模型普惠到更多人。
《中國企業(yè)家》:DeepSeek和OpenAI o3mini出現(xiàn)之后,你們在做哪些調(diào)整?
王磊:AI技術(shù)生態(tài)和產(chǎn)品生態(tài)很龐大,DeepSeek和OpenAI o3是基礎(chǔ)平臺,但如何支持領(lǐng)域開放問題或解決復(fù)雜任務(wù),仍有很多難點需要去攻克。舉個例子,如何基于大模型做數(shù)字人或者數(shù)字員工Agent應(yīng)用,尚有距離。
我們基礎(chǔ)模型已經(jīng)進(jìn)入全球主流榜單前十,而我們更關(guān)注用戶端和行業(yè)端的AI應(yīng)用需求,去年成功落地40多個行業(yè)級產(chǎn)品模型,幫助客戶提升生產(chǎn)效率。如何用新技術(shù)服務(wù)好客戶、解決真需求,是我們始終堅守的方向。
AI是場馬拉松,現(xiàn)在說不好誰是王者,堅持最重要。
《中國企業(yè)家》:AI公司分兩種情況,一種是冰面上的天鵝,引人注目;另一種是水面下的大魚,大魚也很兇猛,但在沒有躍出水面之前是關(guān)注不到的。作為中科聞歌的董事長,你如何看待這兩種公司選擇?
王磊:被關(guān)注有多個維度,媒體和大眾是一個維度,行業(yè)客戶則是另一個維度。我們一直非常堅定做難的事情,迎接最困難的挑戰(zhàn)。有了這個堅持,也讓我們成為為數(shù)不多從AI 1.0階段走到AI 2.0,再邁入AI 3.0的一家企業(yè)。
在AI 1.0的經(jīng)典人工智能時期,我的老師曾大軍早在1994年于美國卡內(nèi)基梅隆大學(xué),便開展非常前沿的人工智能研究,像是多智能體體系的提出及機(jī)器學(xué)習(xí)框架的探索等,他的學(xué)生們也取得諸多有影響力的成果。
AI 2.0階段,就是在面向領(lǐng)域的數(shù)據(jù)驅(qū)動深度學(xué)習(xí)時代,我和羅引博士從創(chuàng)業(yè)開始,我們就注重專用人工智能算法研發(fā)。因為要實現(xiàn)對數(shù)據(jù)理解與認(rèn)知,離不開如何訓(xùn)練專門算法來處理領(lǐng)域問題,事實證明,獲得了良好市場反饋和收益,也在資本市場備受關(guān)注。
AI 3.0階段是生成式人工智能和通用人工智能時代,算法很重要,數(shù)據(jù)同樣不可或缺,最近有兩家明星企業(yè)備受矚目。一家是Databricks,不久前成功融資100億美元;另一家是Palantir,市值已接近3000億美元。我們堅信數(shù)據(jù)與AI密不可分,如果二者分離,就如同拿著AI這把錘子盲目地尋找釘子。數(shù)據(jù)是對場景的抽象,AI是工具,兩個結(jié)合起來才是價值。這是中科聞歌商業(yè)模式的核心。
我創(chuàng)業(yè)至今已有7年,頭部客戶續(xù)約率近乎100%,連續(xù)簽約5年的客戶也占很大比例。因此,在行業(yè)從業(yè)者和客戶群體中,積累了一定的聲譽。不過在公眾to C業(yè)務(wù)方面,還需等待時機(jī)推出普惠的C端產(chǎn)品。
03.從科學(xué)家到創(chuàng)業(yè)者
《中國企業(yè)家》:你是2017年開始創(chuàng)業(yè),在此之前是科學(xué)家,2017年人工智能浪潮尚未真正興起,而且恰好處于兩個波峰之間,為什么決定出來?
王磊:當(dāng)時我在中國科學(xué)院是副教授級的科研人員,是科研骨干。2016年,我們趕上了中國科技成果轉(zhuǎn)化的春天,國家推出促進(jìn)科技成果轉(zhuǎn)化的相關(guān)舉措,是中國科學(xué)院率先涉及技術(shù)加團(tuán)隊的創(chuàng)業(yè)。2017年以我和羅引博士為核心的5名青年科研人員開啟創(chuàng)業(yè)征程,我們在實驗室時就希望做技術(shù)不僅要寫文章,更要在實際應(yīng)用中產(chǎn)生價值。那時大家都30歲出頭,懷揣著用科技成果干一番事業(yè)的熱忱,干勁十足。
前期積累非常重要,我們隊伍成長很大程度上得益于海外歸國教授帶回的先進(jìn)學(xué)術(shù)思想,一位是卡內(nèi)基梅隆機(jī)器人學(xué)實驗室的博士,另一位是南加州大學(xué)人工智能的博士,幫助夯實了技術(shù)底蘊。我2007年加入這個團(tuán)隊,10年中積累了前沿的產(chǎn)業(yè)實踐經(jīng)驗、全球前沿的學(xué)術(shù)思想和國家科研殿堂的積淀,及豐富的國家項目錘煉經(jīng)驗,讓我們收獲了一批種子客戶。
《中國企業(yè)家》:剛剛你說的是宏觀的背景,但創(chuàng)業(yè)對于個人也是重要決策。
王磊:我認(rèn)為在做決定時,如果想太多,就無法作出決定。中國科學(xué)院科研條件好,能與優(yōu)秀的同事共事讓人舒心,但決定了就比較堅決。第二天就把辦公室交回去,走出實驗室,也很快拿到第一筆天使投資。
《中國企業(yè)家》:當(dāng)時你的第一款產(chǎn)品是什么?
王磊:我們趕上了特別好的機(jī)遇,即國家的融媒體建設(shè),中國日報、新華社等國家級媒體都將它視為科研任務(wù),融媒體業(yè)務(wù)有圖、文、音、視頻,還有大量AI工具和數(shù)據(jù)分析需求,現(xiàn)實需求加上國家政策助力,很快找到了業(yè)務(wù)落地場景。
后續(xù)涉足金融、醫(yī)療、能源等領(lǐng)域都沿用了這一思路,找到技術(shù)與行業(yè)的契合點,催生出產(chǎn)品。道理雖然大家都明白,但實際操作中,客戶一年年買單、形成持續(xù)可增長的收入,還是非常有挑戰(zhàn)。
《中國企業(yè)家》:從科學(xué)家轉(zhuǎn)型做銷售,說服客戶的過程艱難嗎?雖然你是幫他們賺錢,但其實你也是要賺他們的錢。
王磊:我們現(xiàn)在營收已跨入幾億級別,當(dāng)時也不相信能做到這一步。還記得我詢問朋友是否適合創(chuàng)業(yè),他們說不適合,因為長期在科研機(jī)構(gòu)工作會有點清高。
所以出來后我時刻提醒自己,要放下身段聆聽市場需求。記得一位基層員工跟我說過,“你們這么高層次的技術(shù)人才來研究我們這樣一個小眾行業(yè),還是轉(zhuǎn)型期的行業(yè),讓我們很興奮?!庇袝r候客戶需要的不是非常高深和頂尖的技術(shù),更需要站在他的角度解決真正的工作或業(yè)務(wù)問題。
后來做縣級融媒體,我去了中國很多縣市、基層,新疆、西藏、黑龍江等地方都去過,作為創(chuàng)始人有吃苦精神,對員工開疆拓土是很好的鼓勵。這也讓我明白,創(chuàng)業(yè)不能只盯著大行業(yè),而要在一個小的細(xì)分行業(yè)找到真實的客戶需求,鍛造技術(shù)能力,再泛化到其他行業(yè),找到生存之道。
《中國企業(yè)家》:既要上天,又要入地。
王磊:技術(shù)創(chuàng)業(yè)首先技術(shù)要立得住,更要接地氣。有些企業(yè)立得太深,當(dāng)天上有任何變化未跟進(jìn)時,就被拋棄了。登天已經(jīng)很難,入地真是要俯下身去,一步一個腳印去走,會發(fā)現(xiàn)更難更痛苦。
04.創(chuàng)業(yè)中的關(guān)鍵時刻
《中國企業(yè)家》:你決定做雅意大模型,是不是一個關(guān)鍵節(jié)點?
王磊:我們決定做雅意大模型時,已經(jīng)是成長型、規(guī)?;髽I(yè),投資人期望盡快走向資本市場,實現(xiàn)規(guī)?;虡I(yè)效益,拿出亮眼財報。當(dāng)時公司也正朝著這一目標(biāo)前進(jìn)。
來源:視覺中國
2022年ChatGPT一經(jīng)問世,我們敏銳察覺這是不一樣的技術(shù)變革,迅速行動,記得當(dāng)時買A100還不到70萬元一臺,后來飆升至185萬元一臺,果斷決策構(gòu)建了算力平臺,擁有了非常穩(wěn)定可控的算力支撐。
2023年3月,我們下決心投入大模型研發(fā),當(dāng)時從數(shù)據(jù)集構(gòu)建到基礎(chǔ)訓(xùn)練,可借鑒文獻(xiàn)案例非常少。訓(xùn)練歷時6~9個月,算力成本高達(dá)幾千萬,加上人力成本,財報壓力很大,與資本市場的期望更背道而馳。
這算是關(guān)鍵時刻,不做就意味著技術(shù)落后,之后可能都上不了牌桌,做意味著財務(wù)承壓。我記得2023年股東會上也給予了很大壓力,但到了2024年年底,我們在客戶側(cè)競爭力及客戶對我們的信任等方面都大大提升。都說數(shù)據(jù)—模型—決策,大模型對于理解客戶需求、解決問題、利用先進(jìn)技術(shù)進(jìn)行相關(guān)工作有很大幫助,收入增長也印證了這一點。
《中國企業(yè)家》:這需要很大勇氣。
王磊:在AI產(chǎn)業(yè)變革的十字路口,組織慣性的利弊凸顯。我們深耕AI行業(yè)多年,從實驗室起步,蛻變?yōu)槿缃竦腁I創(chuàng)新企業(yè),這是60后、70后、80后、90后四代人的努力。組織形成慣性后有優(yōu)勢,但也需不斷求變?;仡欉^去20年,很多信息化企業(yè)雖表現(xiàn)出色,但在AI技術(shù)投入方面沒有邁出勇敢一步,他們過于注重財務(wù)表現(xiàn),關(guān)注能否持續(xù)盈利、虧損是否減少,所以投入大模型就需要更大勇氣。
《中國企業(yè)家》:當(dāng)時你很難確定一定會在大模型上打出來,帶來的內(nèi)心糾結(jié)如何化解?
王磊:想好了就要膽子大,決定做之后還是很高效的,沒有浪費太多資源,節(jié)奏有計劃且緊湊。后來我們還開源了,對社區(qū)做了很大的貢獻(xiàn),6月份發(fā)布了1.0版本,12月就發(fā)布了2.0版本,最近還超越GPT-4o進(jìn)入了權(quán)威榜單全球前十。
《中國企業(yè)家》:早期預(yù)訓(xùn)練的過程中,對于一家創(chuàng)業(yè)公司而言,試錯成本很高,每天還得不斷花錢,你有過壓力很大的時候嗎?
王磊:當(dāng)時技術(shù)路線有很大不確定性,數(shù)據(jù)的工程配比決定了AI大模型的訓(xùn)練結(jié)果,任何一個小差錯都會影響訓(xùn)練進(jìn)程。訓(xùn)練雅意2.0時,確實有段時間,同事發(fā)現(xiàn)LOSS(回歸誤差)天天跑飛,睡不著覺,一天租卡的費用就是一輛寶馬的費用,損失幾十萬,最終才跟算力平臺一起攻關(guān)解決了問題。
也因為這次,我非常佩服DeepSeek和OpenAI這些公司,他們承擔(dān)了相當(dāng)大的投入壓力,畢竟不確定性非常大。
《中國企業(yè)家》:在決策智能方面,你們的差異化競爭優(yōu)勢是什么?
王磊:過去人工智能行業(yè)的共識是,從感知到認(rèn)知再到?jīng)Q策,再到具身執(zhí)行。過去AI主要集中在產(chǎn)業(yè)領(lǐng)域,當(dāng)年四小龍在感知層已經(jīng)做出出色的成果,認(rèn)知這一層隨著GPT的發(fā)展也發(fā)生了很大的變化,但我們要明白,世界是動態(tài)的、變化的、復(fù)雜的,開放場景需要實現(xiàn)決策的智能,因為對于人類或社會生產(chǎn)活動而言,錯誤決策可能會帶來巨大災(zāi)難性后果和損失。
我認(rèn)為在基礎(chǔ)認(rèn)知和推理能力之后,對于復(fù)雜問題需要動態(tài)實時的感知、長程規(guī)劃、決策支持能力,這是需要突破的地方。我們的決策絕不是簡單的數(shù)據(jù)統(tǒng)計,而是從復(fù)雜的異構(gòu)數(shù)據(jù)中用AI發(fā)現(xiàn)規(guī)律,基于規(guī)律結(jié)合動態(tài)實時數(shù)據(jù)用AI進(jìn)行推理、推演,支持最終決策選擇。
《中國企業(yè)家》:你預(yù)測2025AI行業(yè)可能會發(fā)生哪些變化?
王磊:第一,從技術(shù)角度看,會有更好的降維Scaling Law等強(qiáng)化學(xué)習(xí)的技術(shù)創(chuàng)新,尤其在少量語料生成方面有望找到更創(chuàng)新的方法。有了更優(yōu)質(zhì)的基礎(chǔ)模型之后,類似AlphaFold這樣有影響力的行業(yè)級創(chuàng)新,會加快出現(xiàn)。
第二,我認(rèn)為2025年全球人工智能應(yīng)用市場已到達(dá)爆發(fā)節(jié)點,DeepSeek為市場帶來很大的激勵和推動。擁抱AI不是“要不要干”,而是“怎么干”,各個行業(yè)的產(chǎn)品就會像移動應(yīng)用一樣爆發(fā),Agent也會對端側(cè)設(shè)備帶來新的機(jī)會。
第三,算力這一側(cè),超強(qiáng)算力可能還會進(jìn)一步發(fā)展,市場需求也將進(jìn)一步釋放,端側(cè)的算力芯片或許會孵化出下一個英偉達(dá)。
此外,就個人而言,我們應(yīng)加速擁抱AI,我相信未來懂AI和不懂AI的人才價值會很不一樣。