世界模型是人工智能的終局嗎?
1月28日,由鉛筆道聯合主辦的中關村早期投資論壇暨2026新場景大會舉行,影響力登上活動行北京總榜第1名。本文為大會《世界模型》圓桌討論實錄。
整理 | 鉛筆道 吳欣曉
編輯 | 鉛筆道 王方
去年11月,斯坦福大學教授李飛飛提出一個概念:世界模型,在AI行業引發廣泛討論。
與此同時,李飛飛的公司——World Labs,估值飆升至50億美元;同樣關注大模型的科學家楊立昆,估值也超過30億美元。
于是,一個關鍵的話題產生:世界模型是人工智能的終局嗎?本文將對該話題展開探討。參與本次探討的嘉賓如下:

核心亮點提前看:
1、什么是“世界模型”?
答:讓AI理解和預測現實世界的模型。版本很多,沒有共識。
2、為什么世界模型如此火?
答:融資猛,估值高,對人類極其有用。
3、世界模型是AI的終局嗎?
答:可能是。AI把執行干了,人類只需要去卷創意。
4、世界模型可以怎么賺錢?
答:做成產品,比如具身智能的大腦。
更多精華,請看圓桌現場實錄。
01 世界模型到底是啥?

林覺民: 現在“世界模型”確實很火,大家看到楊立昆融到了幾十億美金,李飛飛也融到了50億美金,這些公司的估值都在飛速上漲,國內也掀起了一波新的浪潮。
但有意思的是,到底什么是“世界模型”,好像大家各有各的說法。
王晟:首先,大家對世界模型的理解可能并不一致。
實際上,世界模型有兩種典型的流派:一種是具身智能的世界模型,另一種是數字空間的世界模型。
我們理解的世界模型,并非完全模擬真實世界,而是針對特定的領域或“world”進行建模。比如醫療領域、金融領域、法律領域,每個領域都可以看作一個獨立的world。
以醫療為例,假設我們構建了一個“醫療世界模型”,它可以模擬你得病后的整個過程。人們若得了甲流,通過這個模型,我們可以看到患者不干預時的身體反應、癥狀變化、以及生化指標的變化。
如果患者進行了治療,模型會顯示你用藥后的效果,直到康復或是病情加重。我們通過這種模型來探索真實的“ground truth(基礎真理)”。
比如我們投資的清華紫荊智康團隊,他們的醫療AI在30多個、接近40個疾病診療領域,診斷水平已經超過了全球97%的醫生。
他們的成功,正是因為通過醫療世界模型,模擬出疾病發展的全過程。通過這種world model(世界模型),我們可以讓AI更快地學習,甚至讓它在短時間內積累經驗,成為世界頂尖的醫生。
武偉:我們認為,要搞清楚世界模型的本質,首先需要理解它的兩個核心關鍵詞:模擬和交互。
“模擬”是指通過仿真技術構建一個虛擬世界,來訓練AI進行推理和決策。而“交互”則是指通過與環境和人類進行交互,讓AI能夠更好地適應并反饋現實世界的變化。
從學術和產業發展的角度來看,世界模型的概念大概是從2018年開始被提出的,至今已經發展了七八年。期間,世界模型主要有三種不同的流派:
第一個流派是將世界模型用于仿真器,通過云端合成大量仿真數據,供智能體訓練使用。英偉達的Omniverse和Cosmos系統就是走這一路線。
第二個流派是將世界模型作為通用交互界面,Google的Gemini3、李飛飛團隊的Marble等項目都屬于這一類,主要是用于娛樂和數字體驗的應用。
第三個流派也是我們關注的重點,是將世界模型的推理能力直接賦能大腦,讓AI具備內生的空間推理和想象能力。通過這種方式,AI可以在沒有見過某些數據的情況下,通過推理和模擬,指導機器人進行更高效的決策和交互。
這種方法與傳統的模仿學習不同,因為模仿學習依賴于離線數據的積累,而我們則更關注AI如何通過內生的模擬能力,來預測和適應新環境。
武偉:在我們的理解中,世界模型是“基礎模型”(foundation model),是機器人原生所需要的基礎模型。我們需要建模的是:物理空間的移動和操作層面的內生認知,這是我們的技術路線。
從我們的定義來看,世界模型其實是一個端到端的模型,或者可以理解為兩端式端到端的大模型。
相比之下,千訣科技主要是做內腦架構,也就是人的大腦有多個分區,每個分區對應不同的小模型,或者用現在agent領域比較流行的詞匯——skills(技能)。這些小模型和頂層模型結合起來,可以實現更低功耗的大腦模擬。
這是我對兩者的理解,當然,團隊的基因也起到決定性作用。我們基因決定了我們專注于模型的端到端構建,以及數據的擴展(scaling)。
宋亞宸:李飛飛最近剛融了一輪,估值已經達到了50億美金。我悄悄看了他們的BP,里面提到李飛飛所定義的世界模型有三個主要應用場景:
第一個是娛樂行業的3D生成(3D generation in entertainment);
第二個是XR(擴展現實)和元宇宙中的空間智能(spatial intelligence);
第三個是機器人技術(robotics)。
其實最早做的是前兩個場景。
我想說的重點是,我認為世界模型可能確實是AI時代的終極答案,包含了兩件事:
第一,世界模型能助力發展具身能力,讓各種各樣的具身場景變得更加普及,能讓更多的機器人替代人類的工作。
第二,勞動力如果被解放了,那人類應該做些什么呢?
從農業時代到工業時代,再到信息化時代,我們發現有兩個特點:
1、人類的幸福指數越來越高,生命的周期越來越長,嬰兒的存活率越來越高,超市里能買到的商品選擇越來越多;2、大家的工作時間卻越來越長,變得越來越“卷”。
從最早的農業時代,人們的工作時長很短,但隨著時代發展,我們進入了一個更加“卷”的社會,特別是信息時代,996(早九晚九)已經成為常態,大家為了大廠的“福報”而拼命工作。
但AI的出現改變了這一切,理論上講,AI時代是更“卷”的,但實際上似乎沒有什么需要再去“卷”的東西了,因為機器人可以代替人類做所有的事情。那么,生產力和勞動力將去向何方?
我自己有個理論,認為人類最終要卷的,是自己的創意本身。
當AI可以零門檻、零成本、實時地幫助人類放大創意時,每個人都能創造世界級的、可交互的體驗,就像神創造了這個世界一樣,定下了物理規則,又造了萬物。如果這一天到來,人人都能創造出屬于自己的虛擬世界,甚至可以有更好的體驗。
比如,重力不再局限于9.8,你可以飛,可以長翅膀,也可以創造不同的社會規則、評價體系,甚至是物理規則。人類將有更多的選擇,把時間投入到自己真正喜歡的事情上。
這將是一個人人為我,我為人人的時代,每個人都可以用AI放大自己的創意,吸引更多人加入到自己的世界中來。
如果這種世界真能到來,那么我們就是在為別人創造極樂世界的時代,像圣人一樣去為他人提供最好的體驗。
AI在其中的角色,就是讓每個人像神一樣去創造完整的、世界級的、可交互的體驗。這就是我認為世界大模型對于AI終局如此重要的原因。
未來每個人都能像“馬良”一樣,手握神筆,心想事成。
蔣屹舟:世界模型最早的研究,主要是為了理解和預測我們周圍的物理世界。
就像牛頓通過觀察蘋果掉下來的現象,推導出了萬有引力的規律。沒有世界模型,我們的推理能力有限,只能根據已經觀察到的現象做判斷。
隨著研究深入,李飛飛提出,世界模型不僅僅是理解世界,更重要的是預測世界。我們在十年前開始做“視頻預測”,用它來預測機器人的運動軌跡,這一思路對機器人非常有用。
機器人在現實中需要能夠預測未來的情況,而不是只根據過去的數據做決策。
比如,疊衣服這個看似簡單的任務,不同形狀的衣服需要不同的操作。通過世界模型,機器人能更好地理解衣服的特性,從而做出更精準的動作。
類腦智能是我目前關注的方向,它強調多個小模型的協作,而不是一個大模型解決所有問題。在機器人領域,世界模型幫助機器人預測未來的情景,這樣它們在執行任務時可以更加高效。
比如,機器人在打掃衛生時,會根據預測的結果調整任務步驟,提高執行效率。
一個有趣的實驗是給塑料袋打結。我們最初的訓練方法并不夠靈活,后來我們創造了一個“塑料袋世界模型”,讓機器人理解不同塑料袋的物理特性,能夠智能化地處理各種情況。這種方法讓模型能適應更多的場景,而不僅限于特定的任務。
簡單來說,世界模型幫助機器人更好地理解和預測未知世界,從而提高工作效率。
02 世界模型怎么落地?誰能跑出來?
林覺民:世界模型的發展方向如此多樣,大家最終競爭的是什么?每個人的技術路線不同,最后如何比較?
王晟:從投資人的角度來看。為什么大家都在關注世界模型?
對我們投資人來說,“世界模型”現在是共識標簽——就像前兩年的“具身智能”,一聽就覺得很想投。
但實際上,這只是一個共識的標簽。
大家對世界模型的定義并不相同,就像我們今天在座的幾位嘉賓,每個人的理解都不完全一致。作為投資人,我們愿意接受所有看似合理的世界模型定義,關鍵在于它是否能夠落實到具體的技術實施,是否能夠持續增長,且有較高的市場潛力。
從我個人的視角來看,未來的世界模型需要具備兩個核心要素:
首先是擁有一套接近“真實世界”(ground truth)的驗證系統,這個系統必須能夠生成大量高質量的數據。數據不僅僅是要多,還要足夠真實和高質量,以便為模型訓練提供有價值的反饋。
其次,數據分布要平衡,既要有稠密數據,也要涵蓋稀疏數據的情況,這樣才能避免模型過擬合,也能確保訓練出更具泛化能力的模型。通過世界模型生成大量高質量數據,是訓練模型的基礎。
武偉:如果從商業本質角度來看,世界模型的競爭還是要回到一個核心問題:一個公司能否在競爭中存活。
作為商業公司,我們必須明白,只有兩種方式能夠確保生存。要么有健康現金流,要么有高增長、高天花板的路徑。
從世界模型的發展階段來看,目前更接近第二種模式——快速增長的階段。做世界模型的公司,是否能找到適合自己的落地方向,并且能夠快速增長,是決定能否存活的關鍵。
以我們為例,我們的第一個產品化方向就是具身大腦。我們通過思維實驗來推算,人類一生收集的數據量大約是300萬段每分鐘的視頻片段(clips),這相當于18歲之前積累的經驗。
如果我們假設一個工種需要一年時間來熟練掌握,那么大約是3億段clips的數據量。我們通過這些數據的積累,來預估人類世界模型的最大智能化上限。
如果我們能夠構建一個擁有十億級數據量的世界模型,并通過預訓練使其在零樣本和少樣本的情況下表現得足夠強大,那么這個世界模型的商業價值就會非常高。
因此,未來的關鍵是如何收集足夠高質量的數據,進行良好的預訓練,并最終在實際應用場景中具備強大的泛化能力。
宋亞宸:其實,我們需要思考一個核心問題:為什么現在大家都在討論世界模型?為什么創業公司、資本和頂尖人才都在涌向這個領域?是因為AI發展到一定階段,世界模型應運而生嗎?還是因為具身智能技術發展成熟了?我認為,這兩個因素并不是世界模型崛起的根本原因。
世界模型的出現,最根本的原因在于信息載體的變化。過去,信息載體的提升是一個不斷升維的過程,從文字到圖片,再到視頻,直到今天的3D世界。隨著信息密度和體驗質量的提升,我們也迎來了3D和世界作為新的信息載體。
以往,文字、圖片和視頻曾是信息表達的主流。但現在,隨著AI技術和硬件基礎設施的進步,3D以及更高維度的世界成為了我們表達和傳遞信息的最終載體。
過去幾千年,文字是表達世界的工具,但隨著信息技術的發展,3D和世界的表達形式才剛剛開始成為主流。我們即將進入一個新時代,AI能夠幫助我們直接處理和理解3D世界,并且創造更豐富的交互體驗。
這其實是信息利用效率的提升。信息密度越高,傳播效率就越快。
當我們只能在古代的龜殼上刻字時,信息傳播效率非常低;但隨著技術進步,互聯網、圖片、視頻的出現,傳播效率逐漸提高。而3D和世界本身,最終將成為我們信息傳遞和創造的主要載體。
蔣屹舟:我個人對世界模型的理解有些不同。
我們做的是類腦智能,偏向非端到端的設計。最初我們是做類腦機器人的,尤其是在國家項目中,認為世界模型不僅僅局限于視覺或某種單一的輸入模式。
以一個盲人操作物體為例,即使他無法通過視覺來感知世界,但他依然能通過其他感官掌握物體的特性,并推測出自己的行為可能帶來的后果。這種因果關系的理解,才是我們認為最為核心的部分。
通過類腦模型,我們的優勢在于對數據的需求不那么大,傳統的強化學習需要大量數據,而我們采用的非端到端方法,通過理解世界的因果關系,就能有效減少數據需求。
我們相信,世界模型不僅限于自然世界,它同樣適用于人類構建的世界。大語言模型(LLM)就是一個典型的例子,語言作為人類對世界的抽象工具,能夠幫助我們理解和表達大部分的事物。通過對這些抽象的理解,機器也可以構建出一個符合邏輯的世界模型。
聯系創業者
進入個人中心-聯絡人,即可查看請求結果
您還未認證身份,暫時無法和ta聯系!請盡快前往個人中心進行創投認證哦。