
文 | 全國模子工廠
Google可能要放大招了。
就在Google I/O 2026開幕前夜,兩條由Google尚未發布的新視頻模子Gemini Omni生成的視頻偷偷流出。
莫得任何官方預報,莫得任何發布會造勢,所有這個詞酬酢媒體都炸翻了。
一條視頻是一位磨真金不怕火站在黑板前,手持粉筆,一步步推導三角恒等式;
另一條是兩名男士坐在海邊高級餐廳,稱心地吃意大利面。
Reddit和X的接洽區,威望洶洶的都是并吞句話:\"這不可能是現存的技巧水平。\"
兩個看似普通的日常場景,為什么讓見慣了AI生成實質的技巧圈集體祛除?
令東談主戰栗的視頻
先說“磨真金不怕火黑板授課”視頻,生成它只用了一條prompt:
\"一位磨真金不怕火在傳統黑板上寫出三角恒等式的數學闡發,同期用言語解釋他刻下正在推導的法度。\"
一條教導,莫得多輪對話,莫得分法度限度。
出來的效果是,磨真金不怕火手持粉筆,遲緩寫下公式,同期啟齒素養,畫面運動,板書工致。

聽起來好像平平無奇。
但若是你了解刻下視頻生成模子的技巧規模在何處,就會顯著Gemini Omni同期作念到了三件事,而這三件事,以前從來不會同期出現。
第一,推理對了。
黑板上的闡發經過在數學上是確立的,不是視覺上長得像公式的標志堆砌,而是數學興致上確實有用的推導。
要作念到這極少,模子至少要在token量度以外,具備一定的標志推理才調(symbolic reasoning)。
即知談下一步應該出現什么公式,而不是當場采樣一個看起來像數學的圖案。
語義準確性重復在視覺生成之上,恰是大多半視頻模子會在這類測試中失敗的原因。
第二,空間連系對了。
評測者形容,粉筆書寫時的手部和手臂作為\"讀起來是天然的\",黑板上的方程式了了可辨。
手部,是AI視頻生成里公認最容易穿幫的場地。
手指數目非常、樞紐誤解、與物體的空間連系失真,這是行業里險些每一代視頻模子都栽過的坑。
一支粉筆被正確持持,在黑板上留住挑升想的字跡,手腕的力談、落筆的角度,都在合理的鴻溝內。
這一關,比畫一只正常的手還要難,因為手在這里還要和黑板、粉筆、書寫行徑,變成完滿的空間邏輯。
第三,時序對了。
這是最被低估的一件事。
磨真金不怕火寫下某個推導法度的同期,理論素養的恰是這個法度,板書進程與語音實質保持同步。
這不僅僅音視頻的幀級對皆(frame-level alignment),而是視覺事件、語義事件、時辰事件三者之間的跨模態聯結。
任何一個維度的領略出現偏差,效果就會是\"手在寫A,嘴在講C\"。
這種錯位,東談主類不雅眾一眼就能感知到。
若是這三件事僅僅分離作念到,咱們不錯合計是三個專項模塊拼在通盤的效果。
但三者同期確立、互相聯結,更可能是模子在某個表征層面上,照舊對\"磨真金不怕火在黑板上授課\"這件事變成了舉座性的語義領略。
換句話說,它知談這件事在執行全國里是什么形勢,知談其中各個元素之間的經管連系。
這亦然為什么\"全國模子\"這個詞,會在這條視頻流出后初始被頻頻說起。
在黑板視頻流出的同期,還有另一條視頻通盤曝光:兩名男士在海邊高級餐廳吃意大利面。
這個場景的接受,不是當場的。
2024年,一段AI生成的\"Will Smith吃意大利面\"視頻在網上瘋傳。
畫面里的手指數目分歧,2026美加墨世界杯中國認證平臺面條像活物一樣扭動,叉子和嘴的空間連系實足失控。
那段視頻成了早期AI視頻生成才調的羞恥柱。

圖為\"Will Smith吃意大利面\"視頻截圖
而這一次,Gemini Omni生成的效果,有用戶接洽是\"令東談主難以置信地確實\"。
這背后考驗的,是模子對剛體與柔性體之間動態交互的建模才調:
叉子是硬的,面條是軟的,兩者在斗爭時會產生形變,而形變的理論必須合適執行全國里的物理直觀。
這恰是早期生成模子在隱式物理模擬(implicit physics simulation)上的致命短板。
一個模子,在兩條視頻里,分離遭遇了視頻生成最難的兩類問題:
一類是標志、語音與畫面的同步,另一類是東談主與物體、剛體與柔性體的交互,并把這些問題激動到一個更可用的景色。
Gemini Omni展示的,更像是一個對全國有著更深領略的基座模子。
OD體育(ODSports)官網入口Gemini Omni的沖擊
遣散咫尺,Google還莫得發布Gemini Omni的任何技巧文檔,也莫得公開任何模子參數或基準測試數據。
但對于Gemini Omni的架構,咫尺外界存在三種解讀。
最保守的說法是,Omni僅僅Veo的品牌重定名,底層推理引擎莫得根底變化;
第二種說法是,Omni是在Gemini架構下重新考研的全新視頻模子,與Veo并行但穩重;
第三種說法最激進,合計Omni是一個確實興致上的原生多模態合資模子,在單一架構里原生處理筆墨、圖像、視頻和音頻。
基于以上兩段視頻的發達,第三種解讀反而像是\"Omni\"這個定名最合理的指向,畢竟在拉丁語中,\"omnis\"意味著所有這個詞。
若是Omni確實買通了多模態鏈路,模子競爭的焦點就會發生根人道的滾動。
不再是誰能拍出更像電影的畫面,而是誰是實質創作家的獨一指標地。
誠然當今還弗成說Gemini Omni照舊是全國模子,但它至少闡發,視頻生成正在靠晚全國模子要措置的問題:
如安在時辰中守護一個可解釋、可編著、可麇集推演的場景。
家具層面的沖擊一樣箝制淡薄。
今天一條AI視頻的坐褥鏈路,寬泛需要串聯言語模子寫劇本、圖像模子作念故事板、視頻模子作念動畫渲染、再加外部編著軟件作念后期處理。
每一次跨用具切換,都意味著信息損耗和格調漂移。
一朝Gemini Omni對話式視頻編著確立,這條鏈路就可能被一個對話窗口替代了。
更樞紐的是,若是Omni被放入Gemini進口,并與Gmail、Google Docs、YouTube、Android深度買通,這是字節Seedance、快手Kling在分發層面根底無法復制的生態上風。
技巧才調決定上限,生態決定例模。
Gemini Omni確實的威迫,大要不在于它今天生成的視頻有多好,而在于它把視頻生成才調放在了一個競爭敵手根底進不去的場地,后者對前者險些組成降維打擊。
全國模子時刻大要駕臨
往日幾年,生成式AI的進化旅途相對了了。
言語模子學會了讀和寫,圖像模子學會了看和畫,視頻模子學會了動。
每一個模態都在我方的賽談上快速迭代,但它們之間歷久存在一談隱形的墻。
模子知談筆墨,也知談圖像,但它不睬解筆墨和圖像之間、聲息和作為之間、邏輯和畫面之間的經管連系。
若是說ChatGPT時刻界說了言語的規模,Sora時刻界說了視頻的規模,那Gemini Omni指向的,很可能是第一個確實興致上的\"全國模子時刻\"。
模子第一次初始領略,模態與模態之間在執行全國里的經管連系,而不僅僅分離生成它們。
這是一次質的飛躍。
天然,Gemini Omni是否確實收尾了這極少,在5月19日Google I/O 2026大會之前,莫得東談主能給出詳情的謎底。
但泄涌現來的視頻,給出的信號照舊滿盈有勁。
接下來Google會在臺上說什么,咱們很快就會知談。