国产免费观看网站黄页,色黄视频网站,亚洲天堂久久新

在近日紅杉資本舉辦的 AI Ascent 2025 演講中，NVIDIA 人工智能總監(jiān) Jim Fan 介紹了 " 物理圖靈測(cè)試 " 的概念，并解釋了大規(guī)模仿真將如何解鎖機(jī)器人技術(shù)的未來(lái)。我們針對(duì)其演講內(nèi)容進(jìn)行了梳理，并進(jìn)行了編譯：

Jim Fan：

幾天前，我看到一篇博客文章，它引起了我的注意。文章說(shuō)大模型已經(jīng)通過(guò)了圖靈測(cè)試，但卻沒(méi)人注意到。圖靈測(cè)試曾經(jīng)是神圣不可侵犯的，對(duì)吧？它是計(jì)算機(jī)科學(xué)的圣杯，其理念是，你無(wú)法區(qū)分與你對(duì)話的是人類(lèi)還是機(jī)器。

然后，我們就這么悄無(wú)聲息地通過(guò)了圖靈測(cè)試。但當(dāng)機(jī)器思考的時(shí)間多了幾秒鐘，或者云端無(wú)法調(diào)試你糟糕的代碼時(shí)，人們就會(huì)感到不滿。每一次突破都在平淡無(wú)奇中度過(guò)，就像又一個(gè)普通的周二。

我想提出一個(gè)非常簡(jiǎn)單的概念，叫做 " 物理圖靈測(cè)試 "。設(shè)想一下，周日晚上你舉辦了一場(chǎng)黑客馬拉松派對(duì)，周一早上，你想找人收拾這一片狼藉，并且在晚餐時(shí)為你點(diǎn)上一支精美的蠟燭讓你的伴侶開(kāi)心起來(lái)。而當(dāng)你回到家時(shí)，卻無(wú)法分辨這一切是人類(lèi)還是機(jī)器的杰作。

這就是簡(jiǎn)單的物理圖靈測(cè)試。但我們現(xiàn)在進(jìn)展到什么程度了呢？快實(shí)現(xiàn)了嗎？看看這個(gè)類(lèi)似的機(jī)器人，準(zhǔn)備去工作，結(jié)果卻沒(méi)能做好。再看看機(jī)器狗面對(duì)香蕉皮的場(chǎng)景，還有被指令為你制作早餐麥片的機(jī)器人呢？

它能正確識(shí)別牛奶，這一點(diǎn)我給它勉強(qiáng)及格。它的意圖是好的，或者說(shuō)用勺子的體驗(yàn)就像是貴賓級(jí)的。看看，我都有點(diǎn)嫉妒了，都沒(méi)人能給我這樣的體驗(yàn)。這就是我們目前的現(xiàn)狀。那么，為什么解決物理圖靈測(cè)試這么困難呢？

大家都知道，研究人員經(jīng)常抱怨。最近，有個(gè)叫 ilia 的人抱怨說(shuō)，預(yù)訓(xùn)練的數(shù)據(jù)快用完了。他甚至把互聯(lián)網(wǎng)比作人工智能的 " 化石燃料 "，還說(shuō)我們用于訓(xùn)練網(wǎng)絡(luò)的數(shù)據(jù)即將耗盡。只要和機(jī)器人專(zhuān)家相處一天，就知道那些深度學(xué)習(xí)研究人員有多 " 嬌慣 " 了。

我們連 " 化石燃料 " 都沒(méi)有。這是在英偉達(dá)總部的咖啡館進(jìn)行的數(shù)據(jù)收集場(chǎng)景。設(shè)置了人形機(jī)器人，通過(guò)操作它們來(lái)收集數(shù)據(jù)。

這就是收集到的數(shù)據(jù)，機(jī)器人的關(guān)節(jié)控制信號(hào)，這些是隨時(shí)間變化的連續(xù)值，無(wú)法從互聯(lián)網(wǎng)上獲取，在維基百科、YouTube 或其他任何地方都找不到。人們必須自己收集。那要怎么收集的呢？有一種非常復(fù)雜但也很昂貴的方法，叫做 " 遠(yuǎn)程操作 "。讓人戴上虛 VR 頭盔，頭盔能識(shí)別手部動(dòng)作，并將動(dòng)作信號(hào)傳輸給機(jī)器人。

通過(guò)這種方式，人類(lèi)可以教機(jī)器人做事，比如從烤面包機(jī)里拿出面包，然后在上面淋上蜂蜜。但可以想象，這是一個(gè)非常緩慢且痛苦的過(guò)程。

真正的機(jī)器人數(shù)據(jù)是 " 人力燃料 "，而這比化石燃料還糟糕，因?yàn)檫@是在消耗人力。更糟糕的是，每個(gè)機(jī)器人每天最多只能運(yùn)行 24 小時(shí)，甚至實(shí)際過(guò)程中遠(yuǎn)遠(yuǎn)達(dá)不到這個(gè)時(shí)長(zhǎng)，因?yàn)槿藭?huì)累，機(jī)器人比人更容易累。

這就是現(xiàn)狀，那該怎么辦呢？如何突破這個(gè)障礙？機(jī)器人領(lǐng)域的 " 核能 " 在哪里？我們需要清潔能源，不能永遠(yuǎn)依賴(lài) " 化石燃料 "。于是，模擬技術(shù)登場(chǎng)了。

必須離開(kāi)現(xiàn)實(shí)世界，在模擬環(huán)境中做點(diǎn)什么。所以嘗試讓機(jī)器人的手在模擬環(huán)境中完成超越人類(lèi)靈巧度的任務(wù)，比如轉(zhuǎn)筆。對(duì)我來(lái)說(shuō)這是超人類(lèi)的技能，因?yàn)槲倚r(shí)候就放棄嘗試轉(zhuǎn)筆了。

我很高興機(jī)器人至少在模擬環(huán)境中比我做得好。那么如何訓(xùn)練機(jī)器人的手完成這樣復(fù)雜的任務(wù)呢？有兩個(gè)思路。第一，模擬速度要比實(shí)時(shí)快 10000 倍，這意味著在單個(gè) GPU 上并行運(yùn)行 10000 個(gè)物理模擬環(huán)境。這是第一點(diǎn)。第二點(diǎn)是，這 10000 個(gè)模擬環(huán)境不能完全相同，必須改變一些參數(shù)，比如重力、摩擦力和重量，我們稱(chēng)之為 " 域隨機(jī)化 "。這就是模擬的原理。

為什么這樣做有效呢？想象一下，如果一個(gè)神經(jīng)網(wǎng)絡(luò)能夠控制機(jī)器人在 100 萬(wàn)個(gè)不同的世界中完成任務(wù)，那么它很有可能也能應(yīng)對(duì)第 100 萬(wàn)零一個(gè)世界，也就是現(xiàn)實(shí)世界。

換句話說(shuō)，現(xiàn)實(shí)世界是這些訓(xùn)練場(chǎng)景的一部分。那么如何應(yīng)用呢？可以創(chuàng)建一個(gè)數(shù)字孿生體，也就是機(jī)器人和現(xiàn)實(shí)世界 1:1 的復(fù)制體。然后在訓(xùn)練模擬中進(jìn)行測(cè)試，再直接應(yīng)用到現(xiàn)實(shí)世界，實(shí)現(xiàn)零樣本學(xué)習(xí)。

可以用手來(lái)舉例。這是能完成的最令人印象深刻的任務(wù)之一。比如讓機(jī)器狗站在球上，然后將訓(xùn)練成果應(yīng)用到現(xiàn)實(shí)世界。這是在加州大學(xué)伯克利分校（UCB），有人在操控機(jī)器狗行走。研究人員想法很奇特，這場(chǎng)景看起來(lái)就像《黑鏡》里的情節(jié)。

實(shí)際上，這被稱(chēng)為 " 尤里卡博士 " 項(xiàng)目。有個(gè)研究人員讓他的機(jī)器狗站在瑜伽球上，至少現(xiàn)在在機(jī)器狗的靈活性方面取得了很大進(jìn)展，不過(guò)真正的狗可做不到。接下來(lái)，還可以將這種方法應(yīng)用到更復(fù)雜的機(jī)器人上，比如人形機(jī)器人。

這些人形機(jī)器人通過(guò) 2 小時(shí)的模擬訓(xùn)練，就掌握了相當(dāng)于現(xiàn)實(shí)中 10 年才能學(xué)會(huì)的行走技能，并可以將訓(xùn)練成果應(yīng)用到現(xiàn)實(shí)中。無(wú)論機(jī)器人的形態(tài)如何，只要有機(jī)器人模型，進(jìn)行模擬訓(xùn)練，就可以讓它學(xué)會(huì)行走。

能做的不止是行走，對(duì)吧？當(dāng)控制身體時(shí)，可以追蹤任何想要追蹤的點(diǎn)、任何關(guān)鍵部位，跟隨任何想要的速度向量。這就是人形機(jī)器人的全身控制問(wèn)題。

這非常困難，但可以通過(guò)并行運(yùn)行 10000 個(gè)模擬環(huán)境來(lái)進(jìn)行訓(xùn)練。將訓(xùn)練成果零樣本、無(wú)需微調(diào)地應(yīng)用到現(xiàn)實(shí)機(jī)器人上，這是在英偉達(dá)實(shí)驗(yàn)室。實(shí)際上，需要放慢視頻播放速度。

第一個(gè)視頻是實(shí)時(shí)播放的，下一個(gè)視頻是放慢后的。可以看到機(jī)器人動(dòng)作的復(fù)雜性，它在保持平衡的同時(shí)做出類(lèi)似人類(lèi)的敏捷動(dòng)作。猜猜完成這些動(dòng)作需要多大規(guī)模的神經(jīng)網(wǎng)絡(luò)？

只需要 150 萬(wàn)個(gè)參數(shù)，不是幾十億，150 萬(wàn)個(gè)參數(shù)就足以捕捉人體的潛意識(shí)處理過(guò)程。這個(gè)系統(tǒng)的推理過(guò)程，150 萬(wàn)個(gè)參數(shù)就夠了。如果將其放在速度與模擬多樣性的圖表中，我認(rèn)為這可以稱(chēng)為 " 模擬 1.0"，也就是數(shù)字孿生范式，它使用經(jīng)典的矢量化物理引擎。

然后可以將模擬速度提升到每秒 1 萬(wàn)到 100 萬(wàn)幀。但問(wèn)題是，必須創(chuàng)建數(shù)字孿生體，需要有人構(gòu)建機(jī)器人、搭建環(huán)境等等。這非常繁瑣，而且需要大量手工操作。

能不能開(kāi)始生成模擬的部分內(nèi)容呢？所有這些 3D 資源都是由 3D 生成模型生成的，所有的紋理來(lái)自 Stable Diffusion 或其他擴(kuò)散模型，所有的場(chǎng)景布局由提示詞和語(yǔ)言模型生成，再編寫(xiě) XML 將它們整合在一起，構(gòu)建了一個(gè)名為 "Robot-CASa" 的框架，這是一個(gè)大規(guī)模的合成模擬框架。

它用于模擬日常任務(wù)，除了機(jī)器人，其他內(nèi)容都是生成的。可以組合不同的場(chǎng)景，它仍然依賴(lài)經(jīng)典引擎運(yùn)行，但已經(jīng)可以完成很多任務(wù)。

現(xiàn)在，可以再次讓人進(jìn)行遠(yuǎn)程操作，但這次是在模擬環(huán)境中，而不是在現(xiàn)實(shí)機(jī)器人上。在模擬環(huán)境中重現(xiàn)操作軌跡，并且加入強(qiáng)大的硬件加速光線追蹤技術(shù)，讓模擬場(chǎng)景更加逼真。

甚至可以改變動(dòng)作。比如在遠(yuǎn)程操作時(shí)將杯子從這里移動(dòng)到那里，不需要反復(fù)演示同樣的動(dòng)作。綜合這些，在模擬環(huán)境中進(jìn)行一次人類(lèi)演示，通過(guò)環(huán)境生成和動(dòng)作生成，將數(shù)據(jù)量擴(kuò)展 n 倍，再乘以 n 倍。我保證這是今天需要接觸的唯一數(shù)學(xué)計(jì)算。這就是擴(kuò)充數(shù)據(jù)的方法。第一列和第三列是現(xiàn)實(shí)機(jī)器人的真實(shí)視頻，第二列到第四列是 Robot-CASa 模擬生成的視頻。

仍然可以看出這些紋理不是真實(shí)的，但已經(jīng)足夠接近了。把這種足夠接近的情況稱(chēng)為什么呢？稱(chēng)之為 " 數(shù)字表親 " 范式。它不是數(shù)字孿生體，但在一定程度上捕捉到了相似性。這種數(shù)字表親模擬運(yùn)行速度較慢，但它是一種混合生成物理引擎，生成部分內(nèi)容，然后將其余部分交給經(jīng)典圖形管道處理。

現(xiàn)在，模擬包含軟體、流體等各種元素的場(chǎng)景，對(duì)于藝術(shù)家或圖形工程師來(lái)說(shuō)，要正確模擬這樣的場(chǎng)景需要很長(zhǎng)時(shí)間。看看圖形技術(shù)的發(fā)展歷程，從早期到現(xiàn)在花了 30 年時(shí)間。

而視頻聯(lián)合模型只用了 1 年時(shí)間，就實(shí)現(xiàn)了從模擬簡(jiǎn)單物體到模擬可變形物體（比如面條）的跨越。這里可能少了點(diǎn)趣味性，但這是我愿意付出的代價(jià)。對(duì)于最新的 Sora 等策略模型，也只用了 1 年時(shí)間，這就是規(guī)模擴(kuò)展和數(shù)據(jù)驅(qū)動(dòng)過(guò)程的力量。

還記得一開(kāi)始給你們看的視頻嗎？這個(gè)視頻里沒(méi)有一個(gè)真實(shí)像素，它完全是由定制模型生成的。使用一個(gè)通用的開(kāi)源 VR 視頻生成模型，在現(xiàn)實(shí)機(jī)器人實(shí)驗(yàn)室收集的領(lǐng)域數(shù)據(jù)上進(jìn)行微調(diào)，然后生成了這些內(nèi)容。現(xiàn)在，可以通過(guò)提示詞讓模型想象不同的未來(lái)場(chǎng)景，模擬反事實(shí)情況。看，這兩幀畫(huà)面原本完全相同，但根據(jù)不同的語(yǔ)言提示，生成的視頻會(huì)做出正確的反應(yīng)。

即使這些動(dòng)作在現(xiàn)實(shí)世界中從未發(fā)生過(guò)，也能實(shí)現(xiàn)。視頻擴(kuò)散模型并不在乎場(chǎng)景有多復(fù)雜，也不在乎是否有流體或軟體。

同樣地，可以讓它拿起不同的東西，它會(huì)用正確的手抓取物體并放入籃子里。這些都是生成的，沒(méi)有一個(gè)像素是真實(shí)的。它還能正確模擬出各種反射效果，對(duì)吧？

所有這些交互效果都能正確模擬。我最喜歡的一個(gè)場(chǎng)景是機(jī)器人在那邊彈尤克里里。基本上，視頻模型可能看過(guò)數(shù)百萬(wàn)人類(lèi)彈尤克里里的畫(huà)面，然后它就能模擬機(jī)器人的手指做出相應(yīng)動(dòng)作，即使硬件實(shí)際上并不支持。視頻生成模型就能做到這一點(diǎn)。從這個(gè)角度來(lái)看，這就是 " 模擬 2.0"。

它具有很高的多樣性，但目前運(yùn)行速度可能較慢。沒(méi)人給它起名字，但我叫它 " 數(shù)字游牧民 "，它就像是在視頻擴(kuò)散模型的夢(mèng)幻空間里漫游。

什么是視頻擴(kuò)散模型呢？它就像是將數(shù)億個(gè)互聯(lián)網(wǎng)視頻壓縮成一個(gè)多元宇宙的模擬場(chǎng)景。很神奇，對(duì)吧？在這個(gè)夢(mèng)幻空間里創(chuàng)建機(jī)器人，機(jī)器人現(xiàn)在可以與任何地方的物體進(jìn)行交互，無(wú)處不在，無(wú)所不能。

詹森之前離開(kāi)了，但我覺(jué)得他會(huì)很喜歡這個(gè)。要擴(kuò)展經(jīng)典模擬，需要大量的計(jì)算資源，這也是 1.x 系列的情況。問(wèn)題是，隨著規(guī)模的擴(kuò)大，它會(huì)遇到瓶頸，因?yàn)槭止ぶ谱鞯南到y(tǒng)在多樣性方面存在限制。

而神經(jīng)世界模型，也就是模擬 2.0，將隨著計(jì)算資源呈指數(shù)級(jí)擴(kuò)展。這就是神經(jīng)網(wǎng)絡(luò)超越經(jīng)典圖形工程師的地方。兩者相加，將成為擴(kuò)展下一代機(jī)器人系統(tǒng)的 " 核能 "。

那些一開(kāi)始就說(shuō)計(jì)算機(jī)狀況會(huì)改善而不是惡化的人，把這句話刻在視網(wǎng)膜上，再好好想想吧。把所有這些數(shù)據(jù)輸入到所說(shuō)的視覺(jué)語(yǔ)言動(dòng)作模型中，這個(gè)模型輸入像素和指令，輸出電機(jī)控制信號(hào)。

在 3 月英偉達(dá) GTC 大會(huì)約翰遜（Johnson）的主題演講中開(kāi)源了一個(gè)名為 Groot 的模型。在機(jī)器人上運(yùn)行這個(gè)模型，有時(shí)候會(huì)有很神奇的效果。無(wú)法想象在訓(xùn)練過(guò)程中清理了多少數(shù)據(jù)。它能夠完美地拿起香檳，做得非常好。

它還能完成一些工業(yè)任務(wù)，比如拿起工廠里的物品，也能實(shí)現(xiàn)多機(jī)器人協(xié)作。Groot 模型是完全開(kāi)源的，實(shí)際上，未來(lái)的一系列模型也將開(kāi)源，因?yàn)樽裱s翰遜的開(kāi)源理念，致力于讓物理人工智能更加普及。

那么接下來(lái)呢？在看到物理人工智能的發(fā)展后，下一步是什么？我認(rèn)為是物理 API。縱觀人類(lèi)歷史，5000 年來(lái)，我們擁有了更好的工具，社會(huì)也在整體上有了很大進(jìn)步。但做晚餐以及進(jìn)行很多手工勞動(dòng)的方式，從埃及時(shí)代到現(xiàn)在，或多或少都沒(méi)有太大變化。

在人類(lèi)歷史的 99% 時(shí)間里，一直遵循這樣的模式：從原材料出發(fā)，通過(guò)人類(lèi)勞動(dòng)構(gòu)建文明。而在過(guò)去的 1%，也就是大約 50 年里，人類(lèi)勞動(dòng)占比逐漸減少，出現(xiàn)了高度專(zhuān)業(yè)化、高度復(fù)雜的機(jī)器人系統(tǒng)，它們一次只能完成一項(xiàng)任務(wù)。

編程成本非常高，但它們?nèi)匀辉谏鐣?huì)中發(fā)揮著作用。這就是現(xiàn)狀。未來(lái)是要把代表機(jī)器人勞動(dòng)占比的區(qū)域擴(kuò)展到各個(gè)領(lǐng)域，就像語(yǔ)言模型 API（LLM API）處理數(shù)字和比特一樣，物理 API 將處理原子。

基本上可以給軟件配備物理執(zhí)行器，讓它改變物理世界。在物理 API 之上，將會(huì)出現(xiàn)新的經(jīng)濟(jì)模式和新的范式，比如物理提示。如何指令這些機(jī)器人？如何訓(xùn)練它們？

有時(shí)候語(yǔ)言是不夠的。還會(huì)有物理應(yīng)用商店和技能經(jīng)濟(jì)。比如說(shuō)，米其林星級(jí)廚師不必每天都去廚房，他可以訓(xùn)練機(jī)器人，然后將提供米其林星級(jí)晚餐作為一種服務(wù)。再引用一次約翰遜的話：未來(lái)，一切可移動(dòng)的物體都將實(shí)現(xiàn)自動(dòng)化。

有一天，回到家，會(huì)看到干凈的沙發(fā)和點(diǎn)著蠟燭的晚餐，伴侶會(huì)微笑著迎接，而不是因?yàn)闆](méi)洗衣服而大喊大叫，這一點(diǎn)每天都激勵(lì)著我。上個(gè)月買(mǎi)了兩個(gè)人形機(jī)器人，它們運(yùn)行良好。

這些機(jī)器人就像環(huán)境智能一樣融入背景，甚至不會(huì)注意到通過(guò)物理圖靈測(cè)試的那一刻。而那一天，也只會(huì)被當(dāng)作又一個(gè)普通的周二被人們記住。謝謝大家。

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會(huì)解決方案

元宇宙營(yíng)銷(xiāo)解決方案

元宇宙會(huì)展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書(shū)館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫(xiě)稿助手

AI口語(yǔ)陪練

我的訂閱

英偉達(dá) Jim Fan 最新分享：機(jī)器人能通過(guò)物理世界的圖靈測(cè)試么

宙世代

一起剪

相關(guān)閱讀

7年來(lái)首次換代！小米盒子5系列正式發(fā)布：299元起

小紅書(shū)，新一代“淘寶客”？

萬(wàn)興科技發(fā)布萬(wàn)興圖示PPT插件V3.0，實(shí)現(xiàn)“原文轉(zhuǎn)圖”及繪圖模板兼容PPT格式

國(guó)產(chǎn)GPU突破！摩爾線程發(fā)布Torch-MUSA v2.0.0：FP8原生支持

支付寶微信自動(dòng)扣款服務(wù)沖上熱搜第一 客服：不會(huì)亂扣費(fèi)

6.0還沒(méi)普及 藍(lán)牙6.1版本正式發(fā)布！確定未來(lái)2年更新一次

三星奪冠！2025年Q1全球OLED顯示器出貨量出爐

華為鴻蒙智行：4月智能輔助駕駛總里程突破2.64億公里 近9成用戶開(kāi)啟

iPhone 17 Pro規(guī)格曝光：12GB內(nèi)存 與安卓手機(jī)平起平坐

最便宜50系顯卡跳票！曝RTX 5060推遲上市：想買(mǎi)再等等

天貓精靈Q糖系列智能音箱發(fā)布：接入通義AI大模型基座、支持紅外遙控

2連板山東章鼓：參股公司章鼓高孚現(xiàn)已形成涵蓋磁懸浮壓縮機(jī)等的高端智能設(shè)備

不當(dāng)“平替”的中國(guó)品牌：如何從“我像誰(shuí)”蛻變?yōu)椤拔沂钦l(shuí)”？

百度地圖市場(chǎng)滲透率第一 導(dǎo)航“見(jiàn)縫插針”植入廣告

最新評(píng)論

硅星人

熱門(mén)推薦

支付寶微信自動(dòng)扣款服務(wù)沖上熱搜第一客服：不會(huì)亂扣費(fèi)

6.0還沒(méi)普及藍(lán)牙6.1版本正式發(fā)布！確定未來(lái)2年更新一次

華為鴻蒙智行：4月智能輔助駕駛總里程突破2.64億公里近9成用戶開(kāi)啟

iPhone 17 Pro規(guī)格曝光：12GB內(nèi)存與安卓手機(jī)平起平坐

百度地圖市場(chǎng)滲透率第一導(dǎo)航“見(jiàn)縫插針”植入廣告