研究人員提出AI評(píng)估框架,能衡量視頻生成模型在具身智能中的表現(xiàn)

(來(lái)源:arXiv

其中 S3 階段被定義為“世界模擬器”(World Simulators),即能夠生成完全符合物理規(guī)則,并且可用于指導(dǎo)具身任務(wù)的高級(jí)視頻生成模型。

值得注意的是,世界模擬器這一概念早在 2018 年就被提出,反映了研究人員希望將視頻生成模型從單純的視覺(jué)生成擴(kuò)展到具有真實(shí)物理環(huán)境交互能力的目標(biāo),從而為未來(lái)的具身智能發(fā)展奠定基礎(chǔ)。

為了驗(yàn)證 WorldSimBench 評(píng)估框架的有效性,他們?cè)诙鄠€(gè)具身智能任務(wù)場(chǎng)景中對(duì)多種視頻生成模型進(jìn)行了評(píng)估。

分別在 MineRL、CARLA 和 CALVIN 三個(gè)仿真環(huán)境中測(cè)試了模型的表現(xiàn),對(duì)應(yīng)了開(kāi)放式具身環(huán)境、自動(dòng)駕駛 和機(jī)器人操控三種重要的智能任務(wù)。

MineRL 是一款基于“我的世界”(Minecraft)的模擬環(huán)境,主要用于測(cè)試視頻生成模型在復(fù)雜、開(kāi)放式環(huán)境中的表現(xiàn)。

智能體的任務(wù)是在虛擬環(huán)境中完成諸如采集物品、導(dǎo)航等任務(wù)。評(píng)估框架負(fù)責(zé)判斷生成視頻能否有效引導(dǎo)智能體執(zhí)行這些操作。

CARLA 是一個(gè)用于自動(dòng)駕駛研究的仿真平臺(tái),評(píng)估視頻生成模型在交通場(chǎng)景中的表現(xiàn)。

研究人員通過(guò)模擬復(fù)雜的城市路況、行人交通等情景,考察模型生成的視頻能否幫助自動(dòng)駕駛系統(tǒng)做出正確決策。評(píng)估指標(biāo)包括路線完成度、碰撞率、違規(guī)行為等。

CALVIN 則是一個(gè)用于機(jī)器人操作的仿真環(huán)境,評(píng)估視頻生成模型能否幫助機(jī)器人完成精確的物理操作任務(wù),如抓取物體、搬運(yùn)等。

該環(huán)境的操作復(fù)雜度較高,需要生成的視頻能夠準(zhǔn)確反映物體的位置、運(yùn)動(dòng)軌跡和速度變化,其評(píng)估指標(biāo)包括成功率和軌跡生成質(zhì)量等。

在顯性感知評(píng)估中,研究人員使用了 HF-Embodied 數(shù)據(jù)集,并訓(xùn)練了一個(gè)基于人類偏好反饋(Human Preference Evaluator)的評(píng)估器,通過(guò)人類反饋對(duì)生成視頻進(jìn)行了打分。

圖 | 顯性感知評(píng)估概述(來(lái)源:arXiv

在顯性感知評(píng)估中:

  • 上半部分是指令提示生成。研究人員使用來(lái)自互聯(lián)的大量視頻字幕和預(yù)定義的體現(xiàn)評(píng)估維度。它們經(jīng)過(guò)了 GPT 擴(kuò)展并由人工驗(yàn)證,以創(chuàng)建相應(yīng)的任務(wù)指令提示列表,用于數(shù)據(jù)生成和評(píng)估。

  • 下半部分是 HF-Embodied 數(shù)據(jù)集生成。使用了大量帶有字幕的互聯(lián)具身視頻訓(xùn)練數(shù)據(jù)生成模型。然后根據(jù)相應(yīng)的任務(wù)指令提示列表,將細(xì)粒度的人工反饋?zhàn)⑨寫(xiě)?yīng)用于視頻上,涵蓋多個(gè)體現(xiàn)維度。

在隱性操作評(píng)估中,研究人員通過(guò)將生成的視頻轉(zhuǎn)換為控制信號(hào),并觀察其在各種閉環(huán)具體任務(wù)中的表現(xiàn)來(lái)隱性評(píng)估模擬器的能力。

圖 | 隱性操作評(píng)估概述(來(lái)源:arXiv

在隱性操作評(píng)估中:

  • 不同場(chǎng)景下的具身任務(wù)被分解為可執(zhí)行的子任務(wù)。視頻生成模型根據(jù)當(dāng)前指令和實(shí)時(shí)觀察生成相應(yīng)的預(yù)測(cè)視頻。使用預(yù)先訓(xùn)練的 IDM 或基于目標(biāo)的策略,代理執(zhí)行生成的動(dòng)作序列。

  • 在固定的時(shí)間步長(zhǎng)之后,通過(guò)再次從視頻生成模型中采樣來(lái)刷新預(yù)測(cè)視頻,并重復(fù)此過(guò)程。最后,通過(guò)模擬環(huán)境中的監(jiān)視器獲得各種具身任務(wù)的成功率。

實(shí)驗(yàn)結(jié)果表明,該評(píng)估器在判斷視頻的視覺(jué)質(zhì)量和物理一致性方面,表現(xiàn)大多優(yōu)于傳統(tǒng)的大型語(yǔ)言模型(如 GPT-4o)。

圖 | 人類偏好評(píng)估器與 GPT-4o 的整體性能比較(來(lái)源:arXiv

這些數(shù)據(jù)顯示,使用基于兩種評(píng)估方法的 WorldSimBench 框架,研究人員能夠更精確地捕捉到模型在視覺(jué)生成中的細(xì)微差異,并且能夠更好地反映人類對(duì)視頻生成的實(shí)際期望。

盡管 WorldSimBench 框架在視頻生成模型評(píng)估方面取得了進(jìn)展,但其依然面臨一些挑戰(zhàn)。

比如,HF-Embodied 數(shù)據(jù)集是依賴于大規(guī)模人工標(biāo)注數(shù)據(jù),而且現(xiàn)有的評(píng)估場(chǎng)景集中在虛擬仿真環(huán)境中,如何擴(kuò)展到許多真實(shí)世界的場(chǎng)景仍需要繼續(xù)探索。

最后,基于整體的顯性感知評(píng)估和隱性操作評(píng)估結(jié)果,該課題組得出結(jié)論:當(dāng)前的視頻生成模型仍然無(wú)法有效捕捉許多物理規(guī)則。

作者在論文最后強(qiáng)調(diào),“這表明在它們成為真正的世界模擬器之前,還需要進(jìn)行很多改進(jìn)。”

參考資料:

https://arxiv.org/pdf/2410.18072v1?

運(yùn)營(yíng)/排版:何晨龍

? 版權(quán)聲明
評(píng)論 搶沙發(fā)
加載中~
每日一言
不怕萬(wàn)人阻擋,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender