這是一個由史丹佛大學和谷歌合作開發的專案。
它能夠根據使用者提供的文字描述或圖片,自動生成一系列3D場景的連續畫面。
這些場景不僅多樣化,而且彼此之間還能緊密衔接,形成一種虛擬的「奇妙旅程」場景。而且你只需要輸入一段描述或上傳一張圖片即可...
主要功能特點:
與之前專注於單一場景類型的視圖生成工作不同,WonderJourney從任何使用者提供的位置(通過文本描述或圖像)開始,生成一系列多樣化但連貫相連的3D場景。
1、從任意位置出發:使用者可以通過提供一段文字描述或一張圖片來指定一個起始點。基於這個起始點WonderJourney將生成一系列3D場景。
例如,如果使用者上傳一張森林的圖片或描述一個城市景觀,WonderJourney會從這個場景開始,創造一連串與之相關的3D場景。
2、長時間的「奇妙之旅」:WonderJourney能夠生成不僅多樣化而且持續較長時間的3D場景序列。
使用者可以體驗一段長時間的虛擬旅程,其中場景會連續不斷地變化,提供豐富的視覺體驗。
3、多樣化的目的地:即使從同一個起始點出發,WonderJourney也能生成通往不同「目的地」的多條「奇妙之旅」。
例如,從同一張森林圖片出發,一條旅程可能以山脈為終點,而另一條可能以海灘結束,展現出不同的場景和風格。
4、受控的「奇妙之旅」:使用者可以通過提供一系列文本描述(如詩歌、俳句或故事摘要)來指導生成的旅程。
這允許使用者創造更具個性和主題性的旅程。例如,根據一首詩的情感和意象,生成一系列與之相相符的場景。
工作原理:
該框架利用大型語言模型(LLM)生成場景的文本描述,一個由文本驅動的點雲生成管道來製作引人入勝且連貫的3D場景序列,以及一個視覺語言模型(VLM)來驗證生成的場景。
1、場景描述生成:使用大型語言模型(LLM)自動生成場景描述。根據使用者輸入的文本或圖像,LLM提供場景的語義和概念描述。
2、文本驅動的視覺場景生成:根據LLM生成的場景描述,使用文本驅動的視覺場景生成模塊創建3D場景。該模塊將文本描述轉換為彩色點雲,形成3D場景。
3、視覺驗證:使用視覺語言模型(VLM)對生成的場景進行檢查。確保場景沒有不希望的視覺效果,如視覺上的錯誤或不連貫性。
4、連貫性和多樣性:生成的3D場景在視覺上連貫,同時在風格和類型上多樣化。形成一種連續的視覺旅程,模擬在一個虛擬「奇妙世界」中的體驗。