WonderJourney：透過一張圖片讓 AI 生成連續場景的動畫

網址

2023-12-11 11:23:42

這是一個由史丹佛大學和谷歌合作開發的專案。

它能夠根據使用者提供的文字描述或圖片，自動生成一系列3D場景的連續畫面。

這些場景不僅多樣化，而且彼此之間還能緊密衔接，形成一種虛擬的「奇妙旅程」場景。而且你只需要輸入一段描述或上傳一張圖片即可...

主要功能特點：

與之前專注於單一場景類型的視圖生成工作不同，WonderJourney從任何使用者提供的位置（通過文本描述或圖像）開始，生成一系列多樣化但連貫相連的3D場景。

1、從任意位置出發：使用者可以通過提供一段文字描述或一張圖片來指定一個起始點。基於這個起始點WonderJourney將生成一系列3D場景。
例如，如果使用者上傳一張森林的圖片或描述一個城市景觀，WonderJourney會從這個場景開始，創造一連串與之相關的3D場景。
2、長時間的「奇妙之旅」：WonderJourney能夠生成不僅多樣化而且持續較長時間的3D場景序列。
使用者可以體驗一段長時間的虛擬旅程，其中場景會連續不斷地變化，提供豐富的視覺體驗。
3、多樣化的目的地：即使從同一個起始點出發，WonderJourney也能生成通往不同「目的地」的多條「奇妙之旅」。
例如，從同一張森林圖片出發，一條旅程可能以山脈為終點，而另一條可能以海灘結束，展現出不同的場景和風格。
4、受控的「奇妙之旅」：使用者可以通過提供一系列文本描述（如詩歌、俳句或故事摘要）來指導生成的旅程。
這允許使用者創造更具個性和主題性的旅程。例如，根據一首詩的情感和意象，生成一系列與之相相符的場景。

工作原理：

該框架利用大型語言模型（LLM）生成場景的文本描述，一個由文本驅動的點雲生成管道來製作引人入勝且連貫的3D場景序列，以及一個視覺語言模型（VLM）來驗證生成的場景。

1、場景描述生成：使用大型語言模型（LLM）自動生成場景描述。根據使用者輸入的文本或圖像，LLM提供場景的語義和概念描述。
2、文本驅動的視覺場景生成：根據LLM生成的場景描述，使用文本驅動的視覺場景生成模塊創建3D場景。該模塊將文本描述轉換為彩色點雲，形成3D場景。
3、視覺驗證：使用視覺語言模型（VLM）對生成的場景進行檢查。確保場景沒有不希望的視覺效果，如視覺上的錯誤或不連貫性。
4、連貫性和多樣性：生成的3D場景在視覺上連貫，同時在風格和類型上多樣化。形成一種連續的視覺旅程，模擬在一個虛擬「奇妙世界」中的體驗。