Image to Music V2：上傳圖片後透過 AI 生成音樂

網址

https://huggingface.co/spaces/fffiloni/image-to-music-v2

2024-02-07 09:45:14

Image to Music V2 是一個可以藉由 AI 透過圖片生成音樂的服務，上傳照片後，系統將分析您的圖像，並以文字形式描述它所見的內容，彷彿為圖片編織一段簡短的故事。

隨後，這段文字描述會轉交給一個語言模型代理，轉化為音樂模型能夠理解的啟發性提示。

最終，這些提示會用於生成與主題相符的特定音樂。

以下是我就由這個服務生出來的音樂範例：

主要步驟概述如下：

Image to Music涵蓋了人工智慧多個領域的結合，包括圖像辨識、自然語言處理以及音樂創作。整個過程大致可分為以下幾個階段：

1、圖像辨識：系統首先運用圖像辨識模型（例如Microsoft的Kosmos-2-patch14-224）來分析用戶上傳的圖片。該模型能夠識別圖片中的物件、場景及可能的情感，並基於這些信息生成一段文字描述，這段描述力求忠實反映圖片的內容。

2、自然語言處理（NLP）：接著，將這段文字描述送給一個大型語言模型（如HuggingFace的Zephyr-7b-beta）處理。此階段的目的是將圖像的文字描述轉換成音樂創作的啟發性提示。該語言模型會解讀圖片描述中的內容與情感，並基於此產生一條指引音樂創作的指令，旨在啟發音樂生成模型創作出與圖片內容相匹配的音樂。

3、音樂創作：最後，根據語言模型提供的音樂創作提示，選擇一個音樂生成模型（如MAGNet、MusicGen、AudioLDM-2、Riffusion或Mustango）來創作音樂。這些音樂生成模型會依據啟發性提示來創作出旋律、和聲或是完整的音樂作品，具體取決於模型的設計與能力。

4、用戶自定義：系統允許用戶根據個人偏好和創作需求，調整啟發性提示並選擇不同的音樂生成模型，以提供個性化的音樂創作體驗。用戶可依據自己的喜好調整啟發性提示，並選擇不同的音樂生成模型，以實現多樣的音樂風格與效果。

FashionLabs.AI：透過 AI 協助商業攝影的照片生成 GoDownloader：免費 Facebook、Instagram、Twitter 等社群平台的影音下載服務