Nvidia展示可修改並生成聲音的AI模型Fugatto
輝達(NVIDIA)周一展示一款用於生成音樂和聲音的新型人工智慧(AI)模型,此模型以音樂、電影和影像遊戲製作者為訴求對象,可以藉此修改聲音並生成新的聲音。
輝達表示,目前還沒有公開發表這項技術的計畫。這項技術稱為 Fugatto,是Foundational Generative Audio Transformer Opus 1的縮寫。這技術與Runway等新創公司和Meta Platforms 等大公司展示的技術一樣,可以根據文字提示來生成聲音或影片。
Nvidia的技術可以根據文字描述生成音效和音樂,包括新奇的聲音,例如讓小號發出狗叫聲。
和其他AI技術的不同之處在於,它能夠接收和修改現有的聲音,例如將鋼琴彈奏的一段旋律轉換成人聲唱出的旋律,或者改變語語錄音的口音和情緒。
輝達應用深度學習研究副總裁 Bryan Catanzaro說:「若回顧過去50年的合成音頻,會發現現在的音樂聽起來已經不同了,因為有了電腦和合成器,我認為生成式AI將為音樂、影像遊戲和想要創造事物的普通人帶來新的功能。」
輝達的新模型是基於開放資料訓練而成,該公司表示仍在討論是否且以什麼方式公開發表這項技術。
FB留言