【資料圖】
編程客棧() 6月25日消息:大型語言模型(LLMs)近幾個月一直備受關(guān)注。作為人工智能領(lǐng)域最重要python的進展之一,這些模型正在改變?nèi)藱C交互的方式。隨著各行各業(yè)紛紛采用這些模型,它們成為人工智能在全球蔓延的最佳例證。
LLMs 在處理復(fù)雜交互和知識檢索任務(wù)時表現(xiàn)出色,其中最著名的例子是由 OpenAI 開發(fā)的 ChatGPT聊天機器人,它基于 GPT 3.5 和 GPT 4 的 Transformer 架構(gòu)。除了文本生成外,還開發(fā)了像 CLIP(對比性語言圖像預(yù)訓(xùn)練)這樣的模型,用于圖像生編程客棧成,使得可以根據(jù)圖像的內(nèi)容生成文本。
為了在音頻生成和理解方面取得進展,Google 的研究團隊推出了 AudioPaLM,這是一個大型語言模型,可以處理語音理解和生成任務(wù)。AudioPaLM 結(jié)合了兩個現(xiàn)有模型的優(yōu)勢,即 PaLM-2 模型和 AudioLM 模型,以產(chǎn)生一個統(tǒng)一的多模態(tài)架構(gòu),能夠處javascript理和生成文本和語音。這使得 AudioPaLM 可以處理各種應(yīng)用,從語音識別到語音轉(zhuǎn)文字。
雖然 AudioLM 在保持諸如說話者身份和語氣信息方面表現(xiàn)出色,而以文本為基礎(chǔ)的語言模型 PaLM-2 則專注于特定于文本的語言知識。通過結(jié)合這兩個模型,AudioPaLM 利用了 PaLM-2 的語言專業(yè)知識和 AudioLM 的附加語言信息保存能力,從而更全面地理解和生成文本和語音。
AudioPaLM 使用一個聯(lián)合詞匯表,可以使用有限數(shù)量的離散標(biāo)記表示語音和文本。將這個聯(lián)合詞匯表與標(biāo)記化的任務(wù)描述相結(jié)合,可以在各種聲音和基于文本的任務(wù)上訓(xùn)練單個解碼器模型。傳統(tǒng)上需要單獨模型來處理的語音識別、文本轉(zhuǎn)語音合成和語音到語音翻譯等任務(wù)現(xiàn)在可以統(tǒng)一到一個架構(gòu)和訓(xùn)練過程中。
經(jīng)過評估,AudioPaLM 在語音翻譯方面的表現(xiàn)明顯優(yōu)于現(xiàn)有系統(tǒng)。它展示了對語言組合執(zhí)行零樣本語音到文本翻譯的能力,也就是說,它可以準(zhǔn)確地將從未遇到過的語言的語音翻譯成文本,為更廣泛的語言支持開辟了可能性。
AudioPaLM 還可以基于簡短的口語提示在語言之間進行聲音轉(zhuǎn)換,并能捕捉并重現(xiàn)不同語言中的獨特聲音,實現(xiàn)語音轉(zhuǎn)換和適應(yīng)。
團隊提到的 AudioPaLM 主要貢獻包括:
總而言之,AudioPaLM 是一個統(tǒng)一的大型語言模型,通過利用基于文本的語言模型的能力和整合音頻提示技術(shù),可以同時處理語音和文本,成為 LLM 列表中強有力的補充。
AudioPaLM Hugging Face 頁面:https://huggingface.co/papers/2306.12925
標(biāo)簽: