国产成人免费a在线资源,韩国大尺度理论在线观看

當(dāng)前位置： 首頁 >推薦 > 正文

谷歌研究團隊宣布 AudioPaLM：一個能說能聽的大型語言模型-全球快訊

2023-06-26 06:33:02 來源：站長之家

【資料圖】

編程客棧() 6月25日消息:大型語言模型（LLMs）近幾個月一直備受關(guān)注。作為人工智能領(lǐng)域最重要python的進展之一，這些模型正在改變?nèi)藱C交互的方式。隨著各行各業(yè)紛紛采用這些模型，它們成為人工智能在全球蔓延的最佳例證。

LLMs 在處理復(fù)雜交互和知識檢索任務(wù)時表現(xiàn)出色，其中最著名的例子是由 OpenAI 開發(fā)的 ChatGPT聊天機器人，它基于 GPT 3.5 和 GPT 4 的 Transformer 架構(gòu)。除了文本生成外，還開發(fā)了像 CLIP（對比性語言圖像預(yù)訓(xùn)練）這樣的模型，用于圖像生編程客棧成，使得可以根據(jù)圖像的內(nèi)容生成文本。

為了在音頻生成和理解方面取得進展，Google 的研究團隊推出了 AudioPaLM，這是一個大型語言模型，可以處理語音理解和生成任務(wù)。AudioPaLM 結(jié)合了兩個現(xiàn)有模型的優(yōu)勢，即 PaLM-2 模型和 AudioLM 模型，以產(chǎn)生一個統(tǒng)一的多模態(tài)架構(gòu)，能夠處javascript理和生成文本和語音。這使得 AudioPaLM 可以處理各種應(yīng)用，從語音識別到語音轉(zhuǎn)文字。

雖然 AudioLM 在保持諸如說話者身份和語氣信息方面表現(xiàn)出色，而以文本為基礎(chǔ)的語言模型 PaLM-2 則專注于特定于文本的語言知識。通過結(jié)合這兩個模型，AudioPaLM 利用了 PaLM-2 的語言專業(yè)知識和 AudioLM 的附加語言信息保存能力，從而更全面地理解和生成文本和語音。

AudioPaLM 使用一個聯(lián)合詞匯表，可以使用有限數(shù)量的離散標(biāo)記表示語音和文本。將這個聯(lián)合詞匯表與標(biāo)記化的任務(wù)描述相結(jié)合，可以在各種聲音和基于文本的任務(wù)上訓(xùn)練單個解碼器模型。傳統(tǒng)上需要單獨模型來處理的語音識別、文本轉(zhuǎn)語音合成和語音到語音翻譯等任務(wù)現(xiàn)在可以統(tǒng)一到一個架構(gòu)和訓(xùn)練過程中。

經(jīng)過評估，AudioPaLM 在語音翻譯方面的表現(xiàn)明顯優(yōu)于現(xiàn)有系統(tǒng)。它展示了對語言組合執(zhí)行零樣本語音到文本翻譯的能力，也就是說，它可以準(zhǔn)確地將從未遇到過的語言的語音翻譯成文本，為更廣泛的語言支持開辟了可能性。

AudioPaLM 還可以基于簡短的口語提示在語言之間進行聲音轉(zhuǎn)換，并能捕捉并重現(xiàn)不同語言中的獨特聲音，實現(xiàn)語音轉(zhuǎn)換和適應(yīng)。

團隊提到的 AudioPaLM 主要貢獻包括：

總而言之，AudioPaLM 是一個統(tǒng)一的大型語言模型，通過利用基于文本的語言模型的能力和整合音頻提示技術(shù)，可以同時處理語音和文本，成為 LLM 列表中強有力的補充。

AudioPaLM Hugging Face 頁面：https://huggingface.co/papers/2306.12925

標(biāo)簽：

上一篇：愛美客：公司“注射用A型肉毒毒素”已完成III期臨床試驗世界速遞

上一篇：最后一頁