語音識別語言ai可見

圖片來源：

iStock

Vokenization：人工智能可以看到的語言

隨著圖像現在被納入人工智能 (AI) 系統訓練，機器人可能很快就能“看到”命令。

作者：
作者姓名
量子運行遠見
2023 年 5 月 9 日

自然語言處理 (NLP) 使人工智能 (AI) 系統能夠通過理解單詞並將上下文與情緒匹配來學習人類語音。唯一的缺點是這些 NLP 系統是純粹基於文本的。語音化即將改變這一切。

語音化上下文

兩種基於文本的機器學習 (ML) 程序通常用於訓練 AI 處理和理解人類語言：OpenAI 的生成式預訓練 Transformer 3 (GPT-3) 和谷歌的 BERT（來自 Transformers 的雙向編碼器表示）。在 AI 術語中，NLP 訓練中使用的詞稱為標記。北卡羅來納大學 (UNC) 的研究人員觀察到，基於文本的培訓計劃是有限的，因為它們無法“看到”，這意味著它們無法捕捉視覺信息和交流。

例如，如果有人問 GPT-3 羊是什麼顏色的，系統通常會回答“黑色”，即使它顯然是白色的。此響應是因為基於文本的系統會將其與術語“害群之馬”相關聯，而不是識別正確的顏色。通過將視覺效果與標記 (voken) 相結合，AI 系統可以對術語有一個整體的理解。 Vokenization 將 vokens 集成到自我監督的 NLP 系統中，使它們能夠發展“常識”。

整合語言模型和計算機視覺並不是一個新概念，它是 AI 研究中一個快速擴展的領域。這兩種類型的人工智能的結合利用了它們各自的優勢。像 GPT-3 這樣的語言模型是通過無監督學習進行訓練的，這使得它們可以輕鬆擴展。相比之下，像對象識別系統這樣的圖像模型可以直接從現實中學習，而不依賴於文本提供的抽象。例如，圖像模型可以通過看圖片識別出一隻羊是白色的。

破壞性影響

vokenization 的過程非常簡單。 Vokens 是通過將相應或相關的圖像分配給語言標記來創建的。然後，算法（vokenizer）被設計為通過無監督學習（沒有明確的參數/規則）生成vokens。通過vokenization訓練的常識AI可以更好地交流和解決問題，因為它們對上下文有更深入的理解。這種方法是獨一無二的，因為它不僅可以預測語言標記，還可以預測圖像標記，這是傳統 BERT 模型無法做到的。

例如，機器人助手將能夠更好地識別圖像和導航流程，因為他們可以“看到”他們需要什麼。受過編寫內容訓練的人工智能係統將能夠製作出聽起來更人性化、思想更流暢的文章，而不是雜亂無章的句子。考慮到 NLP 應用的廣泛範圍，語音化可以帶來性能更好的聊天機器人、虛擬助手、在線醫療診斷、數字翻譯等。

此外，視覺和語言學習的結合在醫學成像應用中越來越受歡迎，特別是自動化醫學圖像診斷。例如，一些研究人員正在對附帶文本描述的射線照片圖像進行這種方法的試驗，其中語義分割可能非常耗時。語音識別技術可以通過利用文本信息來增強這些表示並改進自動化醫學成像。