Vokenization:人工智能可以看到的語言

圖片來源:
圖片來源
iStock

Vokenization:人工智能可以看到的語言

Vokenization:人工智能可以看到的語言

副標題文字
隨著圖像現在被納入人工智能 (AI) 系統訓練,機器人可能很快就能“看到”命令。
    • 作者:
    • 作者姓名
      量子運行遠見
    • 2023 年 5 月 9 日

    自然語言處理 (NLP) 使人工智能 (AI) 系統能夠通過理解單詞並將上下文與情緒匹配來學習人類語音。 唯一的缺點是這些 NLP 系統是純粹基於文本的。 語音化即將改變這一切。

    語音化上下文

    兩種基於文本的機器學習 (ML) 程序通常用於訓練 AI 處理和理解人類語言:OpenAI 的生成式預訓練 Transformer 3 (GPT-3) 和谷歌的 BERT(來自 Transformers 的雙向編碼器表示)。 在 AI 術語中,NLP 訓練中使用的詞稱為標記。 北卡羅來納大學 (UNC) 的研究人員觀察到,基於文本的培訓計劃是有限的,因為它們無法“看到”,這意味著它們無法捕捉視覺信息和交流。 

    例如,如果有人問 GPT-3 羊是什麼顏色的,系統通常會回答“黑色”,即使它顯然是白色的。 此響應是因為基於文本的系統會將其與術語“害群之馬”相關聯,而不是識別正確的顏色。 通過將視覺效果與標記 (voken) 相結合,AI 系統可以對術語有一個整體的理解。 Vokenization 將 vokens 集成到自我監督的 NLP 系統中,使它們能夠發展“常識”。

    整合語言模型和計算機視覺並不是一個新概念,它是 AI 研究中一個快速擴展的領域。 這兩種類型的人工智能的結合利用了它們各自的優勢。 像 GPT-3 這樣的語言模型是通過無監督學習進行訓練的,這使得它們可以輕鬆擴展。 相比之下,像對象識別系統這樣的圖像模型可以直接從現實中學習,而不依賴於文本提供的抽象。 例如,圖像模型可以通過看圖片識別出一隻羊是白色的。

    破壞性影響

    vokenization 的過程非常簡單。 Vokens 是通過將相應或相關的圖像分配給語言標記來創建的。 然後,算法(vokenizer)被設計為通過無監督學習(沒有明確的參數/規則)生成vokens。 通過vokenization訓練的常識AI可以更好地交流和解決問題,因為它們對上下文有更深入的理解。 這種方法是獨一無二的,因為它不僅可以預測語言標記,還可以預測圖像標記,這是傳統 BERT 模型無法做到的。

    例如,機器人助手將能夠更好地識別圖像和導航流程,因為他們可以“看到”他們需要什麼。 受過編寫內容訓練的人工智能係統將能夠製作出聽起來更人性化、思想更流暢的文章,而不是雜亂無章的句子。 考慮到 NLP 應用的廣泛範圍,語音化可以帶來性能更好的聊天機器人、虛擬助手、在線醫療診斷、數字翻譯等。

    此外,視覺和語言學習的結合在醫學成像應用中越來越受歡迎,特別是自動化醫學圖像診斷。 例如,一些研究人員正在對附帶文本描述的射線照片圖像進行這種方法的試驗,其中語義分割可能非常耗時。 語音識別技術可以通過利用文本信息來增強這些表示並改進自動化醫學成像。

    語音化應用

    Vokenization 的一些應用程序可能包括:

    • 可以處理屏幕截圖、圖片和網站內容的直觀聊天機器人。 客戶支持聊天機器人尤其能夠準確地推薦產品和服務。
    • 可以處理圖像和視頻並提供考慮了文化和情境的準確翻譯的數字翻譯器。
    • 社交媒體機器人掃描器能夠通過合併圖像、標題和評論來進行更全面的情緒分析。 此應用程序可用於需要分析有害圖像的內容審核。
    • 增加計算機視覺和 NLP 機器學習工程師和數據科學家的就業機會。
    • 以這些人工智能係統為基礎的初創公司將其商業化或為企業提供定制的解決方案。

    要評論的問題

    • 您認為語音化還會如何改變我們與機器人的互動方式?
    • 語音化如何改變我們開展業務以及與我們的小工具(智能手機和智能電器)互動的方式?

    洞察參考

    此見解引用了以下流行和機構鏈接: