Vokenization: AI が認識できる言語

画像クレジット:
画像著作権
iStock

Vokenization: AI が認識できる言語

Vokenization: AI が認識できる言語

小見出しのテキスト
現在、画像が人工知能 (AI) システムのトレーニングに組み込まれているため、ロボットはすぐにコマンドを「見る」ことができるようになるかもしれません。
    • 著者:
    • 著者名
      クォンタムラン・フォーサイト
    • 2023 年 5 月 9 日

    自然言語処理 (NLP) により、人工知能 (AI) システムは、単語を理解し、文脈と感情を照合することで、人間の音声を学習できるようになりました。 唯一の欠点は、これらの NLP システムが純粋にテキストベースであることです。 音声化はそのすべてを変えようとしています。

    音声化コンテキスト

    人間の言語を処理して理解するように AI をトレーニングするために、3 つのテキストベースの機械学習 (ML) プログラムがよく使用されます。それは、OpenAI の Generative Pre-trained Transformer 3 (GPT-XNUMX) と Google の BERT (Bidirectional Encoder Representations from Transformers) です。 AI 用語では、NLP トレーニングで使用される単語はトークンと呼ばれます。 ノースカロライナ大学 (UNC) の研究者は、「見る」ことができないため、テキストベースのトレーニング プログラムが制限されていることを観察しました。つまり、視覚的な情報やコミュニケーションを捉えることができないということです。 

    たとえば、誰かが GPT-3 に羊の色を尋ねた場合、システムは明らかに白であっても「黒」と答えることがよくあります。 この応答は、テキストベースのシステムが正しい色を識別する代わりに、「黒い羊」という用語に関連付けるためです。 ビジュアルにトークン (voken) を組み込むことで、AI システムは用語を全体的に理解することができます。 Vokenization は、vokens を自己監視型 NLP システムに統合し、「常識」を開発できるようにします。

    言語モデルとコンピューター ビジョンの統合は新しい概念ではなく、AI 研究で急速に拡大している分野です。 この 3 種類の AI を組み合わせることで、それぞれの強みが活かされます。 GPT-XNUMX のような言語モデルは、教師なし学習によってトレーニングされるため、簡単にスケーリングできます。 対照的に、オブジェクト認識システムのような画像モデルは、現実から直接学習することができ、テキストによって提供される抽象化に依存しません。 たとえば、画像モデルは、写真を見て羊が白いことを認識できます。

    破壊的な影響

    音声化のプロセスは非常に簡単です。 Vokens は、対応するまたは関連するイメージを言語トークンに割り当てることによって作成されます。 次に、アルゴリズム (vokenizer) は、教師なし学習 (明示的なパラメーター/ルールなし) を通じて vokes を生成するように設計されています。 音声化によって訓練された常識的な AI は、コンテキストをより深く理解しているため、より適切にコミュニケーションを取り、問題を解決することができます。 このアプローチは、言語トークンを予測するだけでなく、従来の BERT モデルでは不可能だったイメージ トークンも予測するという点で独特です。

    たとえば、ロボット アシスタントは、必要なものを「見る」ことができるため、画像を認識し、プロセスをより適切にナビゲートできるようになります。 コンテンツを書くように訓練された人工知能システムは、支離滅裂な文章ではなく、より人間味のある記事を作成できるようになるでしょう。 NLP アプリケーションの幅広い範囲を考慮すると、音声化は、より優れたパフォーマンスのチャットボット、仮想アシスタント、オンライン医療診断、デジタル翻訳などにつながる可能性があります。

    さらに、視覚と言語学習の組み合わせは、医療画像アプリケーション、特に自動医療画像診断で人気が高まっています。 たとえば、セマンティック セグメンテーションに時間がかかる可能性がある場合、一部の研究者は X 線画像にテキスト説明を付けてこのアプローチを試しています。 音声化技術は、テキスト情報を利用することで、これらの表現を強化し、自動化された医用画像を改善することができます。

    音声化の申請

    音声化のアプリケーションには、次のものがあります。

    • スクリーンショット、写真、ウェブサイトのコンテンツを処理できる直感的なチャットボット。 特に、カスタマー サポートのチャットボットは、製品やサービスを正確に推奨できる可能性があります。
    • 画像や動画を処理し、文化や状況を考慮した正確な翻訳を提供できるデジタル翻訳者。
    • ソーシャル メディア ボット スキャナーは、画像、キャプション、コメントを結合することで、より全体的な感情分析を実行できます。 このアプリケーションは、有害な画像の分析を必要とするコンテンツ モデレートに役立ちます。
    • コンピューター ビジョンおよび NLP 機械学習エンジニアとデータ サイエンティストの雇用機会の増加。
    • これらの AI システムに基づいて構築し、それらを商品化するか、ビジネス向けにカスタマイズされたソリューションを提供するスタートアップ。

    コメントする質問

    • 音声化は、ロボットとのやり取りをどのように変えると思いますか?
    • 音声化は、私たちがビジネスを行い、ガジェット (スマートフォンやスマート家電) と対話する方法をどのように変えることができるでしょうか?

    インサイトの参照

    この洞察のために、次の一般的な機関リンクが参照されました。

    カリフォルニア大学バークレー校 Vokenization: 視覚と言語のためのマルチモデル学習