Vokenisasi: Bahasa yang dapat dilihat oleh AI

KREDIT GAMBAR:
Gambar kredit
iStock

Vokenisasi: Bahasa yang dapat dilihat oleh AI

Vokenisasi: Bahasa yang dapat dilihat oleh AI

Teks subjudul
Dengan gambar yang sekarang dimasukkan ke dalam pelatihan sistem kecerdasan buatan (AI), robot mungkin akan segera dapat "melihat" perintah.
    • Penulis:
    • nama penulis
      Pandangan ke Depan Quantumrun
    • 9 Mei 2023

    Pemrosesan bahasa alami (NLP) telah mengaktifkan sistem kecerdasan buatan (AI) untuk mempelajari ucapan manusia dengan memahami kata-kata dan mencocokkan konteks dengan sentimen. Satu-satunya downside adalah bahwa sistem NLP ini murni berbasis teks. Vokenisasi akan mengubah semua itu.

    Konteks vokenisasi

    Dua program pembelajaran mesin (ML) berbasis teks sering digunakan untuk melatih AI untuk memproses dan memahami bahasa manusia: Generative Pre-trained Transformer 3 (GPT-3) OpenAI dan BERT (Bidirectional Encoder Representations from Transformers) dari Google. Dalam terminologi AI, kata-kata yang digunakan dalam pelatihan NLP disebut token. Peneliti dari University of North Carolina (UNC) mengamati bahwa program pelatihan berbasis teks terbatas karena mereka tidak dapat "melihat", yang berarti mereka tidak dapat menangkap informasi dan komunikasi visual. 

    Misalnya, jika seseorang bertanya kepada GPT-3 apa warna dombanya, sistem akan sering menjawab "hitam" meskipun jelas berwarna putih. Tanggapan ini karena sistem berbasis teks akan mengaitkannya dengan istilah "kambing hitam" alih-alih mengidentifikasi warna yang benar. Dengan menggabungkan visual dengan token (voken), sistem AI dapat memiliki pemahaman istilah secara holistik. Vokenisasi mengintegrasikan voken ke dalam sistem NLP yang diawasi sendiri, memungkinkan mereka untuk mengembangkan "akal sehat".

    Mengintegrasikan model bahasa dan visi komputer bukanlah konsep baru, dan merupakan bidang yang berkembang pesat dalam penelitian AI. Kombinasi kedua jenis AI ini memanfaatkan kekuatan masing-masing. Model bahasa seperti GPT-3 dilatih melalui pembelajaran tanpa pengawasan, yang memungkinkannya untuk diskalakan dengan mudah. Sebaliknya, model gambar seperti sistem pengenalan objek dapat langsung belajar dari kenyataan dan tidak bergantung pada abstraksi yang disediakan oleh teks. Misalnya, model gambar dapat mengenali domba berwarna putih dengan melihat gambar.

    Dampak yang mengganggu

    Proses vokenisasi cukup mudah. Voken dibuat dengan menugaskan gambar yang sesuai atau relevan ke token bahasa. Kemudian, algoritma (vokenizer) dirancang untuk menghasilkan voken melalui pembelajaran tanpa pengawasan (tanpa parameter/aturan eksplisit). Akal sehat AI yang dilatih melalui vokenisasi dapat berkomunikasi dan memecahkan masalah dengan lebih baik karena mereka memiliki pemahaman konteks yang lebih mendalam. Pendekatan ini unik karena tidak hanya memprediksi token bahasa tetapi juga memprediksi token gambar, yang tidak dapat dilakukan oleh model BERT tradisional.

    Misalnya, asisten robot akan dapat mengenali gambar dan menavigasi proses dengan lebih baik karena mereka dapat "melihat" apa yang diminta dari mereka. Sistem kecerdasan buatan yang dilatih untuk menulis konten akan mampu membuat artikel yang terdengar lebih manusiawi, dengan ide yang mengalir lebih baik, bukan kalimat yang terputus-putus. Mempertimbangkan jangkauan aplikasi NLP yang luas, vokenisasi dapat menghasilkan chatbot yang berkinerja lebih baik, asisten virtual, diagnosis medis online, penerjemah digital, dan banyak lagi.

    Selain itu, kombinasi pembelajaran penglihatan dan bahasa semakin populer dalam aplikasi pencitraan medis, khususnya untuk diagnosis citra medis otomatis. Misalnya, beberapa peneliti bereksperimen dengan pendekatan ini pada gambar radiografi dengan deskripsi teks yang menyertainya, di mana segmentasi semantik dapat memakan waktu. Teknik vokenisasi dapat meningkatkan representasi ini dan meningkatkan pencitraan medis otomatis dengan memanfaatkan informasi teks.

    Aplikasi untuk vokenisasi

    Beberapa aplikasi untuk vokenisasi meliputi:

    • Obrolan intuitif yang dapat memproses tangkapan layar, gambar, dan konten situs web. Chatbot dukungan pelanggan, khususnya, mungkin dapat merekomendasikan produk dan layanan secara akurat.
    • Penerjemah digital yang dapat memproses gambar dan video serta menyediakan terjemahan akurat yang mempertimbangkan konteks budaya dan situasional.
    • Pemindai bot media sosial dapat melakukan analisis sentimen yang lebih holistik dengan menggabungkan gambar, keterangan, dan komentar. Aplikasi ini dapat berguna dalam moderasi konten yang memerlukan analisis gambar berbahaya.
    • Meningkatkan peluang kerja untuk visi komputer dan insinyur pembelajaran mesin NLP dan ilmuwan data.
    • Startup membangun sistem AI ini untuk mengkomersialkannya atau memberikan solusi khusus untuk bisnis.

    Pertanyaan untuk dikomentari

    • Menurut Anda, bagaimana lagi vokenisasi akan mengubah cara kita berinteraksi dengan robot?
    • Bagaimana vokenisasi dapat mengubah cara kita berbisnis dan berinteraksi dengan gadget kita (smartphone dan perangkat pintar)?

    Referensi wawasan

    Tautan populer dan institusional berikut dirujuk untuk wawasan ini: