Vokenizare: limbaj pe care AI îl poate vedea

CREDIT DE IMAGINE:
Imagine de credit
iStock

Vokenizare: limbaj pe care AI îl poate vedea

Vokenizare: limbaj pe care AI îl poate vedea

Textul subtitlului
Cu imaginile care sunt acum încorporate în instruirea sistemelor de inteligență artificială (AI), roboții ar putea fi în curând capabili să „vadă” comenzile.
    • Autor:
    • Numele autorului
      Previziune Quantumrun
    • 9 Mai, 2023

    Procesarea limbajului natural (NLP) a permis sistemelor de inteligență artificială (AI) să învețe vorbirea umană prin înțelegerea cuvintelor și potrivirea contextului cu sentimentul. Singurul dezavantaj este că aceste sisteme NLP sunt pur bazate pe text. Vokenizarea este pe cale să schimbe toate acestea.

    Contextul de vokenizare

    Două programe de învățare automată (ML) bazate pe text sunt adesea folosite pentru a antrena AI să proceseze și să înțeleagă limbajul uman: Generative Pre-trained Transformer 3 (GPT-3) de la OpenAI și BERT (Bidirectional Encoder Representations from Transformers) de la Google. În terminologia AI, cuvintele folosite în instruirea NLP se numesc tokens. Cercetătorii de la Universitatea din Carolina de Nord (UNC) au observat că programele de instruire bazate pe text sunt limitate, deoarece nu pot „vedea”, adică nu pot capta informații vizuale și comunicare. 

    De exemplu, dacă cineva întreabă GPT-3 care este culoarea oilor, sistemul va răspunde adesea „negru”, chiar dacă este clar alb. Acest răspuns se datorează faptului că sistemul bazat pe text îl va asocia cu termenul „oaie neagră” în loc să identifice culoarea corectă. Încorporând elemente vizuale cu token-uri (voken), sistemele AI pot avea o înțelegere holistică a termenilor. Vokenizarea integrează vokenii în sisteme NLP auto-supravegheate, permițându-le să dezvolte „bunul simț”.

    Integrarea modelelor de limbaj și a viziunii computerizate nu este un concept nou și este un domeniu în expansiune rapidă în cercetarea AI. Combinația acestor două tipuri de AI le valorifică punctele forte individuale. Modelele de limbă precum GPT-3 sunt antrenate prin învățare nesupravegheată, ceea ce le permite să se scaleze cu ușurință. În schimb, modelele de imagine precum sistemele de recunoaștere a obiectelor pot învăța direct din realitate și nu se bazează pe abstractizarea oferită de text. De exemplu, modelele de imagine pot recunoaște că o oaie este albă uitându-se la o imagine.

    Impact perturbator

    Procesul de vokenizare este destul de simplu. Voken-urile sunt create prin alocarea unor imagini corespunzătoare sau relevante jetoanelor de limbă. Apoi, algoritmii (vokenizer) sunt proiectați pentru a genera voken-uri prin învățare nesupravegheată (fără parametri/reguli explicite). AI de bun simț antrenat prin vokenizare poate comunica și rezolva mai bine problemele, deoarece au o înțelegere mai aprofundată a contextului. Această abordare este unică, deoarece nu numai că prezice jetoane de limbaj, ci și jetoane de imagine, ceea ce modelele tradiționale BERT nu sunt capabile să o facă.

    De exemplu, asistenții robotici vor putea să recunoască imaginile și să navigheze mai bine prin procese, deoarece pot „vedea” ceea ce li se cere. Sistemele de inteligență artificială instruite să scrie conținut vor putea crea articole care sună mai uman, cu idei care curg mai bine, în loc de propoziții disjunse. Având în vedere acoperirea largă a aplicațiilor NLP, vokenizarea poate duce la chatbot, asistenți virtuali, diagnostice medicale online, traducători digitali și multe altele mai performante.

    În plus, combinația dintre viziune și învățarea limbilor străine câștigă popularitate în aplicațiile de imagistică medicală, în special pentru diagnosticarea automată a imaginilor medicale. De exemplu, unii cercetători experimentează această abordare pe imagini radiografice cu descrieri de text însoțitoare, unde segmentarea semantică poate consuma timp. Tehnica de vokenizare ar putea îmbunătăți aceste reprezentări și îmbunătăți imagistica medicală automată prin utilizarea informațiilor text.

    Cereri de vokenizare

    Unele aplicații pentru vokenizare pot include:

    • Chatbot intuitivi care pot procesa capturi de ecran, imagini și conținut de site. Chatbot-urile de asistență pentru clienți, în special, pot recomanda cu exactitate produse și servicii.
    • Traducători digitali care pot procesa imagini și videoclipuri și oferă o traducere precisă, care ia în considerare contextul cultural și situațional.
    • Scanerele de bot pentru rețelele sociale sunt capabile să efectueze o analiză mai holistică a sentimentelor prin îmbinarea imaginilor, legendelor și comentariilor. Această aplicație poate fi utilă în moderarea conținutului care necesită analiza imaginilor dăunătoare.
    • Creșterea oportunităților de angajare pentru inginerii de viziune computerizată și NLP și cercetători de date.
    • Startup-uri care se bazează pe aceste sisteme AI pentru a le comercializa sau pentru a oferi soluții personalizate pentru afaceri.

    Întrebări de comentat

    • Cum altfel credeți că vokenizarea va schimba modul în care interacționăm cu roboții?
    • Cum poate vokenizarea să schimbe modul în care conducem afaceri și interacționăm cu gadgeturile noastre (smartphone-uri și aparate inteligente)?

    Referințe de perspectivă

    Următoarele linkuri populare și instituționale au fost menționate pentru această perspectivă: