Vokenització: llenguatge que la IA pot veure

CRÈDIT DE LA IMATGE:
Crèdit d'imatge
iStock

Vokenització: llenguatge que la IA pot veure

Vokenització: llenguatge que la IA pot veure

Text del subtítol
Amb les imatges que s'incorporen ara a l'entrenament dels sistemes d'intel·ligència artificial (IA), els robots aviat podrien "veure" les ordres.
    • autor:
    • nom de l'autor
      Previsió de Quantumrun
    • Pot 9, 2023

    El processament del llenguatge natural (PNL) ha permès que els sistemes d'intel·ligència artificial (IA) aprenguin la parla humana entenent paraules i fent coincidir el context amb el sentiment. L'únic inconvenient és que aquests sistemes de PNL es basen exclusivament en text. La vokenització està a punt de canviar tot això.

    Context de vokenització

    Sovint s'utilitzen dos programes d'aprenentatge automàtic (ML) basats en text per entrenar la IA per processar i entendre el llenguatge humà: el Generative Pre-Trained Transformer 3 (GPT-3) d'OpenAI i el BERT (Bidireccional Encoder Representations from Transformers) de Google. En terminologia d'IA, les paraules utilitzades en l'entrenament de PNL s'anomenen fitxes. Investigadors de la Universitat de Carolina del Nord (UNC) van observar que els programes de formació basats en text són limitats perquè no poden "veure", és a dir, no poden capturar informació visual i comunicació. 

    Per exemple, si algú pregunta a GPT-3 quin és el color de l'ovella, el sistema sovint respondrà "negre", encara que sigui clarament blanc. Aquesta resposta és perquè el sistema basat en text l'associarà amb el terme "ovella negra" en lloc d'identificar el color correcte. En incorporar elements visuals amb fitxes (voken), els sistemes d'IA poden tenir una comprensió holística dels termes. La vokenització integra els vokens en sistemes de PNL autosupervisats, cosa que els permet desenvolupar el "sentit comú".

    La integració de models de llenguatge i visió per computador no és un concepte nou, i és un camp en ràpida expansió en la investigació de la IA. La combinació d'aquests dos tipus d'IA aprofita els seus punts forts individuals. Els models lingüístics com el GPT-3 s'entrenen mitjançant un aprenentatge no supervisat, cosa que els permet escalar fàcilment. En canvi, els models d'imatge com els sistemes de reconeixement d'objectes poden aprendre directament de la realitat i no es basen en l'abstracció que proporciona el text. Per exemple, els models d'imatge poden reconèixer que una ovella és blanca mirant una imatge.

    Impacte disruptiu

    El procés de vokenització és bastant senzill. Els vokens es creen assignant imatges corresponents o rellevants a fitxes d'idioma. Aleshores, els algorismes (vokenizer) estan dissenyats per generar vokens mitjançant un aprenentatge no supervisat (sense paràmetres/regles explícits). La IA de sentit comú entrenada mitjançant la vokenització pot comunicar-se i resoldre millor els problemes perquè tenen una comprensió més profunda del context. Aquest enfocament és únic perquè no només prediu fitxes d'idioma sinó que també prediu fitxes d'imatge, cosa que els models BERT tradicionals no poden fer.

    Per exemple, els assistents robòtics podran reconèixer imatges i navegar millor pels processos perquè poden "veure" el que se'ls requereix. Els sistemes d'intel·ligència artificial entrenats per escriure contingut seran capaços d'elaborar articles que sonin més humans, amb idees que flueixin millor, en lloc de frases inconnexes. Tenint en compte l'ampli abast de les aplicacions de PNL, la vokenització pot conduir a chatbots, assistents virtuals, diagnòstics mèdics en línia, traductors digitals i molt més de millor rendiment.

    A més, la combinació de visió i aprenentatge d'idiomes està guanyant popularitat en aplicacions d'imatge mèdica, específicament per al diagnòstic d'imatges mèdiques automatitzat. Per exemple, alguns investigadors estan experimentant amb aquest enfocament en imatges de radiografia amb descripcions de text acompanyades, on la segmentació semàntica pot consumir molt de temps. La tècnica de vokenització podria millorar aquestes representacions i millorar la imatge mèdica automatitzada mitjançant la utilització de la informació del text.

    Sol·licituds de vokenització

    Algunes aplicacions de vokenització poden incloure:

    • Chatbots intuïtius que poden processar captures de pantalla, imatges i contingut del lloc web. Els chatbots d'atenció al client, en particular, poden recomanar productes i serveis amb precisió.
    • Traductors digitals que poden processar imatges i vídeos i oferir una traducció precisa que tingui en compte el context cultural i situacional.
    • Els escàners de bots de xarxes socials poden dur a terme una anàlisi de sentiments més holística combinant imatges, subtítols i comentaris. Aquesta aplicació pot ser útil en la moderació de contingut que requereix l'anàlisi d'imatges nocives.
    • Augment de les oportunitats laborals per a enginyers de visió per computador i PNL i científics de dades.
    • Startups que es basen en aquests sistemes d'IA per comercialitzar-los o oferir solucions personalitzades per a les empreses.

    Preguntes per comentar

    • De quina altra manera creus que la vokenització canviarà la manera com interactuem amb els robots?
    • Com pot la vokenització canviar la manera com fem negocis i interactuem amb els nostres aparells (telèfons intel·ligents i aparells intel·ligents)?

    Referències insight

    Es va fer referència als següents enllaços populars i institucionals per a aquesta visió: