Vokenizacija: Jezik koji AI može vidjeti

KREDIT ZA SLIKU:
Image credit
iStock

Vokenizacija: Jezik koji AI može vidjeti

Vokenizacija: Jezik koji AI može vidjeti

Tekst podnaslova
S obzirom da se slike sada ugrađuju u obuku sistema umjetne inteligencije (AI), roboti bi uskoro mogli "vidjeti" komande.
    • Autor:
    • Ime autora
      Quantumrun Foresight
    • Može 9, 2023

    Obrada prirodnog jezika (NLP) omogućila je sistemima umjetne inteligencije (AI) da nauče ljudski govor razumijevanjem riječi i usklađivanjem konteksta s osjećajem. Jedina mana je što su ovi NLP sistemi isključivo tekstualni. Vokenizacija će sve to promijeniti.

    Kontekst vokenizacije

    Dva programa za mašinsko učenje zasnovana na tekstu (ML) se često koriste za obuku AI da obrađuje i razumije ljudski jezik: OpenAI-jev Generativni unaprijed obučeni Transformer 3 (GPT-3) i Googleov BERT (Bidirectional Encoder Representations from Transformers). U terminologiji AI, riječi koje se koriste u NLP treningu nazivaju se tokeni. Istraživači sa Univerziteta Sjeverne Karoline (UNC) primijetili su da su programi obuke zasnovani na tekstu ograničeni jer ne mogu "vidjeti", što znači da ne mogu uhvatiti vizualne informacije i komunikaciju. 

    Na primjer, ako neko pita GPT-3 koja je boja ovce, sistem će često odgovoriti "crna" čak i ako je jasno bela. Ovaj odgovor je zato što će ga sistem zasnovan na tekstu povezivati ​​sa terminom "crna ovca" umesto da identifikuje ispravnu boju. Inkorporiranjem vizuala sa tokenima (voken), AI sistemi mogu imati holističko razumijevanje pojmova. Vokenizacija integriše vokene u samonadzirane NLP sisteme, omogućavajući im da razviju "zdrav razum".

    Integracija jezičkih modela i kompjuterske vizije nije nov koncept, i to je polje koje se brzo širi u istraživanju AI. Kombinacija ove dvije vrste umjetne inteligencije koristi njihove individualne snage. Jezički modeli kao što je GPT-3 se obučavaju kroz učenje bez nadzora, što im omogućava da se lako skaliraju. Nasuprot tome, modeli slika poput sistema za prepoznavanje objekata mogu direktno učiti iz stvarnosti i ne oslanjaju se na apstrakciju koju pruža tekst. Na primjer, modeli slika mogu prepoznati da je ovca bijela gledajući sliku.

    Ometajući uticaj

    Proces vokenizacije je prilično jednostavan. Vokeni se kreiraju dodjeljivanjem odgovarajućih ili relevantnih slika jezičkim tokenima. Zatim, algoritmi (vokenizer) su dizajnirani da generišu vokene kroz učenje bez nadzora (bez eksplicitnih parametara/pravila). Zdrav razum AI obučen kroz vokenizaciju može bolje komunicirati i rješavati probleme jer imaju dublje razumijevanje konteksta. Ovaj pristup je jedinstven jer ne samo da predviđa jezične tokene, već predviđa i slikovne tokene, što je nešto što tradicionalni BERT modeli ne mogu učiniti.

    Na primjer, robotski asistenti će moći prepoznati slike i bolje se kretati kroz procese jer mogu "vidjeti" ono što se od njih traži. Sistemi veštačke inteligencije obučeni za pisanje sadržaja moći će da prave članke koji zvuče ljudskije, sa idejama koje bolje teku, umesto nepovezanih rečenica. S obzirom na širok domet NLP aplikacija, vokenizacija može dovesti do boljeg učinka chatbotova, virtuelnih asistenata, online medicinskih dijagnoza, digitalnih prevodilaca i još mnogo toga.

    Dodatno, kombinacija učenja vida i jezika postaje sve popularnija u aplikacijama za medicinsko snimanje, posebno za automatsku dijagnostiku medicinske slike. Na primjer, neki istraživači eksperimentišu s ovim pristupom na rendgenskim slikama s pratećim tekstualnim opisima, gdje semantička segmentacija može biti dugotrajna. Tehnika vokenizacije mogla bi poboljšati ove reprezentacije i poboljšati automatizirano medicinsko snimanje korištenjem tekstualnih informacija.

    Prijave za vokenizaciju

    Neke aplikacije za vokenizaciju mogu uključivati:

    • Intuitivni chat botovi koji mogu obraditi snimke ekrana, slike i sadržaj web stranice. Chatbotovi za korisničku podršku, posebno, mogu biti u mogućnosti da precizno preporuče proizvode i usluge.
    • Digitalni prevodioci koji mogu da obrađuju slike i video zapise i daju tačan prevod koji uzima u obzir kulturni i situacioni kontekst.
    • Bot-skeneri društvenih medija koji su u stanju da provedu holistiju analizu osjećaja spajanjem slika, natpisa i komentara. Ova aplikacija može biti korisna u moderiranju sadržaja koji zahtijeva analizu štetnih slika.
    • Povećanje mogućnosti zapošljavanja za inženjere kompjuterskog vida i NLP mašinskog učenja i naučnike podataka.
    • Startupi se grade na ovim AI sistemima kako bi ih komercijalizirali ili pružili prilagođena rješenja za preduzeća.

    Pitanja za komentar

    • Šta inače mislite da će vokenizacija promijeniti način na koji komuniciramo s robotima?
    • Kako vokenizacija može promijeniti način na koji vodimo posao i komuniciramo s našim gadžetima (pametnim telefonima i pametnim uređajima)?

    Insight reference

    Za ovaj uvid referencirane su sljedeće popularne i institucionalne veze: