Vokenizacija: jezik, ki ga lahko vidi AI

KREDIT ZA SLIKO:
Image kredit
iStock

Vokenizacija: jezik, ki ga lahko vidi AI

Vokenizacija: jezik, ki ga lahko vidi AI

Besedilo podnaslova
S slikami, ki so zdaj vključene v usposabljanje sistemov umetne inteligence (AI), bodo roboti kmalu lahko "videli" ukaze.
    • Avtor:
    • ime avtorja
      Quantumrun Foresight
    • Maj 9, 2023

    Obdelava naravnega jezika (NLP) je omogočila sistemom umetne inteligence (AI), da se naučijo človeškega govora z razumevanjem besed in povezovanjem konteksta z občutkom. Edina slaba stran je, da so ti sistemi NLP izključno besedilni. Vokenizacija bo vse to spremenila.

    Kontekst vokenizacije

    Za usposabljanje umetne inteligence za obdelavo in razumevanje človeškega jezika se pogosto uporabljata dva besedilna programa strojnega učenja (ML): OpenAI Generative Pre-trained Transformer 3 (GPT-3) in Googlov BERT (Bidirectional Encoder Representations from Transformers). V terminologiji AI se besede, ki se uporabljajo pri NLP treningu, imenujejo žetoni. Raziskovalci z Univerze v Severni Karolini (UNC) so opazili, da so programi usposabljanja, ki temeljijo na besedilu, omejeni, ker ne morejo "videti", kar pomeni, da ne morejo zajeti vizualnih informacij in komunikacije. 

    Na primer, če nekdo vpraša GPT-3, kakšne barve je ovca, bo sistem pogosto odgovoril "črna", tudi če je očitno bela. Ta odgovor je zato, ker ga bo sistem, ki temelji na besedilu, povezal z izrazom "črna ovca", namesto da bi identificiral pravilno barvo. Z vključitvijo vizualnih elementov z žetoni (voken) lahko sistemi AI celostno razumejo izraze. Vokenizacija integrira vokene v samonadzorovane sisteme NLP, kar jim omogoča, da razvijejo "zdrav razum".

    Integracija jezikovnih modelov in računalniškega vida ni nov koncept in je hitro rastoče področje raziskav AI. Kombinacija teh dveh vrst umetne inteligence izkorišča njihove individualne prednosti. Jezikovni modeli, kot je GPT-3, se usposabljajo z nenadzorovanim učenjem, kar omogoča enostavno prilagajanje. Nasprotno pa se slikovni modeli, kot so sistemi za prepoznavanje objektov, lahko neposredno učijo iz resničnosti in se ne zanašajo na abstrakcijo, ki jo ponuja besedilo. Na primer, slikovni modeli lahko prepoznajo, da je ovca bela, če pogledajo sliko.

    Moteč vpliv

    Postopek vokenizacije je precej preprost. Vokeni so ustvarjeni z dodelitvijo ustreznih ali ustreznih slik jezikovnim žetonom. Nato so algoritmi (vokenizer) oblikovani za ustvarjanje vokenov z nenadzorovanim učenjem (brez izrecnih parametrov/pravil). Zdravorazumska umetna inteligenca, usposobljena z vokenizacijo, lahko bolje komunicira in rešuje probleme, ker bolj poglobljeno razume kontekst. Ta pristop je edinstven, ker ne predvideva le jezikovnih žetonov, temveč tudi slikovne žetone, česar tradicionalni modeli BERT ne zmorejo.

    Na primer, robotski pomočniki bodo lahko prepoznali slike in bolje krmarili po procesih, ker bodo lahko »videli«, kaj se od njih zahteva. Sistemi umetne inteligence, ki so usposobljeni za pisanje vsebin, bodo lahko oblikovali članke, ki bodo zveneli bolj človeško, z idejami, ki bodo bolje tekle, namesto nepovezanih stavkov. Glede na širok doseg aplikacij NLP lahko vokenizacija vodi do učinkovitejših klepetalnih robotov, virtualnih pomočnikov, spletnih zdravstvenih diagnoz, digitalnih prevajalnikov in še več.

    Poleg tega kombinacija vida in učenja jezika postaja vse bolj priljubljena v aplikacijah za medicinsko slikanje, posebej za avtomatsko diagnozo medicinskih slik. Na primer, nekateri raziskovalci eksperimentirajo s tem pristopom na radiografskih slikah s spremljajočimi besedilnimi opisi, kjer je semantična segmentacija lahko zamudna. Tehnika vokenizacije bi lahko izboljšala te predstavitve in izboljšala avtomatizirano medicinsko slikanje z uporabo besedilnih informacij.

    Prijave za vokenizacijo

    Nekatere aplikacije za vokenizacijo lahko vključujejo:

    • Intuitivni chatboti, ki lahko obdelujejo posnetke zaslona, ​​slike in vsebino spletnega mesta. Zlasti chatboti za podporo strankam lahko natančno priporočijo izdelke in storitve.
    • Digitalni prevajalci, ki lahko obdelajo slike in videoposnetke ter zagotovijo natančen prevod, ki upošteva kulturni in situacijski kontekst.
    • Skenerji robotov za družbene medije lahko izvedejo bolj celovito analizo občutkov z združevanjem slik, napisov in komentarjev. Ta aplikacija je lahko uporabna pri moderiranju vsebine, ki zahteva analizo škodljivih slik.
    • Povečanje zaposlitvenih možnosti za inženirje računalniškega vida in strojnega učenja NLP ter podatkovne znanstvenike.
    • Startupi, ki gradijo na teh sistemih umetne inteligence, da bi jih komercializirali ali zagotovili prilagojene rešitve za podjetja.

    Vprašanja za komentiranje

    • Kako drugače mislite, da bo vokenizacija spremenila našo interakcijo z roboti?
    • Kako lahko vokenizacija spremeni naše poslovanje in interakcijo z našimi pripomočki (pametnimi telefoni in pametnimi napravami)?

    Insight reference

    Za ta vpogled so bile navedene naslednje priljubljene in institucionalne povezave: