Vokenization: Språk som AI kan se

BILDEKREDITT:
Bilde kreditt
iStock

Vokenization: Språk som AI kan se

Vokenization: Språk som AI kan se

Underoverskriftstekst
Med bilder som nå blir inkorporert i opplæring av kunstig intelligens (AI), kan roboter snart være i stand til å "se" kommandoer.
    • Forfatter:
    • forfatternavn
      Quantumrun Foresight
    • Kan 9, 2023

    Naturlig språkbehandling (NLP) har gjort det mulig for kunstig intelligens (AI)-systemer å lære menneskelig tale ved å forstå ord og matche kontekst med følelsen. Den eneste ulempen er at disse NLP-systemene er rent tekstbaserte. Vokenization er i ferd med å endre alt det.

    Vokeniseringskontekst

    To tekstbaserte maskinlæringsprogrammer (ML) brukes ofte for å trene AI til å behandle og forstå menneskelig språk: OpenAIs Generative Pre-trained Transformer 3 (GPT-3) og Googles BERT (Bidirectional Encoder Representations from Transformers). I AI-terminologi kalles ordene som brukes i NLP-trening tokens. Forskere fra University of North Carolina (UNC) observerte at tekstbaserte treningsprogrammer er begrenset fordi de ikke kan "se", noe som betyr at de ikke kan fange opp visuell informasjon og kommunikasjon. 

    For eksempel, hvis noen spør GPT-3 hva fargen på sauen er, vil systemet ofte svare «svart» selv om det er tydelig hvitt. Dette svaret er fordi det tekstbaserte systemet vil assosiere det med begrepet "svarte får" i stedet for å identifisere riktig farge. Ved å inkorporere visuelle elementer med tokens (voken), kan AI-systemer ha en helhetlig forståelse av begreper. Vokenization integrerer vokens i selvovervåket NLP-systemer, slik at de kan utvikle "sunn fornuft."

    Integrering av språkmodeller og datasyn er ikke et nytt konsept, og det er et raskt voksende felt innen AI-forskning. Kombinasjonen av disse to typene AI utnytter deres individuelle styrker. Språkmodeller som GPT-3 trenes opp gjennom uovervåket læring, noe som lar dem skalere enkelt. I motsetning til dette kan bildemodeller som objektgjenkjenningssystemer direkte lære av virkeligheten og ikke stole på abstraksjonen fra teksten. For eksempel kan bildemodeller gjenkjenne at en sau er hvit ved å se på et bilde.

    Forstyrrende påvirkning

    Prosessen med vokenisering er ganske grei. Vokens opprettes ved å tilordne tilsvarende eller relevante bilder til språktokens. Deretter er algoritmer (vokenizer) designet for å generere vokens gjennom uovervåket læring (ingen eksplisitte parametere/regler). Sunn fornuft AI trent gjennom vokenisering kan kommunisere og løse problemer bedre fordi de har en mer dyptgående forståelse av kontekst. Denne tilnærmingen er unik fordi den ikke bare forutsier språktokens, men også forutsier bildetokens, noe som tradisjonelle BERT-modeller ikke er i stand til å gjøre.

    For eksempel vil robotassistenter kunne gjenkjenne bilder og navigere i prosesser bedre fordi de kan «se» hva som kreves av dem. Kunstige intelligenssystemer som er trent til å skrive innhold, vil kunne lage artikler som høres mer menneskelige ut, med ideer som flyter bedre, i stedet for usammenhengende setninger. Med tanke på den brede rekkevidden til NLP-applikasjoner, kan vokenisering føre til bedre ytelse chatbots, virtuelle assistenter, online medisinske diagnoser, digitale oversettere og mer.

    I tillegg blir kombinasjonen av syn og språklæring stadig mer populær i medisinsk bildebehandlingsapplikasjoner, spesielt for automatisert medisinsk bildediagnose. For eksempel eksperimenterer noen forskere med denne tilnærmingen på røntgenbilder med tilhørende tekstbeskrivelser, der semantisk segmentering kan være tidkrevende. Vokeniseringsteknikken kan forbedre disse representasjonene og forbedre automatisert medisinsk bildebehandling ved å bruke tekstinformasjonen.

    Søknader om vokenisering

    Noen programmer for vokenisering kan omfatte:

    • Intuitive chatbots som kan behandle skjermbilder, bilder og nettstedinnhold. Spesielt chatbots for kundestøtte kan være i stand til å anbefale produkter og tjenester nøyaktig.
    • Digitale oversettere som kan behandle bilder og videoer og gi en nøyaktig oversettelse som tar hensyn til kulturell og situasjonell kontekst.
    • Sosiale medier-botskannere kan utføre en mer helhetlig sentimentanalyse ved å slå sammen bilder, bildetekster og kommentarer. Denne applikasjonen kan være nyttig i innholdsmoderering som krever analyse av skadelige bilder.
    • Øke arbeidsmuligheter for datasyns- og NLP-maskinlæringsingeniører og dataforskere.
    • Startups som bygger på disse AI-systemene for å kommersialisere dem eller tilby tilpassede løsninger for bedrifter.

    Spørsmål å kommentere

    • Hvordan tror du ellers vokenisering vil endre hvordan vi samhandler med roboter?
    • Hvordan kan vokenisering endre hvordan vi driver forretninger og samhandler med dingsene våre (smarttelefoner og smarte apparater)?

    Innsiktsreferanser

    Følgende populære og institusjonelle lenker ble referert for denne innsikten: