Vokenisering sprog ai kan se

BILLEDKREDIT:

iStock

Vokenization: Sprog, som AI kan se

Med billeder, der nu bliver inkorporeret i kunstig intelligens (AI) systemtræning, vil robotter måske snart være i stand til at "se" kommandoer.

Forfatter:
Forfatter navn
Quantumrun Foresight
Maj 9, 2023

Naturlig sprogbehandling (NLP) har gjort det muligt for kunstig intelligens (AI)-systemer at lære menneskelig tale ved at forstå ord og matche kontekst med følelsen. Den eneste ulempe er, at disse NLP-systemer er rent tekstbaserede. Vokenization er ved at ændre alt det.

Vokeniseringskontekst

To tekstbaserede maskinlæringsprogrammer (ML) bruges ofte til at træne AI til at behandle og forstå menneskeligt sprog: OpenAIs Generative Pre-trained Transformer 3 (GPT-3) og Googles BERT (Bidirectional Encoder Representations from Transformers). I AI-terminologi kaldes de ord, der bruges i NLP-træning, tokens. Forskere fra University of North Carolina (UNC) observerede, at tekstbaserede træningsprogrammer er begrænsede, fordi de ikke kan "se", hvilket betyder, at de ikke kan fange visuel information og kommunikation.

For eksempel, hvis nogen spørger GPT-3, hvad farven på fåret er, vil systemet ofte svare "sort", selvom det er tydeligt hvidt. Dette svar skyldes, at det tekstbaserede system vil forbinde det med udtrykket "sorte får" i stedet for at identificere den korrekte farve. Ved at inkorporere visuals med tokens (voken), kan AI-systemer have en holistisk forståelse af begreber. Vokenization integrerer vokens i selvovervågede NLP-systemer, hvilket giver dem mulighed for at udvikle "sund fornuft".

Integrering af sprogmodeller og computersyn er ikke et nyt koncept, og det er et hurtigt voksende felt inden for AI-forskning. Kombinationen af disse to typer AI udnytter deres individuelle styrker. Sprogmodeller som GPT-3 trænes gennem uovervåget læring, hvilket giver dem mulighed for nemt at skalere. I modsætning hertil kan billedmodeller som objektgenkendelsessystemer direkte lære af virkeligheden og er ikke afhængige af den abstraktion, teksten giver. For eksempel kan billedmodeller genkende, at et får er hvidt, ved at se på et billede.

Forstyrrende påvirkning

Processen med vokenisering er ret ligetil. Vokens oprettes ved at tildele tilsvarende eller relevante billeder til sprogtokens. Derefter er algoritmer (vokenizer) designet til at generere vokens gennem uovervåget læring (ingen eksplicitte parametre/regler). Sund fornuft AI trænet gennem vokenization kan kommunikere og løse problemer bedre, fordi de har en mere dybdegående forståelse af kontekst. Denne tilgang er unik, fordi den ikke kun forudsiger sprogtokens, men også forudsiger billedtokens, hvilket er noget, som traditionelle BERT-modeller ikke er i stand til.

For eksempel vil robotassistenter være i stand til at genkende billeder og navigere i processer bedre, fordi de kan "se", hvad der kræves af dem. Kunstige intelligenssystemer, der er trænet til at skrive indhold, vil være i stand til at lave artikler, der lyder mere menneskelige, med ideer, der flyder bedre, i stedet for usammenhængende sætninger. I betragtning af den brede rækkevidde af NLP-applikationer kan vokenisering føre til bedre ydende chatbots, virtuelle assistenter, online medicinske diagnoser, digitale oversættere og mere.

Derudover vinder kombinationen af syn og sprogindlæring popularitet i medicinsk billedbehandlingsapplikationer, specielt til automatiseret medicinsk billeddiagnose. For eksempel eksperimenterer nogle forskere med denne tilgang på røntgenbilleder med tilhørende tekstbeskrivelser, hvor semantisk segmentering kan være tidskrævende. Vokeniseringsteknikken kunne forbedre disse repræsentationer og forbedre automatiseret medicinsk billeddannelse ved at bruge tekstinformationen.

Ansøgninger om vokenisering

Nogle applikationer til vokenisering kan omfatte:

Intuitive chatbots, der kan behandle skærmbilleder, billeder og webstedsindhold. Især chatbots til kundesupport kan være i stand til præcist at anbefale produkter og tjenester.
Digitale oversættere, der kan behandle billeder og videoer og levere en nøjagtig oversættelse, der tager hensyn til kulturel og situationel kontekst.
Sociale medier bot-scannere, der er i stand til at udføre en mere holistisk følelsesanalyse ved at flette billeder, billedtekster og kommentarer. Denne applikation kan være nyttig i indholdsmoderering, der kræver analyse af skadelige billeder.
Øge beskæftigelsesmulighederne for computer vision og NLP machine learning ingeniører og data videnskabsmænd.
Startups, der bygger på disse AI-systemer for at kommercialisere dem eller levere skræddersyede løsninger til virksomheder.

Spørgsmål at kommentere på

Hvordan tror du ellers, at vokenisering vil ændre den måde, vi interagerer med robotter på?
Hvordan kan vokenisering ændre, hvordan vi driver forretning og interagerer med vores gadgets (smartphones og smarte apparater)?

Føj til liste