Vokenizācijas valoda ai var redzēt

ATTĒLA KREDĪTS:

iStock

Vokenizācija: valoda, ko var redzēt AI

Tā kā attēli tagad tiek iekļauti mākslīgā intelekta (AI) sistēmu apmācībā, roboti drīz varēs "redzēt" komandas.

Autors:
Autors nosaukums
Quantumrun Foresight
9. gada 2023. maijs

Dabiskās valodas apstrāde (NLP) ir ļāvusi mākslīgā intelekta (AI) sistēmām apgūt cilvēka runu, izprotot vārdus un saskaņojot kontekstu ar noskaņojumu. Vienīgais mīnuss ir tas, ka šīs NLP sistēmas ir balstītas tikai uz tekstu. Vokenizācija to visu mainīs.

Vokenizācijas konteksts

Divas uz tekstu balstītas mašīnmācības (ML) programmas bieži tiek izmantotas, lai apmācītu AI apstrādāt un saprast cilvēku valodu: OpenAI Generative Pre-trained Transformer 3 (GPT-3) un Google BERT (Bidirectional Encoder Representations from Transformers). AI terminoloģijā NLP apmācībā lietotos vārdus sauc par marķieriem. Pētnieki no Ziemeļkarolīnas Universitātes (UNC) novēroja, ka uz tekstu balstītas apmācības programmas ir ierobežotas, jo tās nevar "redzēt", kas nozīmē, ka tās nevar uztvert vizuālo informāciju un saziņu.

Piemēram, ja kāds jautā GPT-3, kāda ir aitas krāsa, sistēma bieži atbildēs "melna", pat ja tā ir skaidri balta. Šī atbilde ir tāpēc, ka uz tekstu balstītā sistēma to saistīs ar terminu "melnā aita", nevis identificēs pareizo krāsu. Iekļaujot vizuālos elementus ar marķieriem (voken), AI sistēmām var būt holistiska izpratne par terminiem. Vokenizācija integrē vokenus pašpārraudzītās NLP sistēmās, ļaujot tām attīstīt "veselo saprātu".

Valodas modeļu un datorredzes integrēšana nav jauns jēdziens, un tā ir strauji augoša joma AI pētniecībā. Šo divu AI veidu kombinācija izmanto to individuālās stiprās puses. Valodu modeļi, piemēram, GPT-3, tiek apmācīti, mācoties bez uzraudzības, kas ļauj tos viegli mērogot. Turpretim attēlu modeļi, piemēram, objektu atpazīšanas sistēmas, var tieši mācīties no realitātes un nepaļaujas uz teksta sniegto abstrakciju. Piemēram, attēlu modeļi var atpazīt, ka aita ir balta, skatoties uz attēlu.

Traucējoša ietekme

Vokenizācijas process ir diezgan vienkāršs. Vokeni tiek veidoti, valodas žetoniem piešķirot atbilstošus vai atbilstošus attēlus. Pēc tam algoritmi (vokenizer) ir paredzēti, lai ģenerētu vokenus, izmantojot nepārraudzītu mācīšanos (bez skaidriem parametriem/noteikumiem). Veselais saprāts AI, kas apmācīts, izmantojot vokenizāciju, var labāk sazināties un atrisināt problēmas, jo viņiem ir padziļināta izpratne par kontekstu. Šī pieeja ir unikāla, jo tā ne tikai prognozē valodas marķierus, bet arī prognozē attēlu marķierus, ko tradicionālie BERT modeļi nespēj izdarīt.

Piemēram, robotizētie palīgi varēs labāk atpazīt attēlus un orientēties procesos, jo viņi var “redzēt”, kas no viņiem tiek prasīts. Mākslīgā intelekta sistēmas, kas apmācītas rakstīt saturu, spēs veidot rakstus, kas izklausās cilvēcīgāk, ar idejām, kas plūst labāk, nevis nesadalītiem teikumiem. Ņemot vērā NLP lietojumprogrammu plašo sasniedzamību, vokenizācija var nodrošināt labākus tērzēšanas robotus, virtuālos palīgus, tiešsaistes medicīniskās diagnozes, digitālos tulkus un citus.

Turklāt redzes un valodu apguves kombinācija kļūst arvien populārāka medicīniskās attēlveidošanas lietojumprogrammās, īpaši automatizētai medicīnisko attēlu diagnostikai. Piemēram, daži pētnieki eksperimentē ar šo pieeju rentgena attēliem ar pievienotiem teksta aprakstiem, kur semantiskā segmentācija var būt laikietilpīga. Vokenizācijas tehnika varētu uzlabot šos attēlojumus un uzlabot automatizēto medicīnisko attēlveidošanu, izmantojot teksta informāciju.

Pieteikumi vokenizācijai

Dažas vokenizācijas lietojumprogrammas var ietvert:

Intuitīvi tērzēšanas roboti, kas var apstrādāt ekrānuzņēmumus, attēlus un vietnes saturu. Jo īpaši klientu atbalsta tērzēšanas roboti var precīzi ieteikt produktus un pakalpojumus.
Digitālie tulki, kas var apstrādāt attēlus un videoklipus un nodrošināt precīzu tulkojumu, ņemot vērā kultūras un situācijas kontekstu.
Sociālo mediju robotu skeneri spēj veikt holistiskāku noskaņojuma analīzi, apvienojot attēlus, parakstus un komentārus. Šī lietojumprogramma var būt noderīga satura moderēšanai, kam nepieciešama kaitīgu attēlu analīze.
Palielināt nodarbinātības iespējas datorredzes un NLP mašīnmācīšanās inženieriem un datu zinātniekiem.
Jaunuzņēmumi, kuru pamatā ir šīs AI sistēmas, lai tās komercializētu vai nodrošinātu pielāgotus risinājumus uzņēmumiem.

Jautājumi komentēšanai

Kā citādi, jūsuprāt, vokenizācija mainīs mūsu mijiedarbību ar robotiem?
Kā vokenizācija var mainīt to, kā mēs veicam uzņēmējdarbību un mijiedarbojamies ar mūsu sīkrīkiem (viedtālruņiem un viedajām ierīcēm)?

Pievienot sarakstu