Vokeniseerimiskeel ai saab näha

PILDIKrediit:

iStock

Vokeniseerimine: keel, mida AI näeb

Kuna pildid on nüüd tehisintellekti (AI) süsteemide koolitusse kaasatud, võivad robotid varsti käske näha.

Autor:
autori nimi
Quantumrun Foresight
Võib 9 2023

Loomuliku keele töötlemine (NLP) on võimaldanud tehisintellekti (AI) süsteemidel õppida inimkõnet, mõistes sõnu ja sobitades konteksti meeleoluga. Ainus negatiivne külg on see, et need NLP-süsteemid on puhtalt tekstipõhised. Vokeniseerimine muudab seda kõike.

Vokeniseerimise kontekst

Tehisintellekti õpetamiseks inimkeelt töötlema ja mõistma kasutatakse sageli kahte tekstipõhist masinõppe (ML) programmi: OpenAI Generative Pre-trained Transformer 3 (GPT-3) ja Google'i BERT (Bidirectional Encoder Representations from Transformers). AI terminoloogias nimetatakse NLP-treeningul kasutatavaid sõnu märgideks. Põhja-Carolina ülikooli (UNC) teadlased märkisid, et tekstipõhised koolitusprogrammid on piiratud, kuna nad ei näe "näha", mis tähendab, et nad ei suuda visuaalset teavet ja suhtlust koguda.

Näiteks kui keegi küsib GPT-3-lt, mis värvi on lammas, vastab süsteem sageli "must", isegi kui see on selgelt valge. See vastus tuleneb sellest, et tekstipõhine süsteem seostab selle õige värvi tuvastamise asemel terminiga "must lammas". Lisades visuaalid žetoonidega (voken), saavad AI-süsteemid terminitest terviklikult aru saada. Vokeniseerimine integreerib vokenid enesejärelevalvega NLP-süsteemidesse, võimaldades neil arendada "tervet mõistust".

Keelemudelite ja arvutinägemise integreerimine ei ole uus kontseptsioon ning see on tehisintellektiuuringutes kiiresti laienev valdkond. Nende kahe tüüpi tehisintellekti kombinatsioon suurendab nende individuaalseid tugevusi. Selliseid keelemudeleid nagu GPT-3 koolitatakse juhendamata õppimise teel, mis võimaldab neid hõlpsalt skaleerida. Seevastu pildimudelid, nagu objektituvastussüsteemid, saavad reaalsusest otse õppida ega tugine tekstis pakutavale abstraktsioonile. Näiteks võivad pildimudelid pilti vaadates ära tunda, et lammas on valge.

Häiriv mõju

Vokeniseerimise protsess on üsna lihtne. Vokenid luuakse, määrates keelemärkidele vastavad või asjakohased kujutised. Seejärel on algoritmid (vokenizer) loodud vokenide genereerimiseks järelevalveta õppimise kaudu (ilma selgesõnaliste parameetrite/reegliteta). Vokeniseerimise kaudu koolitatud terve mõistus AI suudab paremini suhelda ja probleeme lahendada, kuna neil on kontekstist põhjalikum arusaam. See lähenemisviis on ainulaadne, kuna see mitte ainult ei ennusta keelemärke, vaid ennustab ka pildimärke, mida traditsioonilised BERT-i mudelid teha ei suuda.

Näiteks suudavad robot-assistendid paremini pilte ära tunda ja protsessides navigeerida, sest nad näevad, mida neilt nõutakse. Sisu kirjutamiseks koolitatud tehisintellekti süsteemid suudavad koostada artikleid, mis kõlavad inimlikumalt ja mille ideed lahknevad lausete asemel paremini voolavad. Arvestades NLP rakenduste laia haardeulatust, võib vokeniseerimine kaasa tuua paremini toimivad vestlusrobotid, virtuaalsed assistendid, veebipõhised meditsiinidiagnoosid, digitaalsed tõlkijad ja palju muud.

Lisaks kogub nägemise ja keeleõppe kombinatsioon meditsiinilise pildistamise rakendustes üha populaarsemaks, eriti automaatse meditsiinilise kujutise diagnostika jaoks. Näiteks katsetavad mõned teadlased seda lähenemist radiograafiapiltide puhul koos kaasnevate tekstikirjeldustega, kus semantiline segmenteerimine võib olla aeganõudev. Vokeniseerimistehnika võib neid esitusi täiustada ja parandada automatiseeritud meditsiinilist pildistamist, kasutades tekstiteavet.

Vokeniseerimise taotlused

Mõned vokeniseerimise rakendused võivad hõlmata järgmist:

Intuitiivsed vestlusrobotid, mis suudavad töödelda ekraanipilte, pilte ja veebisaidi sisu. Eelkõige klienditoe vestlusrobotid võivad täpselt soovitada tooteid ja teenuseid.
Digitaalsed tõlkijad, mis suudavad töödelda pilte ja videoid ning pakkuda täpset tõlget, mis arvestab kultuurilist ja olustikulist konteksti.
Sotsiaalmeedia robotskannerid suudavad läbi viia terviklikuma sentimentanalüüsi, ühendades pilte, pealdisi ja kommentaare. See rakendus võib olla kasulik sisu modereerimisel, mis nõuab kahjulike piltide analüüsi.
Arvutinägemise ja NLP masinõppe inseneride ja andmeteadlaste töövõimaluste suurendamine.
Idufirmad, kes tuginevad nendele AI-süsteemidele, et neid turustada või pakkuda ettevõtetele kohandatud lahendusi.

Küsimused, mida kommenteerida

Kuidas muidu teie arvates muudab vokeniseerimine seda, kuidas me robotitega suhtleme?
Kuidas saab vokeniseerimine muuta seda, kuidas me äri ajame ja oma vidinatega (nutitelefonid ja nutiseadmed) suhtleme?

Lisa nimekirja