Gjuha e vokenizimit ai mund të shoh

KREDI I IMAZHIT:

iStock

Vokenizimi: Gjuha që AI mund ta shohë

Me imazhet që tani janë duke u përfshirë në trajnimin e sistemeve të inteligjencës artificiale (AI), robotët së shpejti mund të jenë në gjendje të "shohin" komandat.

Author:
Emri i autorit
Parashikimi Kuantumrun
Mund 9, 2023

Përpunimi i gjuhës natyrore (NLP) ka mundësuar sistemet e inteligjencës artificiale (AI) të mësojnë të folurit njerëzor duke kuptuar fjalët dhe duke përputhur kontekstin me ndjenjën. E vetmja pengesë është se këto sisteme NLP janë thjesht të bazuara në tekst. Vokenizimi do të ndryshojë gjithçka.

Konteksti i vokenizimit

Dy programe të mësimit të makinerive të bazuara në tekst (ML) përdoren shpesh për të trajnuar AI për të përpunuar dhe kuptuar gjuhën njerëzore: Transformer 3 i para-trajnuar gjenerues i OpenAI (GPT-3) dhe BERT i Google (Përfaqësimet e koduesit dydrejtues nga Transformers). Në terminologjinë e AI, fjalët e përdorura në trajnimin NLP quhen shenja. Studiuesit nga Universiteti i Karolinës së Veriut (UNC) vunë re se programet e trajnimit të bazuara në tekst janë të kufizuara sepse nuk mund të "shohin", që do të thotë se nuk mund të kapin informacionin dhe komunikimin vizual.

Për shembull, nëse dikush pyet GPT-3 se cila është ngjyra e deleve, sistemi shpesh do të përgjigjet "e zezë" edhe nëse është qartësisht e bardhë. Kjo përgjigje është sepse sistemi i bazuar në tekst do ta shoqërojë atë me termin "dele e zezë" në vend që të identifikojë ngjyrën e duhur. Duke përfshirë pamjet vizuale me shenja (voken), sistemet e AI mund të kenë një kuptim të plotë të termave. Vokenizimi integron vokenet në sistemet NLP të vetë-mbikëqyrura, duke i lejuar ata të zhvillojnë "sensitetin e përbashkët".

Integrimi i modeleve gjuhësore dhe vizionit kompjuterik nuk është një koncept i ri dhe është një fushë që po zgjerohet me shpejtësi në kërkimin e AI. Kombinimi i këtyre dy llojeve të AI shfrytëzon fuqitë e tyre individuale. Modelet gjuhësore si GPT-3 trajnohen përmes mësimit të pambikëqyrur, gjë që i lejon ata të shkallëzohen lehtësisht. Në të kundërt, modelet e imazhit si sistemet e njohjes së objekteve mund të mësojnë drejtpërdrejt nga realiteti dhe nuk mbështeten në abstraksionin e ofruar nga teksti. Për shembull, modelet e imazhit mund të dallojnë se një dele është e bardhë duke parë një foto.

Ndikim shkatërrues

Procesi i vokenizimit është mjaft i drejtpërdrejtë. Vokenet krijohen duke caktuar imazhe përkatëse ose përkatëse për shenjat e gjuhës. Më pas, algoritmet (vokenizuesi) janë krijuar për të gjeneruar voken përmes mësimit të pambikëqyrur (pa parametra/rregulla të qarta). Inteligjenca artificiale e logjikshme e trajnuar përmes vokenizimit mund të komunikojë dhe zgjidhë problemet më mirë sepse ata kanë një kuptim më të thellë të kontekstit. Kjo qasje është unike sepse jo vetëm që parashikon shenjat e gjuhës, por gjithashtu parashikon shenjat e imazhit, gjë që modelet tradicionale të BERT nuk janë në gjendje ta bëjnë.

Për shembull, asistentët robotikë do të jenë në gjendje të njohin imazhet dhe të lundrojnë më mirë proceset, sepse ata mund të "shohin" atë që kërkohet prej tyre. Sistemet e inteligjencës artificiale të trajnuara për të shkruar përmbajtje do të jenë në gjendje të krijojnë artikuj që tingëllojnë më njerëzore, me ide që rrjedhin më mirë, në vend të fjalive të shkëputura. Duke marrë parasysh shtrirjen e gjerë të aplikacioneve NLP, vokenizimi mund të çojë në chatbot me performancë më të mirë, asistentë virtualë, diagnoza mjekësore në internet, përkthyes dixhitalë dhe më shumë.

Për më tepër, kombinimi i vizionit dhe mësimit të gjuhës po fiton popullaritet në aplikacionet e imazhit mjekësor, veçanërisht për diagnostikimin e automatizuar të imazhit mjekësor. Për shembull, disa studiues po eksperimentojnë me këtë qasje në imazhet radiografike me përshkrime tekstesh shoqëruese, ku segmentimi semantik mund të marrë kohë. Teknika e vokenizimit mund të përmirësojë këto paraqitje dhe të përmirësojë imazhin e automatizuar mjekësor duke përdorur informacionin e tekstit.

Aplikimet për vokenizimin

Disa aplikacione për vokenizimin mund të përfshijnë:

Chatbot intuitiv që mund të përpunojnë pamjet e ekranit, fotografitë dhe përmbajtjen e faqes në internet. Në veçanti, chatbot-et e mbështetjes së klientit mund të jenë në gjendje të rekomandojnë me saktësi produkte dhe shërbime.
Përkthyes dixhitalë që mund të përpunojnë imazhe dhe video dhe të ofrojnë një përkthim të saktë që merr parasysh kontekstin kulturor dhe situatën.
Skanerët e robotëve të mediave sociale janë në gjendje të kryejnë një analizë më tërësore të ndjenjave duke bashkuar imazhet, titrat dhe komentet. Ky aplikacion mund të jetë i dobishëm në moderimin e përmbajtjes që kërkon analizën e imazheve të dëmshme.
Rritja e mundësive të punësimit për inxhinierët dhe shkencëtarët e të dhënave të vizionit kompjuterik dhe NLP të mësimit të makinerive.
Fillesat që ndërtojnë këto sisteme të AI për t'i komercializuar ato ose për të ofruar zgjidhje të personalizuara për bizneset.

Pyetje për të komentuar

Si tjetër mendoni se vokenizimi do të ndryshojë mënyrën se si ndërveprojmë me robotët?
Si mund të ndryshojë vokenizimi se si ne kryejmë biznes dhe ndërveprojmë me pajisjet tona (telefonat inteligjentë dhe pajisjet inteligjente)?

Shto tek lista