Vokenointikieli ai voi nähdä

KUVAKrediitti:

iStock

Vokenointi: Kieli, jonka tekoäly voi nähdä

Kun kuvia on nyt sisällytetty tekoälyjärjestelmien koulutukseen, robotit saattavat pian pystyä "näkemään" komentoja.

Kirjoittaja:
tekijän nimi
Quantumrun Foresight
Voi 9, 2023

Luonnollisen kielen käsittely (NLP) on mahdollistanut tekoälyjärjestelmien (AI) oppimisen ihmispuheen ymmärtämällä sanoja ja sovittamalla kontekstin tunteeseen. Ainoa haittapuoli on, että nämä NLP-järjestelmät ovat puhtaasti tekstipohjaisia. Vokenointi muuttaa tämän kaiken.

Vokenointikonteksti

Kahta tekstipohjaista koneoppimisohjelmaa (ML) käytetään usein koulutettaessa tekoälyä käsittelemään ja ymmärtämään ihmisten kieltä: OpenAI:n Generative Pre-trained Transformer 3 (GPT-3) ja Googlen BERT (Bidirectional Encoder Representations from Transformers). Tekoälyterminologiassa NLP-koulutuksessa käytettyjä sanoja kutsutaan tokeneiksi. Pohjois-Carolinan yliopiston (UNC) tutkijat havaitsivat, että tekstipohjaiset koulutusohjelmat ovat rajallisia, koska ne eivät "näe", mikä tarkoittaa, että ne eivät pysty kaappaamaan visuaalista tietoa ja viestintää.

Jos esimerkiksi joku kysyy GPT-3:lta mikä lampaan väri on, järjestelmä vastaa usein "musta", vaikka se olisikin selvästi valkoinen. Tämä vastaus johtuu siitä, että tekstipohjainen järjestelmä yhdistää sen termiin "musta lammas" sen sijaan, että se tunnistaisi oikean värin. Sisällyttämällä visuaalia tokeneita (voken), tekoälyjärjestelmät voivat ymmärtää termit kokonaisvaltaisesti. Vokenisointi integroi vokenit itsevalvottuihin NLP-järjestelmiin, jolloin ne voivat kehittää "maalaisjärkeä".

Kielimallien ja tietokonenäön integrointi ei ole uusi käsite, ja se on nopeasti kasvava ala tekoälytutkimuksessa. Näiden kahden tekoälytyypin yhdistelmä hyödyntää heidän yksilöllisiä vahvuuksiaan. Kielimallit, kuten GPT-3, koulutetaan ohjaamattoman oppimisen kautta, mikä mahdollistaa niiden skaalaamisen helposti. Sitä vastoin kuvamallit, kuten esineiden tunnistusjärjestelmät, voivat oppia suoraan todellisuudesta eivätkä luota tekstin tarjoamaan abstraktioon. Esimerkiksi kuvamallit voivat tunnistaa, että lammas on valkoinen, katsomalla kuvaa.

Häiritsevä vaikutus

Vokenointiprosessi on melko yksinkertainen. Vokenit luodaan määrittämällä vastaavat tai asiaankuuluvat kuvat kielitokeneille. Sitten algoritmit (vokenizer) on suunniteltu luomaan vokeneja valvomattoman oppimisen kautta (ei eksplisiittisiä parametreja/sääntöjä). Vokenisaation avulla koulutettu maalaisjärkeä tekoäly voi kommunikoida ja ratkaista ongelmia paremmin, koska he ymmärtävät kontekstin syvällisemmin. Tämä lähestymistapa on ainutlaatuinen, koska se ei vain ennusta kielitokeneita, vaan myös kuvatunnisteita, mitä perinteiset BERT-mallit eivät pysty tekemään.

Esimerkiksi robottiassistentit pystyvät tunnistamaan kuvat ja navigoimaan prosesseissa paremmin, koska he näkevät, mitä heiltä vaaditaan. Tekoälyjärjestelmät, jotka on koulutettu kirjoittamaan sisältöä, pystyvät luomaan artikkeleita, jotka kuulostavat inhimillisemmiltä ja joiden ideat virtaavat paremmin hajanaisten lauseiden sijaan. Kun otetaan huomioon NLP-sovellusten laaja ulottuvuus, vokenointi voi johtaa tehokkaampiin chatboteihin, virtuaalisiin avustajiin, online-lääketieteellisiin diagnooseihin, digitaalisiin kääntäjiin ja muihin.

Lisäksi näön ja kielen oppimisen yhdistelmä on saamassa suosiota lääketieteellisissä kuvantamissovelluksissa, erityisesti automaattisessa lääketieteellisessä kuvadiagnoosissa. Jotkut tutkijat esimerkiksi kokeilevat tätä lähestymistapaa röntgenkuvissa ja niihin liittyvissä tekstikuvauksissa, joissa semanttinen segmentointi voi olla aikaa vievää. Vokenointitekniikka voisi parantaa näitä esityksiä ja parantaa automaattista lääketieteellistä kuvantamista käyttämällä tekstitietoja.

Vokenointihakemukset

Jotkut vokenointisovellukset voivat sisältää:

Intuitiiviset chatbotit, jotka voivat käsitellä kuvakaappauksia, kuvia ja verkkosivuston sisältöä. Erityisesti asiakastuen chatbotit voivat pystyä suosittelemaan tuotteita ja palveluita tarkasti.
Digitaaliset kääntäjät, jotka voivat käsitellä kuvia ja videoita ja tarjota tarkan käännöksen, joka ottaa huomioon kulttuurisen ja tilannekontekstin.
Sosiaalisen median bot-skannerit pystyvät suorittamaan kokonaisvaltaisemman tunneanalyysin yhdistämällä kuvia, kuvatekstejä ja kommentteja. Tämä sovellus voi olla hyödyllinen sisällön moderointiin, joka edellyttää haitallisten kuvien analysointia.
Tietokonenäön ja NLP-koneoppimisen insinöörien ja datatieteilijöiden työllistymismahdollisuuksien lisääminen.
Startupit rakentavat näitä tekoälyjärjestelmiä kaupallistaakseen niitä tai tarjotakseen räätälöityjä ratkaisuja yrityksille.

Kommentoitavia kysymyksiä

Miten muuten luulet vokenoinnin muuttavan tapaamme olla vuorovaikutuksessa robottien kanssa?
Kuinka vokenization voi muuttaa tapaamme, jolla harjoitamme liiketoimintaa ja olemme vuorovaikutuksessa gadgeteidemme (älypuhelimet ja älylaitteet) kanssa?

Lisätä listaan