Vokenizacijos kalba ai gali matyti

VAIZDO KREDITAS:

iStock

Vokenizacija: kalba, kurią gali matyti dirbtinis intelektas

Kadangi vaizdai dabar įtraukiami į dirbtinio intelekto (AI) sistemų mokymą, robotai netrukus galės „matyti“ komandas.

Autorius:
autoriaus vardas
Quantumrun Foresight
Gali 9, 2023

Natūralios kalbos apdorojimas (NLP) leido dirbtinio intelekto (AI) sistemoms išmokti žmogaus kalbą suprantant žodžius ir derinant kontekstą su jausmais. Vienintelis trūkumas yra tas, kad šios NLP sistemos yra pagrįstos tik tekstu. Vokenizacija ketina visa tai pakeisti.

Vokenizacijos kontekstas

Dvi tekstu pagrįstos mašininio mokymosi (ML) programos dažnai naudojamos mokant dirbtinį intelektą apdoroti ir suprasti žmonių kalbą: „OpenAI“ „Generative Pre-Tained Transformer 3“ (GPT-3) ir „Google“ BERT (transformatorių dvikrypčiai kodavimo priemonės). AI terminologijoje žodžiai, naudojami NLP mokyme, vadinami žetonais. Tyrėjai iš Šiaurės Karolinos universiteto (UNC) pastebėjo, kad teksto mokymo programos yra ribotos, nes jos nemato, o tai reiškia, kad jos negali užfiksuoti vaizdinės informacijos ir komunikacijos.

Pavyzdžiui, jei kas nors paklaus GPT-3, kokia yra avies spalva, sistema dažnai atsakys „juoda“, net jei ji aiškiai balta. Šis atsakymas yra todėl, kad teksto sistema susies jį su terminu „juodoji avis“, o ne nustatys tinkamą spalvą. Įtraukus vaizdinius elementus su žetonais (voken), AI sistemos gali turėti visapusišką terminų supratimą. Vokenizacija integruoja vokenus į savarankiškai prižiūrimas NLP sistemas, leisdama joms vystyti „sveiką protą“.

Kalbos modelių ir kompiuterinės vizijos integravimas nėra nauja koncepcija ir tai sparčiai besiplečianti DI tyrimų sritis. Šių dviejų tipų AI derinys išnaudoja jų individualias stipriąsias puses. Kalbų modeliai, tokie kaip GPT-3, yra mokomi be priežiūros, todėl juos lengva keisti. Priešingai, vaizdo modeliai, tokie kaip objektų atpažinimo sistemos, gali tiesiogiai mokytis iš tikrovės ir nepasikliauti teksto teikiama abstrakcija. Pavyzdžiui, vaizdo modeliai gali atpažinti, kad avis yra balta, žiūrėdami į paveikslėlį.

Trikdantis poveikis

Vokenizacijos procesas yra gana paprastas. Vokenai kuriami priskiriant atitinkamus arba atitinkamus atvaizdus kalbos žetonams. Tada algoritmai (vokenizer) yra skirti generuoti vokenus per neprižiūrimą mokymąsi (be aiškių parametrų / taisyklių). Sveikas protas DI, išmokytas naudojant vokenizaciją, gali geriau bendrauti ir spręsti problemas, nes jie turi nuodugnesnį konteksto supratimą. Šis metodas yra unikalus, nes jis ne tik nuspėja kalbos žetonus, bet ir numato vaizdo žetonus, o tradiciniai BERT modeliai to padaryti negali.

Pavyzdžiui, robotų padėjėjai galės geriau atpažinti vaizdus ir naršyti procesus, nes gali „matyti“, ko iš jų reikalaujama. Dirbtinio intelekto sistemos, išmokytos rašyti turinį, galės sukurti straipsnius, kurie skamba labiau žmogiškai, o idėjos sklando geriau, o ne atskiri sakiniai. Atsižvelgiant į platų NLP programų pasiekiamumą, vokenizavimas gali padėti sukurti geresnių pokalbių robotų, virtualių asistentų, internetinių medicininių diagnozių, skaitmeninių vertėjų ir kt.

Be to, regėjimo ir kalbos mokymosi derinys populiarėja medicininio vaizdo gavimo programose, ypač automatizuotai medicininių vaizdų diagnostikai. Pavyzdžiui, kai kurie tyrėjai eksperimentuoja su šiuo metodu rentgeno vaizdams su pridedamais tekstiniais aprašymais, kur semantinis segmentavimas gali užtrukti daug laiko. Vokenizacijos technika galėtų pagerinti šiuos vaizdus ir pagerinti automatinį medicininį vaizdavimą, naudojant tekstinę informaciją.

Prašymai dėl vokenizacijos

Kai kurios vokenizacijos programos gali apimti:

Intuityvūs pokalbių robotai, galintys apdoroti ekrano kopijas, paveikslėlius ir svetainės turinį. Visų pirma, klientų aptarnavimo pokalbių robotai gali tiksliai rekomenduoti produktus ir paslaugas.
Skaitmeniniai vertėjai, galintys apdoroti vaizdus ir vaizdo įrašus bei pateikti tikslų vertimą, atsižvelgiant į kultūrinį ir situacijos kontekstą.
Socialinės žiniasklaidos robotų skaitytuvai gali atlikti visapusiškesnę nuotaikų analizę, sujungdami vaizdus, antraštes ir komentarus. Ši programa gali būti naudinga moderuojant turinį, kai reikia analizuoti žalingus vaizdus.
Didesnės kompiuterinės vizijos ir NLP mašininio mokymosi inžinierių ir duomenų mokslininkų įsidarbinimo galimybės.
Pradedantieji, besiremiantys šiomis AI sistemomis, norėdami jas komercializuoti arba teikti pritaikytus sprendimus įmonėms.

Klausimai komentuoti

Kaip kitaip, jūsų manymu, vokenizavimas pakeis mūsų bendravimą su robotais?
Kaip vokenizavimas gali pakeisti tai, kaip vykdome verslą ir sąveikaujame su savo programėlėmis (išmaniaisiais telefonais ir išmaniaisiais prietaisais)?

Pridėti į sąrašą