Vokenigo: Lingvo kiun AI povas vidi

BILDA KREDITO:
Bildo kredito
iStock

Vokenigo: Lingvo kiun AI povas vidi

Vokenigo: Lingvo kiun AI povas vidi

Subtitolo teksto
Kun bildoj nun korpigitaj al artefarita inteligenteco (AI) sistemo-trejnado, robotoj eble baldaŭ povos "vidi" komandojn.
    • Aŭtoro:
    • Aŭtora nomo
      Quantumrun Foresight
    • Eble 9, 2023

    Naturlingva prilaborado (NLP) ebligis sistemojn de artefarita inteligenteco (AI) lerni homan paroladon komprenante vortojn kaj kongruante kuntekston kun la sento. La sola malavantaĝo estas, ke ĉi tiuj NLP-sistemoj estas pure tekst-bazitaj. Vokenigo estas ŝanĝonta ĉion tion.

    Vokenigo kunteksto

    Du tekst-bazitaj maŝinlernado (ML) programoj ofte estas uzitaj por trejni AI por prilabori kaj kompreni homan lingvon: Generative Pre-trained Transformer 3 (GPT-3) de OpenAI kaj BERT de Google (Dudirekta Encoder Representations de Transformiloj). En AI-terminologio, la vortoj uzitaj en NLP-trejnado estas nomitaj ĵetonoj. Esploristoj de la Universitato de Norda Karolino (UNC) observis ke tekst-bazitaj trejnadprogramoj estas limigitaj ĉar ili ne povas "vidi", signifante ke ili ne povas kapti vidajn informojn kaj komunikadon. 

    Ekzemple, se iu demandas GPT-3, kia estas la koloro de la ŝafo, la sistemo ofte respondos "nigra" eĉ se ĝi estas klare blanka. Ĉi tiu respondo estas ĉar la tekst-bazita sistemo asocios ĝin kun la esprimo "nigra ŝafo" anstataŭe de identigi la ĝustan koloron. Enkorpigante bildojn kun ĵetonoj (voken), AI-sistemoj povas havi tutecan komprenon de terminoj. Vokenization integras vokens en mem-kontrolitajn NLP-sistemojn, permesante al ili evoluigi "ordinaran racion."

    Integri lingvajn modelojn kaj komputilan vidon ne estas nova koncepto, kaj ĝi estas rapide vastiĝanta kampo en AI-esplorado. La kombinaĵo de ĉi tiuj du specoj de AI ekspluatas iliajn individuajn fortojn. Lingvaj modeloj kiel GPT-3 estas trejnitaj per nekontrolita lernado, kio ebligas al ili facile skali. En kontrasto, bildmodeloj kiel objektorekonsistemoj povas rekte lerni de realeco kaj ne fidi je la abstraktado disponigita per la teksto. Ekzemple, bildmodeloj povas rekoni ke ŝafo estas blanka rigardante bildon.

    Disrompa efiko

    La procezo de vokenigo estas sufiĉe simpla. Vokens estas kreitaj atribuante respondajn aŭ rilatajn bildojn al lingvaj ĵetonoj. Tiam, algoritmoj (vokenizer) estas dizajnitaj por generi vokens tra nekontrolita lernado (neniuj eksplicitaj parametroj/reguloj). Komuna prudento AI trejnita per vokenigo povas komuniki kaj solvi problemojn pli bone ĉar ili havas pli profundan komprenon de kunteksto. Ĉi tiu aliro estas unika ĉar ĝi ne nur antaŭdiras lingvajn ĵetonojn sed ankaŭ antaŭdiras bild-signojn, kio estas io, kion tradiciaj BERT-modeloj ne kapablas fari.

    Ekzemple, robotaj asistantoj povos rekoni bildojn kaj navigi procezojn pli bone ĉar ili povas "vidi" kio estas postulata de ili. Sistemoj de artefarita inteligenteco trejnitaj por skribi enhavon povos krei artikolojn, kiuj sonas pli homaj, kun ideoj, kiuj fluas pli bone, anstataŭ disaj frazoj. Konsiderante la larĝan atingon de NLP-aplikoj, vokenigo povas konduki al pli bone rendimentaj babilrotoj, virtualaj asistantoj, interretaj medicinaj diagnozoj, ciferecaj tradukistoj kaj pli.

    Plie, la kombinaĵo de vizio kaj lingvolernado akiras popularecon en medicinaj bildigaj aplikoj, specife por aŭtomatigita medicina bilda diagnozo. Ekzemple, kelkaj esploristoj eksperimentas kun ĉi tiu aliro sur radiografiaj bildoj kun akompanaj tekstopriskriboj, kie semantika segmentado povas esti tempopostula. La vokenigtekniko povus plibonigi ĉi tiujn reprezentadojn kaj plibonigi aŭtomatigitan medicinan bildigon utiligante la tekstajn informojn.

    Aplikoj por vokenigo

    Kelkaj petskriboj por vokenigo povas inkluzivi:

    • Intuiciaj babilrotoj, kiuj povas prilabori ekrankopiojn, bildojn kaj retejan enhavon. Klientsubtenaj babilrotoj, precipe, eble povas precize rekomendi produktojn kaj servojn.
    • Ciferecaj tradukistoj kiuj povas prilabori bildojn kaj filmetojn kaj disponigi precizan tradukon kiu konsideras kulturan kaj situacian kuntekston.
    • Sociaj amaskomunikiloj bot-skaniloj kapablaj fari pli holisma sentanalizo kunfandante bildojn, subtitolojn kaj komentojn. Ĉi tiu aplikaĵo povas esti utila en moderado de enhavo, kiu postulas analizon de malutilaj bildoj.
    • Pliigante laborŝancojn por komputila vizio kaj NLP maŝinlernado-inĝenieroj kaj datumsciencistoj.
    • Noventreprenoj konstruantaj sur ĉi tiuj AI-sistemoj por komercigi ilin aŭ provizi personecigitajn solvojn por entreprenoj.

    Demandoj por komenti

    • Kiel alie vi pensas, ke vokenigo ŝanĝos kiel ni interagas kun robotoj?
    • Kiel vokenigo povas ŝanĝi kiel ni faras komercon kaj interagas kun niaj aparatoj (smartphones kaj inteligentaj aparatoj)?

    Enrigardaj referencoj

    La sekvaj popularaj kaj instituciaj ligiloj estis referenceitaj por ĉi tiu kompreno: