Vokenization: Zimanê ku AI dikare bibîne

KREDIYA WÊNE:
Kredê Image
iStock

Vokenization: Zimanê ku AI dikare bibîne

Vokenization: Zimanê ku AI dikare bibîne

Nivîsa binavkirî
Digel ku wêneyên ku naha di perwerdehiya pergalên îstîxbarata sûnî (AI) de cih digirin, dibe ku robot di demek nêzîk de karibin fermanan "bibînin".
    • Nivîskar:
    • Navê nivîskar
      Pêşbîniya Quantumrun
    • Bila 9, 2023

    Pêvajoya zimanê xwezayî (NLP) rê daye pergalên îstîxbarata sûnî (AI) ku bi têgihîştina peyvan û lihevanîna çarçoweya bi hestê axaftina mirovan fêr bibin. Tenê kêmasiyek ev e ku van pergalên NLP-ê bi tenê-based nivîsê ne. Vokenization li ber e ku hemî wê biguhezîne.

    Çarçoveya Vokenization

    Du bernameyên fêrbûna makîneyê (ML)-ya-based nivîsê bi gelemperî têne bikar anîn da ku AI-yê ji bo pêvajoyê û têgihîştina zimanê mirovî perwerde bike: Transformer 3-ya Pêş-perwerdekirî ya Generative OpenAI (GPT-3) û BERT-ya Google (Nûnerên Encoderê Dualî ji Transformers). Di termînolojiya AI-ê de, peyvên ku di perwerdehiya NLP-ê de têne bikar anîn jê re token têne gotin. Lekolînwanên ji Zanîngeha Karolînaya Bakur (UNC) dîtin ku bernameyên perwerdehiyê yên li ser nivîsê sînordar in ji ber ku ew nikanin "bibînin", ango ew nikanin agahdariya dîtbar û ragihandinê bigirin. 

    Mînakî, heke kesek ji GPT-3 bipirse ka rengê pez çi ye, pergal dê pir caran bersiva "reş" bide her çend ew eşkere spî be. Ev bersiv ji ber vê yekê ye ku pergala bingehîn a nivîsê li şûna ku rengê rast nas bike, wê bi têgîna "pezê reş" re têkildar bike. Bi tevlêkirina dîmenên bi nîşanan (voken), pergalên AI-ê dikarin têgihiştinek tevdeyî ya terman hebe. Vokenîzasyon vokenan di pergalên NLP-ya xwe-çavdêrkirî de yek dike, rê dide wan ku "aqilê hevpar" pêşve bibin.

    Yekkirina modelên ziman û dîtina kompîturê ne têgehek nû ye, û ew di lêkolîna AI-ê de qadek zû berbelav dibe. Kombûna van her du celebên AI-ê hêzên wan ên kesane bi kar tîne. Modelên ziman ên mîna GPT-3 bi fêrbûna bêserûber têne perwerde kirin, ku dihêle ku ew bi hêsanî pîvandin. Berevajî vê, modelên wêneyê yên mîna pergalên nasîna tiştan dikarin rasterast ji rastiyê fêr bibin û pişta xwe nedin abstraksasyona ku ji hêla nivîsê ve hatî peyda kirin. Mînakî, modelên wêneyê bi dîtina wêneyekî dikarin nas bikin ku pez spî ye.

    Bandora têkçûyî

    Pêvajoya dengdanê pir hêsan e. Voken bi destnîşankirina wêneyên têkildar an têkildar bi nîşaneyên ziman têne afirandin. Dûv re, algorîtmayan (vokenizator) têne sêwirandin ku bi fêrbûna neserperiştkirî (bê pîvanên / rêgezên eşkere) vokenan çêbikin. Aqilê hevpar AI-ya ku bi navgîniyê ve hatî perwerde kirin dikare pirsgirêkan çêtir ragihîne û çareser bike ji ber ku ew xwedan têgihiştinek kûr a çarçoveyê ne. Ev nêzîkatî yekta ye ji ber ku ew ne tenê nîşaneyên zimên pêşbîn dike, lê di heman demê de nîşaneyên wêneyê jî pêşbîn dike, ev tiştek e ku modelên BERT-ya kevneşopî nikaribin bikin.

    Mînakî, arîkarên robotîk dê karibin wêneyan nas bikin û pêvajoyên çêtir rêve bibin ji ber ku ew dikarin "bibînin" tiştê ku ji wan tê xwestin. Pergalên îstîxbarata çêkirî yên ku ji bo nivîsandina naverokê hatine perwerde kirin dê karibin gotarên ku bêtir mirovî bin, bi ramanên ku çêtir diherikin, li şûna hevokên veqetandî çêkin. Bi berçavgirtina berferehiya serîlêdanên NLP, vokenîzasyon dikare bibe sedema çêtirîn chatbots, arîkarên virtual, tespîtên bijîjkî yên serhêl, wergêrên dîjîtal, û hêj bêtir.

    Wekî din, berhevoka dîtin û fêrbûna ziman di serîlêdanên wênekêşiya bijîjkî de, bi taybetî ji bo tespîtkirina wêneya bijîjkî ya otomatîkî, populerbûna xwe bi dest dixe. Mînakî, hin lêkolîner bi vê nêzîkatiyê re li ser wêneyên radyografî yên bi raveyên nivîsê yên pêvekirî re ceribandin dikin, ku li wir dabeşkirina semantîkî dikare dem-xwar be. Teknolojiya vokenîzasyonê dikare van nûneran zêde bike û bi karanîna agahdariya nivîsê wênekêşiya bijîjkî ya otomatîkî baştir bike.

    Serlêdanên ji bo vokenization

    Hin serîlêdanên ji bo vokenîzasyonê dibe ku ev in:

    • Chatbotên xwerû yên ku dikarin dîmen, wêne û naveroka malperê pêvajoyê bikin. Bi taybetî chatbotên piştevaniya xerîdar, dibe ku bikarin hilber û karûbaran rast pêşniyar bikin.
    • Wergêrên dîjîtal ên ku dikarin wêne û vîdyoyan bişopînin û wergerek rast peyda bikin ku çarçoveyek çandî û rewşê dihesibîne.
    • Skenerên botê yên medyaya civakî ku dikarin bi berhevkirina wêne, sernav û şîroveyan ve analîzek hestyarî ya berfirehtir bikin. Ev serîlêdan dikare di nermkirina naverokê de ku hewceyê analîzkirina wêneyên zirardar e de bikêr be.
    • Zêdekirina derfetên kar ji bo endezyarên fêrbûna makîneyê û zanyarên daneyê yên dîtina computer û NLP.
    • Destpêkên ku li ser van pergalên AI-ê ava dikin da ku wan bazirganî bikin an ji bo karsaziyan çareseriyên xwerû peyda bikin.

    Pirsên ku li ser şîrove bikin

    • Wekî din hûn difikirin ku vokenîzasyon dê çawa çawa bi robotan re têkilî daynin biguhezîne?
    • Meriv çawa dikare dengbêjiyê biguhezîne ka em çawa karsaziyê dikin û bi amûrên xwe re (têlefon û amûrên jîr) re têkilî didin?

    Referansên Insight

    Girêdanên populer û sazî yên jêrîn ji bo vê têgihiştinê hatine referans kirin: