Modelet e trajnimit ai kërkojnë zhvillim me kosto të ulët

KREDI I IMAZHIT:

iStock

Trajnimi i modeleve të AI: Kërkimi për zhvillimin e AI me kosto të ulët

Modelet e inteligjencës artificiale janë jashtëzakonisht të shtrenjta për t'u ndërtuar dhe trajnuar, duke i bërë ato të paarritshme për shumicën e studiuesve dhe përdoruesve.

Author:
Emri i autorit
Parashikimi Kuantumrun
March 21, 2023

Mësimi i thellë (DL) është dëshmuar të jetë një zgjidhje kompetente për disa sfida në zhvillimin e inteligjencës artificiale (AI). Megjithatë, DL po bëhet gjithashtu më e shtrenjtë. Funksionimi i rrjeteve të thella nervore kërkon burime të larta përpunimi, veçanërisht në para-trajnim. Më keq, ky proces intensiv i energjisë do të thotë që këto kërkesa rezultojnë në gjurmë të mëdha karboni, duke dëmtuar vlerësimet e ESG të komercializimit të kërkimit të AI.

Konteksti i modeleve të trajnimit të AI

Trajnimi paraprak është tani qasja më popullore për ndërtimin e rrjeteve nervore në shkallë të gjerë dhe ka treguar sukses të madh në vizionin kompjuterik (CV) dhe përpunimin e gjuhës natyrore (NLP). Megjithatë, zhvillimi i modeleve të mëdha DL është bërë shumë i kushtueshëm. Për shembull, trajnimi i Transformer 3 të Trajnuar paraprakisht gjenerues të OpenAI (GPT-3), i cili ka 175 miliardë parametra dhe ka nevojë për akses në grupe të mëdha serverësh me karta grafike të nivelit të lartë, kishte një kosto të vlerësuar prej 12 milionë dollarësh. Një server i fuqishëm dhe qindra gigabajt memorie me akses të rastësishëm video (VRAM) nevojiten gjithashtu për të ekzekutuar modelin.

Ndërsa kompanitë e mëdha të teknologjisë mund të jenë në gjendje të përballojnë kosto të tilla trajnimi, kjo bëhet e ndaluar për startup-et më të vogla dhe organizatat kërkimore. Tre faktorë e nxisin këtë shpenzim.

1. Kostot e gjera llogaritëse, të cilat do të duheshin disa javë me mijëra njësi përpunimi grafik (GPU).

2. Modelet e rregulluara mirë kërkojnë ruajtje masive, zakonisht duke zënë qindra gigabajt (GB). Për më tepër, duhet të ruhen modele të shumta për detyra të ndryshme.

3. Trajnimi i modeleve të mëdha kërkon fuqi dhe harduer të saktë llogaritës; përndryshe, rezultatet mund të mos jenë ideale.

Për shkak të kostove ndaluese, kërkimi i AI është bërë gjithnjë e më i komercializuar, ku kompanitë e Big Tech po udhëheqin studimet në këtë fushë. Këto firma gjithashtu mund të përfitojnë më shumë nga gjetjet e tyre. Ndërkohë, institucionet kërkimore dhe organizatat jofitimprurëse shpesh duhet të bashkëpunojnë me këto biznese nëse duan të kryejnë eksplorimin e tyre në terren.

Ndikim shkatërrues

Ka prova që sugjerojnë se rrjetet nervore mund të "krasiten". Kjo do të thotë që brenda rrjeteve nervore të mbipërmasave, një grup më i vogël mund të arrijë të njëjtin nivel saktësie si modeli origjinal i AI pa ndikime të rënda në funksionalitetin e tij. Për shembull, në vitin 2020, studiuesit e AI në Kolegjin Swarthmore dhe Laboratori Kombëtar i Los Alamos ilustruan se edhe pse një model kompleks DL mund të mësojë të parashikojë hapat e ardhshëm në lojën e jetës së matematikanit John Conway, gjithmonë ekziston një rrjet nervor më i vogël që mund të mësohet. për të bërë të njëjtën gjë.

Studiuesit zbuluan se nëse hedhin poshtë parametra të shumtë të një modeli DL pasi të ketë përfunduar të gjithë procedurën e trajnimit, ata mund ta zvogëlojnë atë në 10 përqind të madhësisë së tij origjinale dhe të arrijnë të njëjtin rezultat. Disa kompani të teknologjisë tashmë po kompresojnë modelet e tyre të AI për të kursyer hapësirë në pajisje si laptopët dhe telefonat inteligjentë. Kjo metodë jo vetëm që kursen para, por gjithashtu lejon që softueri të funksionojë pa një lidhje interneti dhe të marrë rezultate në kohë reale.

Kishte gjithashtu raste kur DL ishte e mundur në pajisjet e fuqizuara nga bateritë diellore ose qelizat e butonave, falë rrjeteve të vogla nervore. Megjithatë, një kufizim i metodës së krasitjes është se modeli ende duhet të trajnohet plotësisht përpara se të mund të reduktohet. Ka pasur disa studime fillestare mbi nëngrupet nervore që mund të trajnohen vetë. Megjithatë, saktësia e tyre nuk është e njëjtë me ato të rrjeteve nervore të mbipërmasave.

Implikimet e modeleve të trajnimit të AI

Implikimet më të gjera të modeleve të trajnimit të AI mund të përfshijnë:

Rritja e kërkimeve në metoda të ndryshme të trajnimit të rrjeteve nervore; megjithatë, progresi mund të ngadalësohet nga mungesa e fondeve.
Teknologjia e madhe vazhdon të financojë laboratorët e tyre të kërkimit të AI, duke rezultuar në më shumë konflikte interesi.
Kostot e zhvillimit të AI krijojnë kushtet për formimin e monopoleve, duke kufizuar aftësinë e startupeve të reja të AI për të konkurruar në mënyrë të pavarur me firmat e teknologjisë së krijuar. Një skenar biznesi në zhvillim mund të shohë një pjesë të vogël të firmave të mëdha teknologjike që zhvillojnë modele gjigante të AI dhe ua japin me qira firmave më të vogla të AI si një shërbim/dobi.
Institucionet kërkimore, organizatat jofitimprurëse dhe universitetet që financohen nga teknologjia e madhe për të kryer disa eksperimente të AI në emër të tyre. Ky trend mund të çojë në më shumë ikje të trurit nga akademia te korporatat.
Rritja e presionit për teknologjinë e madhe për të publikuar dhe përditësuar rregullisht udhëzimet e tyre të etikës së AI për t'i bërë ata të përgjegjshëm për projektet e tyre të kërkimit dhe zhvillimit.
Trajnimi i modeleve të inteligjencës artificiale po bëhet më i shtrenjtë pasi fuqia kompjuterike më e lartë kërkohet gjithnjë e më shumë, duke çuar në më shumë emetime karboni.
Disa agjenci qeveritare po përpiqen të rregullojnë të dhënat e përdorura në trajnimin e këtyre modeleve gjigante të AI. Gjithashtu, agjencitë e konkurrencës mund të krijojnë legjislacion që detyron modelet e AI të një madhësie të caktuar të bëhen të aksesueshme për firmat më të vogla vendase në një përpjekje për të nxitur inovacionin e SME-ve.

Pyetje që duhen marrë parasysh

Nëse punoni në sektorin e AI, si po zhvillon organizata juaj modele më të qëndrueshme për mjedisin AI?
Cilat janë pasojat e mundshme afatgjata të modeleve të shtrenjta të AI?

Shto tek lista