Training ai modele căutare low cost ai dezvoltare

CREDIT DE IMAGINE:

iStock

Modele de instruire AI: căutarea dezvoltării AI cu costuri reduse

Modelele de inteligență artificială sunt notoriu de costisitoare de construit și antrenat, făcându-le la îndemâna majorității cercetătorilor și utilizatorilor.

Autor:
Numele autorului
Previziune Quantumrun
Martie 21, 2023

Învățarea profundă (DL) s-a dovedit a fi o soluție competentă la mai multe provocări în dezvoltarea inteligenței artificiale (AI). Cu toate acestea, DL devine și mai scump. Operarea rețelelor neuronale profunde necesită resurse mari de procesare, în special în pre-antrenament. Mai rău, acest proces consumatoare de energie înseamnă că aceste cerințe au ca rezultat amprente mari de carbon, dăunând evaluărilor ESG ale comercializării cercetării AI.

Contextul modelelor de instruire AI

Pre-instruirea este acum cea mai populară abordare pentru construirea de rețele neuronale la scară largă și a demonstrat un mare succes în viziunea computerizată (CV) și procesarea limbajului natural (NLP). Cu toate acestea, dezvoltarea modelelor DL uriașe a devenit prea costisitoare. De exemplu, antrenamentul Generative Pre-trained Transformer 3 (GPT-3) de la OpenAI, care are 175 de miliarde de parametri și are nevoie de acces la clustere enorme de servere cu plăci grafice de top, a avut un cost estimat de 12 milioane USD. Un server puternic și sute de gigabytes de memorie video cu acces aleatoriu (VRAM) sunt, de asemenea, necesari pentru a rula modelul.

În timp ce marile companii tehnologice ar putea să-și permită astfel de costuri de formare, aceasta devine prohibitivă pentru startup-urile mai mici și organizațiile de cercetare. Trei factori determină această cheltuială.

1. Costuri mari de calcul, care ar necesita câteva săptămâni cu mii de unități de procesare grafică (GPU).

2. Modelele ajustate necesită stocare masivă, ocupând de obicei sute de gigaocteți (GB). Mai mult, mai multe modele pentru diferite sarcini trebuie să fie stocate.

3. Antrenarea modelelor mari necesită putere de calcul precisă și hardware; altfel, rezultatele ar putea să nu fie ideale.

Din cauza costurilor prohibitive, cercetarea AI a devenit din ce în ce mai comercializată, în care companiile Big Tech conduc studiile în domeniu. Aceste firme au, de asemenea, cel mai mult de câștigat din descoperirile lor. Între timp, instituțiile de cercetare și organizațiile nonprofit trebuie adesea să colaboreze cu aceste afaceri dacă doresc să-și desfășoare explorarea în domeniu.

Impact perturbator

Există dovezi care sugerează că rețelele neuronale pot fi „tăiate”. Aceasta înseamnă că în cadrul rețelelor neuronale supradimensionate, un grup mai mic poate atinge același nivel de precizie ca modelul original AI fără impacturi puternice asupra funcționalității sale. De exemplu, în 2020, cercetătorii AI de la Colegiul Swarthmore și Laboratorul Național Los Alamos au ilustrat că, deși un model complex DL poate învăța să prezică pașii viitori în Jocul vieții al matematicianului John Conway, există întotdeauna o rețea neuronală mai mică care poate fi predată. sa faca acelasi lucru.

Cercetătorii au descoperit că, dacă elimină numeroși parametri ai unui model DL după ce acesta a finalizat întreaga procedură de antrenament, îl pot reduce la 10% din dimensiunea inițială și pot obține în continuare același rezultat. Mai multe companii de tehnologie își comprimă deja modelele AI pentru a economisi spațiu pe dispozitive precum laptopuri și smartphone-uri. Această metodă nu numai că economisește bani, dar permite și software-ului să ruleze fără o conexiune la internet și să obțină rezultate în timp real.

Au existat, de asemenea, cazuri în care DL a fost posibilă pe dispozitive alimentate cu baterii solare sau pile buton, datorită rețelelor neuronale mici. Cu toate acestea, o limitare a metodei de tăiere este că modelul trebuie încă antrenat complet înainte de a putea fi redus. Au existat câteva studii inițiale privind subseturile neuronale care pot fi antrenate pe cont propriu. Cu toate acestea, precizia lor nu este aceeași cu cea a rețelelor neuronale supradimensionate.

Implicațiile antrenării modelelor AI

Implicațiile mai largi ale modelelor de instruire AI pot include:

Creșterea cercetării în diferite metode de antrenare a rețelelor neuronale; cu toate acestea, progresul ar putea fi încetinit din cauza lipsei de finanțare.
Tehnologia mare continuă să-și finanțeze laboratoarele de cercetare AI, ceea ce duce la mai multe conflicte de interese.
Costurile dezvoltării AI creează condițiile pentru formarea monopolurilor, limitând capacitatea noilor startup-uri AI de a concura independent cu firmele de tehnologie consacrate. Un scenariu de afaceri în curs de dezvoltare poate vedea o mână de firme de tehnologie mari dezvoltând modele gigant de IA proprietare și le închiriază firmelor mai mici de AI ca serviciu/utilitate.
Instituțiile de cercetare, organizațiile nonprofit și universitățile sunt finanțate de marile tehnologii pentru a efectua unele experimente AI în numele lor. Această tendință poate duce la o mai mare exod de creiere din mediul academic către corporații.
Creșterea presiunii pentru marile tehnologii de a publica și actualiza în mod regulat liniile directoare de etică a AI pentru a-i face responsabili pentru proiectele lor de cercetare și dezvoltare.
Modelele de instruire AI devin mai scumpe, deoarece este necesară o putere de calcul mai mare, ceea ce duce la mai multe emisii de carbon.
Unele agenții guvernamentale încearcă să reglementeze datele utilizate în formarea acestor modele gigantice de IA. De asemenea, agențiile de concurență pot crea legislație care obligă modelele AI de o anumită dimensiune să fie accesibile firmelor naționale mai mici, într-un efort de a stimula inovarea IMM-urilor.

Întrebări de luat în considerare

Dacă lucrați în sectorul AI, cum dezvoltă organizația dvs. modele AI mai sustenabile din punct de vedere ecologic?
Care sunt potențialele consecințe pe termen lung ale modelelor scumpe de IA?

Adaugă în listă