Trening av AI-modeller: Jakten på lavkost AI-utvikling

BILDEKREDITT:
Bilde kreditt
iStock

Trening av AI-modeller: Jakten på lavkost AI-utvikling

Trening av AI-modeller: Jakten på lavkost AI-utvikling

Underoverskriftstekst
Kunstig intelligens-modeller er notorisk dyre å bygge og trene, noe som gjør dem utenfor rekkevidde for de fleste forskere og brukere.
    • Forfatter:
    • forfatternavn
      Quantumrun Foresight
    • Mars 21, 2023

    Deep learning (DL) har vist seg å være en kompetent løsning på flere utfordringer innen utvikling av kunstig intelligens (AI). Imidlertid blir DL også dyrere. Å drifte dype nevrale nettverk krever høye prosesseringsressurser, spesielt ved forhåndstrening. Enda verre, denne energikrevende prosessen betyr at disse kravene resulterer i store karbonfotavtrykk, og skader ESG-vurderingene for kommersialisering av AI-forskning.

    Trening av AI-modeller kontekst

    Foropplæring er nå den mest populære tilnærmingen til å bygge store nevrale nettverk, og den har vist stor suksess innen datasyn (CV) og naturlig språkbehandling (NLP). Det har imidlertid blitt for kostbart å utvikle enorme DL-modeller. For eksempel hadde opplæring av OpenAIs Generative Pre-trained Transformer 3 (GPT-3), som har 175 milliarder parametere og trenger tilgang til enorme serverklynger med førsteklasses grafikkort, en estimert kostnad på USD 12 millioner. En kraftig server og hundrevis av gigabyte med video-random access memory (VRAM) er også nødvendig for å kjøre modellen.

    Selv om store teknologiselskaper kan ha råd til slike opplæringskostnader, blir det uoverkommelig for mindre oppstarts- og forskningsorganisasjoner. Tre faktorer driver denne utgiften. 

    1. Omfattende beregningskostnader, som vil trenge flere uker med tusenvis av grafiske prosesseringsenheter (GPUer).

    2. Finjusterte modeller krever massiv lagring, som vanligvis tar opp hundrevis av gigabyte (GBs). Videre må flere modeller for ulike oppgaver lagres.

    3. Trening av store modeller krever presis beregningskraft og maskinvare; ellers kan det hende at resultatene ikke er ideelle.

    På grunn av uoverkommelige kostnader har AI-forskning blitt stadig mer kommersialisert, der Big Tech-selskaper leder studiene på feltet. Disse firmaene vil også få mest mulig ut av funnene sine. I mellomtiden må forskningsinstitusjoner og ideelle organisasjoner ofte samarbeide med disse virksomhetene hvis de ønsker å utføre sin utforskning på feltet. 

    Forstyrrende påvirkning

    Det er bevis som tyder på at nevrale nettverk kan "beskjæres". Dette betyr at innenfor overdimensjonerte nevrale nettverk kan en mindre gruppe oppnå samme nivå av nøyaktighet som den originale AI-modellen uten store innvirkninger på funksjonaliteten. For eksempel, i 2020, illustrerte AI-forskere ved Swarthmore College og Los Alamos National Laboratory at selv om en kompleks DL-modell kan lære å forutsi fremtidige trinn i matematikeren John Conways Game of Life, er det alltid et mindre nevralt nettverk som kan læres å gjøre det samme.

    Forskere oppdaget at hvis de forkaster mange parametere for en DL-modell etter at den har fullført hele treningsprosedyren, kan de redusere den til 10 prosent av den opprinnelige størrelsen og fortsatt oppnå samme resultat. Flere teknologiselskaper komprimerer allerede AI-modellene sine for å spare plass på enheter som bærbare datamaskiner og smarttelefoner. Denne metoden sparer ikke bare penger, men lar også programvaren kjøre uten Internett-tilkobling og få resultater i sanntid. 

    Det var også tilfeller der DL var mulig på enheter drevet av solcellebatterier eller knappeceller, takket være små nevrale nettverk. En begrensning ved beskjæringsmetoden er imidlertid at modellen fortsatt må være ferdig trent før den kan reduseres. Det var noen innledende studier på nevrale undergrupper som kan trenes på egen hånd. Nøyaktigheten deres er imidlertid ikke den samme som for store nevrale nettverk.

    Implikasjoner av å trene AI-modeller

    Større implikasjoner av trening AI-modeller kan omfatte: 

    • Økt forskning på ulike metoder for å trene nevrale nettverk; imidlertid kan fremgangen bli bremset av mangel på finansiering.
    • Big tech fortsetter å finansiere sine AI-forskningslaboratorier, noe som resulterer i flere interessekonflikter.
    • Kostnadene ved AI-utvikling skaper forutsetninger for monopoldannelse, og begrenser muligheten for nye AI-startups til å konkurrere uavhengig med etablerte teknologifirmaer. Et gryende forretningsscenario kan se at en håndfull store teknologifirmaer utvikler gigantiske proprietære AI-modeller og leier dem ut til mindre AI-firmaer som en tjeneste/verktøy.
    • Forskningsinstitusjoner, ideelle organisasjoner og universiteter blir finansiert av storteknologi for å utføre noen AI-eksperimenter på deres vegne. Denne trenden kan føre til mer hjerneflukt fra akademia til selskaper.
    • Økt press for storteknologi om å publisere og jevnlig oppdatere sine AI-etiske retningslinjer for å gjøre dem ansvarlige for sine forsknings- og utviklingsprosjekter.
    • Trening av AI-modeller blir dyrere ettersom høyere datakraft kreves i økende grad, noe som fører til mer karbonutslipp.
    • Noen offentlige etater prøver å regulere dataene som brukes i opplæringen av disse gigantiske AI-modellene. I tillegg kan konkurransebyråer lage lovgivning som tvinger AI-modeller av en viss størrelse til å gjøres tilgjengelige for mindre innenlandske firmaer i et forsøk på å stimulere SMB-innovasjon.

    Spørsmål å vurdere

    • Hvis du jobber i AI-sektoren, hvordan utvikler organisasjonen din mer miljømessig bærekraftige AI-modeller?
    • Hva er de potensielle langsiktige konsekvensene av dyre AI-modeller?

    Innsiktsreferanser

    Følgende populære og institusjonelle lenker ble referert for denne innsikten: