Tekoälymallien koulutus: Edullisen tekoälykehityksen etsintä

KUVAKrediitti:
Kuva pistetilanne
iStock

Tekoälymallien koulutus: Edullisen tekoälykehityksen etsintä

Tekoälymallien koulutus: Edullisen tekoälykehityksen etsintä

Alaotsikon teksti
Tekoälymallit ovat tunnetusti kalliita rakentaa ja kouluttaa, mikä tekee niistä useimpien tutkijoiden ja käyttäjien ulottumattomissa.
    • Kirjoittaja:
    • tekijän nimi
      Quantumrun Foresight
    • Maaliskuussa 21, 2023

    Deep learning (DL) on osoittautunut päteväksi ratkaisuksi useisiin tekoälyn (AI) kehityksen haasteisiin. Kuitenkin DL on myös tulossa kalliimmaksi. Syvien hermoverkkojen käyttö vaatii suuria prosessointiresursseja erityisesti esikoulutuksessa. Mikä pahempaa, tämä energiaintensiivinen prosessi tarkoittaa, että nämä vaatimukset johtavat suuriin hiilijalanjälkiin, mikä vahingoittaa tekoälytutkimuksen kaupallistamisen ESG-luokituksia.

    Tekoälymallien koulutuskonteksti

    Esikoulutus on nykyään suosituin tapa rakentaa laajamittaisia ​​neuroverkkoja, ja se on osoittanut suurta menestystä tietokonenäön (CV) ja luonnollisen kielen käsittelyssä (NLP). Valtavien DL-mallien kehittämisestä on kuitenkin tullut liian kallista. Esimerkiksi OpenAI:n Generative Pre-trained Transformer 3:n (GPT-3), jolla on 175 miljardia parametria ja joka tarvitsee pääsyn valtaviin palvelinklustereihin huippuluokan näytönohjainkorteilla, kouluttaminen maksoi arviolta 12 miljoonaa dollaria. Mallin käyttämiseen tarvitaan myös tehokas palvelin ja satoja gigatavuja VRAM-muistia.

    Vaikka suurilla teknologiayrityksillä saattaa olla varaa tällaisiin koulutuskustannuksiin, siitä tulee kohtuuton pienemmille startupeille ja tutkimusorganisaatioille. Kolme tekijää ohjaa näitä kuluja. 

    1. Suuret laskentakustannukset, jotka vaativat useita viikkoja tuhansien graafisten prosessointiyksiköiden (GPU) kanssa.

    2. Hienosäädetyt mallit vaativat valtavasti tallennustilaa, jotka vievät yleensä satoja gigatavuja (Gt). Lisäksi on tallennettava useita malleja eri tehtäviin.

    3. Suurten mallien kouluttaminen vaatii tarkkaa laskentatehoa ja laitteistoa; muuten tulokset eivät välttämättä ole ihanteellisia.

    Tekoälytutkimus on kohtuuttomien kustannusten vuoksi kaupallistunut, jolloin alan tutkimuksia johtavat Big Tech -yritykset. Nämä yritykset hyötyvät myös eniten löydöistään. Samaan aikaan tutkimuslaitosten ja voittoa tavoittelemattomien järjestöjen on usein tehtävä yhteistyötä näiden yritysten kanssa, jos he haluavat tehdä tutkimusta alalla. 

    Häiritsevä vaikutus

    On näyttöä siitä, että hermoverkkoja voidaan "karsia". Tämä tarkoittaa, että ylisuurissa hermoverkoissa pienempi ryhmä voi saavuttaa saman tarkkuuden kuin alkuperäinen tekoälymalli ilman suuria vaikutuksia sen toimivuuteen. Esimerkiksi vuonna 2020 Swarthmore Collegen ja Los Alamos National Laboratoryn tekoälytutkijat havainnollistivat, että vaikka monimutkainen DL-malli voi oppia ennustamaan tulevia vaiheita matemaatikko John Conwayn Game of Lifessa, siellä on aina pienempi hermoverkko, jota voidaan opettaa. tehdä samaa.

    Tutkijat havaitsivat, että jos he hylkäävät lukuisia DL-mallin parametreja sen jälkeen, kun se on suorittanut koko harjoitusprosessin, he voivat pienentää sen 10 prosenttiin alkuperäisestä koostaan ​​ja saavuttaa silti saman tuloksen. Useat teknologiayritykset pakkaavat jo tekoälymallejaan säästääkseen tilaa laitteissa, kuten kannettavissa tietokoneissa ja älypuhelimissa. Tämä menetelmä ei vain säästä rahaa, vaan mahdollistaa myös ohjelmiston käytön ilman Internet-yhteyttä ja saada tuloksia reaaliajassa. 

    Oli myös tapauksia, joissa DL oli mahdollista aurinkoparistoilla tai nappiparistoilla toimivissa laitteissa pienten hermoverkkojen ansiosta. Leikkausmenetelmän rajoituksena on kuitenkin se, että malli on vielä koulutettava kokonaan ennen kuin sitä voidaan pienentää. Alkuvaiheessa tehtiin tutkimuksia hermosoluista, joita voidaan harjoittaa yksin. Niiden tarkkuus ei kuitenkaan ole sama kuin ylisuurten hermoverkkojen tarkkuus.

    Tekoälymallien harjoittamisen vaikutukset

    Tekoälymallien harjoittamisen laajempia vaikutuksia voivat olla: 

    • Lisääntynyt tutkimus erilaisten neuroverkkojen koulutusmenetelmistä; edistymistä saattaa kuitenkin hidastaa rahoituksen puute.
    • Suuri teknologia jatkaa tekoälytutkimuslaboratorioidensa rahoittamista, mikä lisää eturistiriitoja.
    • Tekoälykehityksen kustannukset luovat edellytykset monopolien muodostumiselle ja rajoittavat uusien tekoälyyritysten mahdollisuuksia kilpailla itsenäisesti vakiintuneiden teknologiayritysten kanssa. Nousevassa liiketoimintaskenaariossa kourallinen suuria teknologiayrityksiä saattaa kehittää jättimäisiä tekoälymalleja ja vuokrata niitä pienemmille tekoälyyrityksille palveluna/apuohjelmana.
    • Tutkimuslaitokset, voittoa tavoittelemattomat järjestöt ja yliopistot, joita suuren teknologian rahoittaa suorittaakseen tekoälykokeita heidän puolestaan. Tämä suuntaus voi johtaa enemmän aivovuotoon korkeakouluista yrityksiin.
    • Suuren teknologian paineet julkaista ja päivittää säännöllisesti tekoälyn eettisiä ohjeitaan, jotta ne olisivat vastuussa tutkimus- ja kehitysprojekteistaan.
    • Tekoälymallien kouluttamisesta tulee kalliimpaa, kun suurempaa laskentatehoa tarvitaan yhä enemmän, mikä lisää hiilidioksidipäästöjä.
    • Jotkut valtion virastot yrittävät säännellä näiden jättimäisten tekoälymallien koulutuksessa käytettyjä tietoja. Myös kilpailuvirastot voivat luoda lainsäädäntöä, joka pakottaa tietyn kokoiset tekoälymallit asettamaan pienten kotimaisten yritysten saataville pk-yritysten innovoinnin edistämiseksi.

    Pohdittavia kysymyksiä

    • Jos työskentelet tekoälysektorilla, miten organisaatiosi kehittää ympäristön kannalta kestävämpiä tekoälymalleja?
    • Mitkä ovat kalliiden tekoälymallien mahdolliset pitkän aikavälin seuraukset?

    Insight-viittauksia

    Tässä oivalluksessa viitattiin seuraaviin suosittuihin ja institutionaalisiin linkkeihin: