Treening ai mudelite otsing odav ai arendus

PILDIKrediit:

iStock

AI mudelite koolitamine: odavate AI arenduste otsimine

Tehisintellekti mudelite ehitamine ja koolitamine on kurikuulsalt kallis, mistõttu on need enamiku teadlaste ja kasutajate jaoks kättesaamatud.

Autor:
autori nimi
Quantumrun Foresight
Märtsil 21, 2023

Süvaõpe (DL) on osutunud pädevaks lahenduseks mitmetele tehisintellekti (AI) arendamise väljakutsetele. Samas kallineb ka DL. Sügavate närvivõrkude kasutamine nõuab suuri töötlemisressursse, eriti eelkoolituses. Mis veelgi hullem, see energiamahukas protsess tähendab, et need nõuded põhjustavad suurt süsiniku jalajälge, mis kahjustab tehisintellektiuuringute turustamise ESG-reitingut.

AI mudelite koolitamise kontekst

Eelkoolitus on praegu kõige populaarsem lähenemisviis suuremahuliste närvivõrkude ehitamisel ning see on näidanud suurt edu arvutinägemise (CV) ja loomuliku keele töötlemise (NLP) valdkonnas. Suurte DL-mudelite arendamine on aga muutunud liiga kulukaks. Näiteks OpenAI Generative Pre-trained Transformer 3 (GPT-3), millel on 175 miljardit parameetrit ja mis vajab juurdepääsu tohututele tipptasemel graafikakaartidega serveriklastritele, koolitus läks hinnanguliselt maksma 12 miljonit USA dollarit. Mudeli käitamiseks on vaja ka võimsat serverit ja sadu gigabaiteid video muutmälu (VRAM).

Kuigi suuremad tehnoloogiaettevõtted võivad selliseid koolituskulusid endale lubada, muutub see väiksematele idufirmadele ja teadusorganisatsioonidele üle jõu käivaks. Seda kulu põhjustavad kolm tegurit.

1. Suured arvutuskulud, milleks kuluks tuhandete graafikaprotsessoritega (GPU) mitu nädalat.

2. Peenhäälestatud mudelid nõuavad tohutut salvestusruumi, mis tavaliselt võtavad sadu gigabaite (GB). Lisaks tuleb erinevate ülesannete jaoks salvestada mitu mudelit.

3. Suurte mudelite koolitamine nõuab täpset arvutusvõimsust ja riistvara; vastasel juhul ei pruugi tulemused olla ideaalsed.

Liiga suurte kulude tõttu on AI-uuringud muutunud üha enam kommertsialiseerunud, kusjuures Big Tech ettevõtted juhivad selle valdkonna uuringuid. Need ettevõtted saavad ka oma leidudest kõige rohkem kasu. Samal ajal peavad uurimisasutused ja mittetulundusühingud sageli nende ettevõtetega koostööd tegema, kui nad soovivad valdkonna uurimist läbi viia.

Häiriv mõju

On tõendeid selle kohta, et närvivõrke saab "kärpida". See tähendab, et ülisuurtes närvivõrkudes suudab väiksem rühm saavutada algse tehisintellekti mudeliga sama täpsuse, ilma et see mõjutaks oluliselt selle funktsionaalsust. Näiteks 2020. aastal näitasid Swarthmore'i kolledži ja Los Alamose riikliku labori tehisintellekti teadlased, et kuigi keeruline DL-mudel võib õppida ennustama tulevasi samme matemaatik John Conway elumängus, on alati olemas väiksem närvivõrk, mida saab õpetada. sama asja teha.

Teadlased avastasid, et kui nad loobuvad DL-mudeli paljudest parameetritest pärast kogu koolitusprotseduuri läbimist, saavad nad seda vähendada 10 protsendini selle algsest suurusest ja saavutada sama tulemuse. Mitmed tehnoloogiaettevõtted tihendavad juba oma tehisintellekti mudeleid, et säästa ruumi sellistes seadmetes nagu sülearvutid ja nutitelefonid. See meetod mitte ainult ei säästa raha, vaid võimaldab tarkvaral töötada ka ilma Interneti-ühenduseta ja saada tulemusi reaalajas.

Oli ka juhtumeid, kus tänu väikestele närvivõrkudele oli DL võimalik päikesepatareide või nööpelementide toitel seadmetes. Pügamismeetodi piirang on aga see, et mudelit tuleb enne selle vähendamist täielikult välja õpetada. Neuraalsete alamhulkade kohta, mida saab iseseisvalt treenida, viidi läbi mõned esialgsed uuringud. Kuid nende täpsus ei ole sama kui ülisuurte närvivõrkude täpsus.

AI mudelite treenimise tagajärjed

AI-mudelite koolituse laiemad tagajärjed võivad hõlmata järgmist:

Suurenenud uuringud närvivõrkude treenimise erinevate meetodite alal; edusamme võib aga aeglustada rahastamise puudumine.
Suurtehnoloogia jätkab oma tehisintellekti uurimislaborite rahastamist, mille tulemuseks on rohkem huvide konflikte.
Tehisintellekti arendamise kulud, mis loovad tingimused monopolide tekkeks, piirates uute tehisintellekti idufirmade võimet konkureerida iseseisvalt väljakujunenud tehnoloogiaettevõtetega. Arenevas äristsenaariumis võib näha, et käputäis suuri tehnoloogiaettevõtteid arendavad välja hiiglaslikke patenteeritud tehisintellekti mudeleid ja rendivad neid teenusena/utiliidina väiksematele tehisintellektiettevõtetele.
Teadusasutused, mittetulundusühingud ja ülikoolid, mida rahastavad suurtehnoloogiad, et viia läbi tehisintellekti katseid nende nimel. See suundumus võib kaasa tuua suurema ajude äravoolu akadeemilistest ringkondadest ettevõtetesse.
Suurenenud surve suurtele tehnoloogiatele avaldada ja regulaarselt uuendada oma tehisintellekti eetikajuhiseid, et panna nad vastutama oma uurimis- ja arendusprojektide eest.
AI-mudelite koolitamine muutub kallimaks, kuna üha enam on vaja suuremat arvutusvõimsust, mis toob kaasa rohkem süsinikdioksiidi heitkoguseid.
Mõned valitsusasutused üritavad reguleerida nende hiiglaslike tehisintellektimudelite väljaõppel kasutatavaid andmeid. Samuti võivad konkurentsiagentuurid koostada õigusakte, mis sunnivad VKEde innovatsiooni soodustamiseks tegema teatud suurusega tehisintellekti mudelid kättesaadavaks väiksematele kodumaistele ettevõtetele.

Küsimused, mida kaaluda

Kui töötate tehisintellekti sektoris, siis kuidas töötab teie organisatsioon keskkonnasäästlikumaid tehisintellekti mudeleid?
Millised on kallite AI-mudelite võimalikud pikaajalised tagajärjed?

Lisa nimekirja