Školení ai modely hledání low cost vývoj ai

KREDIT OBRAZU:

iStock

Tréninkové modely AI: Hledání levného vývoje AI

Modely umělé inteligence jsou notoricky nákladné na sestavení a výcvik, takže jsou pro většinu výzkumníků a uživatelů nedostupné.

Autor:
jméno autora
Quantumrun Foresight
21. března 2023

Hluboké učení (DL) se ukázalo jako kompetentní řešení několika výzev ve vývoji umělé inteligence (AI). DL však také zdražuje. Provoz hlubokých neuronových sítí vyžaduje velké výpočetní prostředky, zejména v předškolním režimu. Horší je, že tento energeticky náročný proces znamená, že tyto požadavky mají za následek velké uhlíkové stopy, které poškozují hodnocení ESG komercializace výzkumu AI.

Kontext tréninkových modelů umělé inteligence

Pre-trénink je nyní nejoblíbenějším přístupem k budování rozsáhlých neuronových sítí a ukázal velký úspěch v počítačovém vidění (CV) a zpracování přirozeného jazyka (NLP). Vývoj obrovských modelů DL se však stal příliš nákladným. Například školení OpenAI's Generative Pre-trained Transformer 3 (GPT-3), který má 175 miliard parametrů a potřebuje přístup k obrovským serverovým clusterům se špičkovými grafickými kartami, mělo odhadované náklady na 12 milionů USD. Ke spuštění modelu je také zapotřebí výkonný server a stovky gigabajtů paměti VRAM (Video random access memory).

Zatímco velké technologické společnosti by si mohly dovolit takové náklady na školení, pro menší startupy a výzkumné organizace to zakazuje. Tyto náklady řídí tři faktory.

1. Rozsáhlé výpočetní náklady, které by vyžadovaly několik týdnů s tisíci grafických procesorových jednotek (GPU).

2. Vyladěné modely vyžadují masivní úložiště, které obvykle zabírá stovky gigabajtů (GB). Kromě toho je třeba uložit více modelů pro různé úkoly.

3. Trénink velkých modelů vyžaduje přesný výpočetní výkon a hardware; jinak by výsledky nemusely být ideální.

Kvůli neúměrným nákladům se výzkum umělé inteligence stále více komercializuje, přičemž studie v oboru vedou velké technologické společnosti. Tyto firmy také ze svých zjištění vytěží maximum. Mezitím výzkumné instituce a neziskové organizace často musí s těmito podniky spolupracovat, pokud chtějí provádět průzkum v terénu.

Rušivý dopad

Existují důkazy, které naznačují, že neuronové sítě lze „prořezat“. To znamená, že v rámci superdimenzovaných neuronových sítí může menší skupina dosáhnout stejné úrovně přesnosti jako původní model AI, aniž by to mělo velký dopad na jeho funkčnost. Například v roce 2020 výzkumníci AI na Swarthmore College a Los Alamos National Laboratory ukázali, že i když se složitý DL model může naučit předpovídat budoucí kroky ve hře o život matematika Johna Conwaye, vždy existuje menší neuronová síť, kterou lze naučit. dělat to samé.

Výzkumníci zjistili, že pokud vyřadí četné parametry modelu DL poté, co dokončí celý tréninkový postup, mohou jej zmenšit na 10 procent původní velikosti a dosáhnout stále stejného výsledku. Několik technologických společností již komprimuje své modely AI, aby ušetřilo místo na zařízeních, jako jsou notebooky a smartphony. Tato metoda nejen šetří peníze, ale také umožňuje softwaru běžet bez připojení k internetu a získávat výsledky v reálném čase.

Byly také případy, kdy bylo DL možné na zařízeních napájených solárními bateriemi nebo knoflíkovými články díky malým neuronovým sítím. Omezení metody prořezávání však spočívá v tom, že model musí být před zmenšením ještě zcela natrénován. Byly provedeny počáteční studie na nervových podskupinách, které lze trénovat samostatně. Jejich přesnost však není stejná jako u superdimenzovaných neuronových sítí.

Důsledky tréninkových modelů umělé inteligence

Širší důsledky tréninkových modelů umělé inteligence mohou zahrnovat:

Zvýšený výzkum různých metod trénování neuronových sítí; pokrok však může zpomalit nedostatek financí.
Velká technologie nadále financuje své výzkumné laboratoře AI, což vede k dalším střetům zájmů.
Náklady na vývoj umělé inteligence vytvářející podmínky pro vznik monopolů, které omezují schopnost nových startupů s umělou inteligencí soutěžit nezávisle se zavedenými technologickými firmami. Vznikající obchodní scénář může vidět, že hrstka velkých technologických firem vyvíjí obří proprietární modely umělé inteligence a pronajímá je menším firmám s umělou inteligencí jako službu/utilitu.
Výzkumné instituce, neziskové organizace a univerzity jsou financovány velkými technologiemi, aby jejich jménem prováděly některé experimenty s umělou inteligencí. Tento trend může vést k většímu úniku mozků z akademické sféry do korporací.
Zvýšený tlak na velké technologie, aby publikovaly a pravidelně aktualizovaly své etické pokyny pro umělou inteligenci, aby byli odpovědní za své výzkumné a vývojové projekty.
Tréninkové modely umělé inteligence jsou stále dražší, protože je stále více vyžadován vyšší výpočetní výkon, což vede k vyšším emisím uhlíku.
Některé vládní agentury se pokoušejí regulovat data používaná při výcviku těchto obřích modelů umělé inteligence. Agentury pro hospodářskou soutěž mohou rovněž vytvořit legislativu, která nutí modely umělé inteligence určité velikosti zpřístupnit menším domácím firmám ve snaze podnítit inovace malých a středních podniků.

Otázky k zamyšlení

Pokud pracujete v sektoru umělé inteligence, jak vaše organizace vyvíjí modely umělé inteligence udržitelnější z hlediska životního prostředí?
Jaké jsou potenciální dlouhodobé důsledky drahých modelů umělé inteligence?

Přidat k oblíbeným