Szkolenia modeli sztucznej inteligencji szukaj taniego rozwoju sztucznej inteligencji

KREDYT WZROKU:

iStock

Szkolenie modeli AI: poszukiwanie taniego rozwoju AI

Modele sztucznej inteligencji są bardzo drogie w budowie i szkoleniu, przez co są poza zasięgiem większości badaczy i użytkowników.

Autor:
nazwisko autora
Foresight Quantumrun
21 marca 2023 r.

Uczenie głębokie (DL) okazało się kompetentnym rozwiązaniem kilku wyzwań związanych z rozwojem sztucznej inteligencji (AI). Jednak DL staje się również droższy. Obsługa głębokich sieci neuronowych wymaga dużych zasobów obliczeniowych, szczególnie w fazie wstępnego uczenia. Co gorsza, ten energochłonny proces oznacza, że wymagania te skutkują dużym śladem węglowym, niszcząc oceny ESG komercjalizacji badań nad sztuczną inteligencją.

Kontekst modeli szkoleniowych AI

Trening wstępny jest obecnie najpopularniejszym podejściem do budowania sieci neuronowych na dużą skalę i odniósł wielki sukces w widzeniu komputerowym (CV) i przetwarzaniu języka naturalnego (NLP). Jednak opracowywanie ogromnych modeli DL stało się zbyt kosztowne. Na przykład szkolenie Generative Pre-trained Transformer 3 (GPT-3) OpenAI, które ma 175 miliardów parametrów i potrzebuje dostępu do ogromnych klastrów serwerów z najwyższej klasy kartami graficznymi, kosztowało szacunkowo 12 milionów USD. Do uruchomienia modelu potrzebny jest również wydajny serwer i setki gigabajtów pamięci wideo o dostępie swobodnym (VRAM).

Podczas gdy duże firmy technologiczne mogą sobie pozwolić na takie koszty szkolenia, staje się to przeszkodą dla mniejszych start-upów i organizacji badawczych. Na ten wydatek wpływają trzy czynniki.

1. Rozległe koszty obliczeniowe, które wymagałyby kilku tygodni z tysiącami procesorów graficznych (GPU).

2. Precyzyjnie dostrojone modele wymagają ogromnej pamięci masowej, zwykle zajmującej setki gigabajtów (GB). Ponadto należy przechowywać wiele modeli do różnych zadań.

3. Szkolenie dużych modeli wymaga precyzyjnej mocy obliczeniowej i sprzętu; w przeciwnym razie wyniki mogą nie być idealne.

Ze względu na zaporowe koszty badania nad sztuczną inteligencją stają się coraz bardziej skomercjalizowane, a firmy Big Tech prowadzą badania w tej dziedzinie. Firmy te również mogą najwięcej zyskać na swoich ustaleniach. Tymczasem instytucje badawcze i organizacje non-profit często muszą współpracować z tymi firmami, jeśli chcą prowadzić badania w terenie.

Zakłócający wpływ

Istnieją dowody sugerujące, że sieci neuronowe można „przycinać”. Oznacza to, że w ramach superrozmiarowanych sieci neuronowych mniejsza grupa może osiągnąć ten sam poziom dokładności, co oryginalny model sztucznej inteligencji bez znacznego wpływu na jego funkcjonalność. Na przykład w 2020 roku naukowcy zajmujący się sztuczną inteligencją ze Swarthmore College i Los Alamos National Laboratory wykazali, że chociaż złożony model DL może nauczyć się przewidywać przyszłe kroki w grze w życie matematyka Johna Conwaya, zawsze istnieje mniejsza sieć neuronowa, której można się nauczyć zrobić to samo.

Naukowcy odkryli, że jeśli odrzucą wiele parametrów modelu DL po zakończeniu całej procedury szkoleniowej, mogą zmniejszyć go do 10 procent jego pierwotnego rozmiaru i nadal osiągnąć ten sam wynik. Kilka firm technologicznych już kompresuje swoje modele AI, aby zaoszczędzić miejsce na urządzeniach takich jak laptopy i smartfony. Ta metoda nie tylko oszczędza pieniądze, ale także umożliwia działanie oprogramowania bez połączenia z Internetem i uzyskiwanie wyników w czasie rzeczywistym.

Zdarzały się również przypadki, gdy DL było możliwe na urządzeniach zasilanych bateriami słonecznymi lub ogniwami guzikowymi, dzięki małym sieciom neuronowym. Jednak ograniczeniem metody przycinania jest to, że model nadal musi zostać całkowicie wyszkolony, zanim będzie można go zmniejszyć. Przeprowadzono wstępne badania nad podzbiorami neuronów, które można trenować samodzielnie. Jednak ich dokładność nie jest taka sama jak w przypadku superwymiarowych sieci neuronowych.

Implikacje uczenia modeli AI

Szersze implikacje uczenia modeli sztucznej inteligencji mogą obejmować:

Wzmożone badania nad różnymi metodami uczenia sieci neuronowych; jednak postęp może zostać spowolniony przez brak funduszy.
Duże firmy technologiczne nadal finansują swoje laboratoria badawcze AI, co powoduje więcej konfliktów interesów.
Koszty rozwoju AI stwarzające warunki do powstawania monopoli, ograniczające zdolność nowych startupów AI do niezależnego konkurowania z firmami technologicznymi o ugruntowanej pozycji. Wyłaniający się scenariusz biznesowy może przewidywać, że garstka dużych firm technologicznych opracuje gigantyczne, zastrzeżone modele sztucznej inteligencji i wydzierżawi je mniejszym firmom zajmującym się sztuczną inteligencją jako usługę/narzędzie.
Instytucje badawcze, organizacje non-profit i uniwersytety są finansowane przez wielkie technologie w celu przeprowadzenia niektórych eksperymentów AI w ich imieniu. Tendencja ta może prowadzić do większego drenażu mózgów ze środowisk akademickich do korporacji.
Zwiększona presja na wielkie technologie, aby publikowały i regularnie aktualizowały swoje wytyczne dotyczące etyki AI, aby były odpowiedzialne za swoje projekty badawczo-rozwojowe.
Szkolenia modeli sztucznej inteligencji stają się coraz droższe, ponieważ coraz bardziej wymagana jest większa moc obliczeniowa, co prowadzi do większej emisji dwutlenku węgla.
Niektóre agencje rządowe próbują regulować dane wykorzystywane w szkoleniu tych gigantycznych modeli AI. Ponadto agencje ds. konkurencji mogą tworzyć przepisy, które wymuszają udostępnianie modeli AI o określonej wielkości mniejszym firmom krajowym w celu pobudzenia innowacji w MŚP.

Pytania do rozważenia

Jeśli pracujesz w sektorze sztucznej inteligencji, w jaki sposób Twoja organizacja opracowuje bardziej zrównoważone środowiskowo modele sztucznej inteligencji?
Jakie są potencjalne długoterminowe konsekwencje kosztownych modeli AI?

Dodaj do listy zakupów