Навчання моделям штучного інтелекту пошуку недорогих розробок штучного інтелекту

КРЕДИТ ЗОБРАЖЕННЯ:

iStock

Навчання моделей ШІ: пошук недорогих розробок ШІ

Моделі штучного інтелекту, як відомо, дорогі у створенні та навчанні, що робить їх недоступними для більшості дослідників і користувачів.

Автор:
ім'я автора
Quantumrun Foresight
Березня 21, 2023

Глибоке навчання (DL) виявилося ефективним рішенням кількох проблем у розробці штучного інтелекту (AI). Однак DL також стає дорожчим. Робота з глибокими нейронними мережами вимагає великих ресурсів обробки, особливо під час попереднього навчання. Гірше того, цей енергоємний процес означає, що ці вимоги призводять до великих вуглецевих слідів, що погіршує рейтинг ESG комерціалізації досліджень ШІ.

Контекст моделей AI для навчання

Попереднє навчання зараз є найпопулярнішим підходом до побудови великомасштабних нейронних мереж, і воно показало великий успіх у комп’ютерному зорі (CV) і обробці природної мови (NLP). Однак розробка величезних моделей DL стала занадто дорогою. Наприклад, навчання Generative Pre-trained Transformer 3 (GPT-3) OpenAI, який має 175 мільярдів параметрів і потребує доступу до величезних серверних кластерів із першокласними графічними картами, коштувало 12 мільйонів доларів США. Потужний сервер і сотні гігабайт оперативної відеопам'яті (VRAM) також необхідні для запуску моделі.

Хоча великі технологічні компанії можуть дозволити собі такі витрати на навчання, це стає непомірно для менших стартапів і дослідницьких організацій. Три фактори зумовлюють ці витрати.

1. Великі витрати на обчислення, які займуть кілька тижнів з тисячами графічних процесорів (GPU).

2. Тонко налаштовані моделі вимагають великої пам’яті, яка зазвичай займає сотні гігабайт (ГБ). Крім того, потрібно зберігати кілька моделей для різних завдань.

3. Навчання великих моделей вимагає точної обчислювальної потужності та апаратного забезпечення; інакше результати можуть бути не ідеальними.

Через непомірні витрати дослідження штучного інтелекту все більше комерціалізуються, при цьому великі технологічні компанії лідирують у дослідженнях у цій галузі. Ці фірми також можуть отримати найбільшу користь від своїх висновків. Тим часом дослідницьким установам і некомерційним організаціям часто доводиться співпрацювати з цими підприємствами, якщо вони хочуть проводити дослідження в цій галузі.

Руйнівний вплив

Є докази того, що нейронні мережі можна «обрізати». Це означає, що в межах великих нейронних мереж менша група може досягти того ж рівня точності, що й оригінальна модель штучного інтелекту, без серйозного впливу на її функціональність. Наприклад, у 2020 році дослідники штучного інтелекту з Коледжу Суортмора та Національної лабораторії Лос-Аламоса продемонстрували, що хоча складна модель DL може навчитися передбачати майбутні кроки в «Грі життя» математика Джона Конвея, завжди існує менша нейронна мережа, яку можна навчити робити те саме.

Дослідники виявили, що якщо вони відкидають численні параметри DL-моделі після того, як вона завершить повну процедуру навчання, вони можуть зменшити її до 10 відсотків від початкового розміру та все одно досягти того самого результату. Кілька технологічних компаній уже стискають свої моделі ШІ, щоб заощадити місце на таких пристроях, як ноутбуки та смартфони. Цей метод не тільки економить гроші, але й дозволяє програмному забезпеченню працювати без підключення до Інтернету та отримувати результати в реальному часі.

Були також випадки, коли DL була можлива на пристроях, що живляться від сонячних батарей або кнопкових елементів, завдяки невеликим нейронним мережам. Однак обмеженням методу обрізання є те, що модель усе ще потребує повного навчання, перш ніж її можна буде зменшити. Були деякі початкові дослідження нейронних підмножин, які можна навчити самостійно. Однак їхня точність не така ж, як у великих нейронних мереж.

Наслідки навчання моделей ШІ

Більш широкі наслідки навчання моделей ШІ можуть включати:

Розширення досліджень різних методів навчання нейронних мереж; однак прогрес може сповільнитися через брак фінансування.
Великі технологічні компанії продовжують фінансувати свої дослідницькі лабораторії ШІ, що призводить до збільшення конфлікту інтересів.
Витрати на розробку штучного інтелекту створюють умови для формування монополій, обмежуючи здатність нових стартапів штучного інтелекту конкурувати незалежно з відомими технологічними компаніями. За новим бізнес-сценарієм кілька великих технологічних компаній розроблятимуть гігантські власні моделі штучного інтелекту та здають їх в оренду меншим компаніям штучного інтелекту як послугу/утиліту.
Дослідницькі установи, некомерційні організації та університети фінансуються великими технологіями для проведення деяких експериментів ШІ від їх імені. Ця тенденція може призвести до ще більшого відтоку мізків із наукових кіл до корпорацій.
Посилення тиску на великі технологічні компанії, щоб вони публікували та регулярно оновлювали свої правила етики штучного інтелекту, щоб зробити їх відповідальними за свої проекти досліджень і розробок.
Навчання моделей штучного інтелекту стає дорожчим, оскільки зростає потреба в вищій обчислювальній потужності, що призводить до збільшення викидів вуглецю.
Деякі урядові установи намагаються регулювати дані, які використовуються для навчання цих гігантських моделей ШІ. Крім того, органи з питань конкуренції можуть створювати законодавство, яке змушує моделі штучного інтелекту певного розміру бути доступними для невеликих вітчизняних фірм, намагаючись стимулювати інновації МСП.

Питання для розгляду

Якщо ви працюєте в секторі ШІ, як ваша організація розробляє більш екологічно стійкі моделі ШІ?
Які потенційні довгострокові наслідки дорогих моделей ШІ?

Додати до списку