Обучение моделей ИИ: поиск недорогой разработки ИИ

ИЗОБРАЖЕНИЕ КРЕДИТ:
Кредит изображения
Istock

Обучение моделей ИИ: поиск недорогой разработки ИИ

Обучение моделей ИИ: поиск недорогой разработки ИИ

Текст подзаголовка
Модели искусственного интеллекта, как известно, дорого строить и обучать, что делает их недоступными для большинства исследователей и пользователей.
    • Автор:
    • Имя автора
      Квантумран Форсайт
    • 21 марта 2023

    Глубокое обучение (ГО) оказалось компетентным решением ряда проблем в разработке искусственного интеллекта (ИИ). Однако DL также становится дороже. Работа глубоких нейронных сетей требует высоких вычислительных ресурсов, особенно при предварительном обучении. Хуже того, этот энергоемкий процесс означает, что эти требования приводят к большим выбросам углекислого газа, что наносит ущерб рейтингам ESG коммерциализации исследований ИИ.

    Контекст обучения моделей ИИ

    Предварительное обучение в настоящее время является наиболее популярным подходом к построению крупномасштабных нейронных сетей, и он показал большой успех в компьютерном зрении (CV) и обработке естественного языка (NLP). Однако разработка огромных моделей DL стала слишком дорогостоящей. Например, обучение генеративного предварительно обученного трансформатора 3 (GPT-3) компании OpenAI, который имеет 175 миллиардов параметров и требует доступа к огромным кластерам серверов с первоклассными видеокартами, оценивается в 12 миллионов долларов США. Для запуска модели также необходим мощный сервер и сотни гигабайт оперативной памяти видео (VRAM).

    Хотя крупные технологические компании могут позволить себе такие расходы на обучение, они становятся непомерно высокими для небольших стартапов и исследовательских организаций. Эти расходы обусловлены тремя факторами. 

    1. Большие вычислительные затраты, на которые потребуется несколько недель при использовании тысяч графических процессоров (GPU).

    2. Модели с точной настройкой требуют большого объема хранилища, обычно занимающего сотни гигабайт (ГБ). Кроме того, необходимо хранить несколько моделей для разных задач.

    3. Обучение больших моделей требует точных вычислительных мощностей и аппаратного обеспечения; в противном случае результаты могут быть не идеальными.

    Из-за непомерно высоких затрат исследования в области ИИ становятся все более коммерциализированными, при этом крупные технологические компании возглавляют исследования в этой области. Эти фирмы также могут извлечь максимальную выгоду из своих выводов. Между тем, исследовательским учреждениям и некоммерческим организациям часто приходится сотрудничать с этими предприятиями, если они хотят провести исследования в полевых условиях. 

    Разрушительное воздействие

    Есть данные, свидетельствующие о том, что нейронные сети можно «обрезать». Это означает, что в сверхразмерных нейронных сетях меньшая группа может достичь того же уровня точности, что и исходная модель ИИ, без серьезного влияния на ее функциональность. Например, в 2020 году исследователи искусственного интеллекта из Суортмор-колледжа и Национальной лаборатории Лос-Аламоса продемонстрировали, что, хотя сложная модель DL может научиться предсказывать будущие шаги в «Игре жизни» математика Джона Конвея, всегда существует меньшая нейронная сеть, которую можно обучить. сделать то же самое.

    Исследователи обнаружили, что если отбросить многочисленные параметры модели DL после завершения всей процедуры обучения, они могут уменьшить ее до 10 процентов от исходного размера и при этом достичь того же результата. Несколько технологических компаний уже сжимают свои модели искусственного интеллекта, чтобы сэкономить место на таких устройствах, как ноутбуки и смартфоны. Этот метод не только экономит деньги, но и позволяет программному обеспечению работать без подключения к Интернету и получать результаты в режиме реального времени. 

    Были также случаи, когда DL было возможно на устройствах, питающихся от солнечных батарей или кнопочных элементов, благодаря небольшим нейронным сетям. Однако ограничением метода сокращения является то, что модель все равно необходимо полностью обучить, прежде чем ее можно будет сократить. Было проведено несколько первоначальных исследований нейронных подмножеств, которые можно обучать самостоятельно. Однако их точность не такая же, как у сверхразмерных нейронных сетей.

    Последствия обучения моделей ИИ

    Более широкие последствия обучения моделей ИИ могут включать: 

    • Увеличение количества исследований различных методов обучения нейронных сетей; однако прогресс может замедлиться из-за отсутствия финансирования.
    • Крупные технологические компании продолжают финансировать свои исследовательские лаборатории в области искусственного интеллекта, что приводит к увеличению конфликтов интересов.
    • Затраты на разработку ИИ создают условия для формирования монополий, ограничивая способность новых стартапов в области ИИ самостоятельно конкурировать с авторитетными технологическими фирмами. Развивающийся бизнес-сценарий может привести к тому, что несколько крупных технологических компаний разработают гигантские запатентованные модели ИИ и сдадут их в аренду более мелким фирмам, занимающимся ИИ, в качестве услуги/утилиты.
    • Исследовательские институты, некоммерческие организации и университеты финансируются крупными технологическими компаниями для проведения от их имени экспериментов с искусственным интеллектом. Эта тенденция может привести к усилению утечки мозгов из академических кругов в корпорации.
    • Повышенное давление на крупные технологические компании с требованием публиковать и регулярно обновлять свои руководящие принципы по этике ИИ, чтобы заставить их нести ответственность за свои проекты исследований и разработок.
    • Обучение моделей искусственного интеллекта становится все дороже, поскольку требуется все больше вычислительной мощности, что приводит к увеличению выбросов углекислого газа.
    • Некоторые правительственные учреждения пытаются регулировать данные, используемые при обучении этих гигантских моделей ИИ. Кроме того, антимонопольные органы могут принять законодательство, которое обязывает модели искусственного интеллекта определенного размера быть доступными для более мелких отечественных фирм в попытке стимулировать инновации МСП.

    Вопросы для рассмотрения

    • Если вы работаете в секторе ИИ, как ваша организация разрабатывает более экологически устойчивые модели ИИ?
    • Каковы потенциальные долгосрочные последствия дорогих моделей ИИ?

    Ссылки на статистику

    Для этого понимания использовались следующие популярные и институциональные ссылки: