训练人工智能模型搜索低成本人工智能开发|量子运行

图片来源：

iStock

训练 AI 模型：寻找低成本的 AI 开发

众所周知，人工智能模型的构建和训练成本非常高昂，这让大多数研究人员和用户望尘莫及。

作者：
作者姓名
量子运行远见
2023 年 3 月 21 日

深度学习 (DL) 已被证明是应对人工智能 (AI) 开发中若干挑战的有效解决方案。然而，DL 也变得越来越昂贵。操作深度神经网络需要大量处理资源，特别是在预训练中。更糟糕的是，这种能源密集型过程意味着这些要求会产生大量碳足迹，损害人工智能研究商业化的 ESG 评级。

训练 AI 模型上下文

预训练是目前构建大规模神经网络最流行的方法，并且在计算机视觉（CV）和自然语言处理（NLP）领域取得了巨大成功。然而，开发巨大的深度学习模型成本太高。例如，训练 OpenAI 的生成式预训练 Transformer 3 (GPT-3) 拥有 175 亿个参数，需要访问配备顶级显卡的庞大服务器集群，估计成本为 12 万美元。运行该模型还需要强大的服务器和数百 GB 的视频随机存取存储器 (VRAM)。

虽然大型科技公司可能有能力承担此类培训费用，但对于小型初创公司和研究组织来说，这却变得令人望而却步。三个因素推动了这一支出。

1. 巨大的计算成本，需要数周时间使用数千个图形处理单元 (GPU)。

2. 微调模型需要大量存储，通常占用数百GB。此外，需要存储不同任务的多个模型。

3. 训练大型模型需要精确的计算能力和硬件；否则，结果可能不理想。

由于成本高昂，人工智能研究变得越来越商业化，其中大型科技公司在该领域的研究中处于领先地位。这些公司也将从他们的研究结果中获得最大收益。与此同时，研究机构和非营利组织如果想在该领域进行探索，通常必须与这些企业合作。

破坏性影响

有证据表明神经网络可以被“修剪”。这意味着在超大的神经网络中，较小的群体可以达到与原始人工智能模型相同的精度水平，而不会对其功能产生重大影响。例如，2020 年，斯沃斯莫尔学院和洛斯阿拉莫斯国家实验室的人工智能研究人员表明，尽管复杂的深度学习模型可以学习预测数学家约翰·康威的《生命游戏》中的未来步骤，但总有一个更小的神经网络可以学习做同样的事情。

研究人员发现，如果在完成整个训练过程后丢弃 DL 模型的大量参数，他们可以将其缩小到原始大小的 10%，但仍能获得相同的结果。几家科技公司已经在压缩他们的人工智能模型，以节省笔记本电脑和智能手机等设备的空间。这种方法不仅省钱，而且可以让软件在没有互联网连接的情况下运行并实时获得结果。

在某些情况下，借助小型神经网络，深度学习也可以在太阳能电池或纽扣电池供电的设备上实现。然而，剪枝方法的一个局限性是模型仍然需要完全训练才能减少。有一些关于可以自行训练的神经子集的初步研究。然而，它们的准确性与超大型神经网络不同。

训练人工智能模型的意义

训练人工智能模型的更广泛影响可能包括：

增加对训练神经网络的不同方法的研究；然而，进展可能会因缺乏资金而放缓。
大型科技公司继续为其人工智能研究实验室提供资金，导致更多的利益冲突。
人工智能开发的成本为垄断的形成创造了条件，限制了新的人工智能初创企业与成熟科技公司独立竞争的能力。在新兴的业务场景中，少数大型科技公司可能会开发巨大的专有人工智能模型，并将其作为服务/实用程序出租给较小的人工智能公司。
研究机构、非营利组织和大学得到大型科技公司的资助，代表他们进行一些人工智能实验。这种趋势可能导致更多人才从学术界流向企业。
大型科技公司发布并定期更新其人工智能道德准则的压力越来越大，以使他们对自己的研发项目负责。
随着对更高计算能力的需求不断增加，训练人工智能模型变得更加昂贵，从而导致更多的碳排放。
一些政府机构试图规范这些巨型人工智能模型训练中使用的数据。此外，竞争机构可能会制定立法，迫使国内规模较小的企业能够使用一定规模的人工智能模型，以刺激中小企业创新。