Les modèles d'IA de formation recherchent le développement d'IA à faible coût

CRÉDIT D'IMAGE:

iStock

Modèles d'IA de formation : la recherche d'un développement d'IA à faible coût

Les modèles d'intelligence artificielle sont notoirement coûteux à construire et à former, ce qui les rend hors de portée de la plupart des chercheurs et des utilisateurs.

Auteur :
Nom de l'auteur
Prévision quantique
21 mars 2023

L'apprentissage en profondeur (DL) s'est avéré être une solution compétente à plusieurs défis du développement de l'intelligence artificielle (IA). Cependant, DL devient également plus cher. L'exploitation des réseaux de neurones profonds nécessite des ressources de traitement importantes, notamment en pré-formation. Pire encore, ce processus énergivore signifie que ces exigences entraînent une empreinte carbone importante, ce qui nuit aux notes ESG de la commercialisation de la recherche sur l'IA.

Contexte des modèles d'IA d'entraînement

La pré-formation est désormais l'approche la plus populaire pour construire des réseaux de neurones à grande échelle, et elle a montré un grand succès dans la vision par ordinateur (CV) et le traitement du langage naturel (NLP). Cependant, développer d'énormes modèles DL est devenu trop coûteux. Par exemple, la formation du Generative Pre-trained Transformer 3 (GPT-3) d'OpenAI, qui compte 175 milliards de paramètres et nécessite l'accès à d'énormes grappes de serveurs avec des cartes graphiques de premier ordre, a coûté environ 12 millions de dollars. Un serveur puissant et des centaines de gigaoctets de mémoire vidéo à accès aléatoire (VRAM) sont également nécessaires pour exécuter le modèle.

Alors que les grandes entreprises technologiques pourraient être en mesure de se permettre de tels coûts de formation, cela devient prohibitif pour les petites startups et les organismes de recherche. Trois facteurs expliquent cette dépense.

1. Des coûts de calcul importants, qui nécessiteraient plusieurs semaines avec des milliers d'unités de traitement graphique (GPU).

2. Les modèles optimisés nécessitent un stockage massif, occupant généralement des centaines de gigaoctets (Go). De plus, plusieurs modèles pour différentes tâches doivent être stockés.

3. La formation de grands modèles nécessite une puissance de calcul et un matériel précis ; sinon, les résultats pourraient ne pas être idéaux.

En raison de coûts prohibitifs, la recherche sur l'IA est devenue de plus en plus commercialisée, les entreprises Big Tech menant les études dans le domaine. Ces entreprises ont également tout à gagner de leurs conclusions. Pendant ce temps, les institutions de recherche et les organisations à but non lucratif doivent souvent collaborer avec ces entreprises si elles souhaitent mener leur exploration sur le terrain.

Impact perturbateur

Il existe des preuves qui suggèrent que les réseaux de neurones peuvent être "élagués". Cela signifie qu'au sein de réseaux de neurones surdimensionnés, un groupe plus petit peut atteindre le même niveau de précision que le modèle d'IA d'origine sans impact important sur sa fonctionnalité. Par exemple, en 2020, des chercheurs en IA du Swarthmore College et du Los Alamos National Laboratory ont illustré que même si un modèle DL complexe peut apprendre à prédire les étapes futures du jeu de la vie du mathématicien John Conway, il existe toujours un réseau de neurones plus petit qui peut être enseigné. faire la même chose.

Les chercheurs ont découvert que s'ils éliminent de nombreux paramètres d'un modèle DL après qu'il a terminé toute la procédure de formation, ils peuvent le réduire à 10 % de sa taille d'origine et obtenir toujours le même résultat. Plusieurs entreprises technologiques compressent déjà leurs modèles d'IA pour économiser de l'espace sur des appareils comme les ordinateurs portables et les smartphones. Cette méthode permet non seulement d'économiser de l'argent, mais permet également au logiciel de fonctionner sans connexion Internet et d'obtenir des résultats en temps réel.

Il y avait aussi des cas où DL était possible sur des appareils alimentés par des piles solaires ou des piles bouton, grâce à de petits réseaux de neurones. Cependant, une limitation de la méthode d'élagage est que le modèle doit encore être complètement entraîné avant de pouvoir être réduit. Il y a eu quelques études initiales sur les sous-ensembles de neurones qui peuvent être entraînés par eux-mêmes. Cependant, leur précision n'est pas la même que celle des réseaux de neurones surdimensionnés.

Implications des modèles d'IA de formation

Les implications plus larges des modèles d'IA de formation peuvent inclure :

Recherche accrue dans différentes méthodes de formation de réseaux de neurones ; cependant, les progrès pourraient être ralentis par le manque de financement.
Les grandes technologies continuent de financer leurs laboratoires de recherche sur l'IA, ce qui entraîne davantage de conflits d'intérêts.
Les coûts de développement de l'IA créent les conditions de la formation de monopoles, limitant la capacité des nouvelles startups de l'IA à concurrencer de manière indépendante les entreprises technologiques établies. Un scénario commercial émergent pourrait voir une poignée de grandes entreprises technologiques développer des modèles d'IA propriétaires géants et les louer à de plus petites entreprises d'IA en tant que service/utilitaire.
Les institutions de recherche, les organisations à but non lucratif et les universités sont financées par les grandes technologies pour mener des expériences d'IA en leur nom. Cette tendance peut conduire à une plus grande fuite des cerveaux des universités vers les entreprises.
Une pression accrue pour que les grandes technologies publient et mettent régulièrement à jour leurs directives éthiques en matière d'IA afin de les rendre responsables de leurs projets de recherche et développement.
La formation de modèles d'IA devient de plus en plus coûteuse car une puissance de calcul plus élevée est de plus en plus requise, ce qui entraîne davantage d'émissions de carbone.
Certaines agences gouvernementales tentent de réglementer les données utilisées dans la formation de ces modèles d'IA géants. De plus, les organismes de la concurrence peuvent créer une législation qui oblige les modèles d'IA d'une certaine taille à être rendus accessibles aux petites entreprises nationales dans le but de stimuler l'innovation des PME.

Questions à considérer

Si vous travaillez dans le secteur de l'IA, comment votre organisation développe-t-elle des modèles d'IA plus durables sur le plan environnemental ?
Quelles sont les conséquences potentielles à long terme des modèles d'IA coûteux ?

Ajouter à la liste