Entrenamiento de modelos de inteligencia artificial busca desarrollo de inteligencia artificial de bajo costo

CREDITO DE IMAGEN:

iStock

Entrenamiento de modelos de IA: la búsqueda del desarrollo de IA de bajo costo

Los modelos de inteligencia artificial son notoriamente costosos de construir y entrenar, lo que los hace fuera del alcance de la mayoría de los investigadores y usuarios.

Escrito por:
Nombre del autor
Previsión Quantumrun
Marzo 21, 2023

El aprendizaje profundo (DL) ha demostrado ser una solución competente para varios desafíos en el desarrollo de inteligencia artificial (IA). Sin embargo, DL también se está volviendo más caro. Operar redes neuronales profundas requiere altos recursos de procesamiento, particularmente en el entrenamiento previo. Peor aún, este proceso de uso intensivo de energía significa que estos requisitos dan como resultado una gran huella de carbono, lo que daña las calificaciones ESG de la comercialización de la investigación de IA.

Contexto de modelos de IA de entrenamiento

El entrenamiento previo es ahora el enfoque más popular para construir redes neuronales a gran escala y ha demostrado un gran éxito en la visión por computadora (CV) y el procesamiento del lenguaje natural (NLP). Sin embargo, desarrollar modelos DL enormes se ha vuelto demasiado costoso. Por ejemplo, entrenar el Transformador preentrenado generativo 3 (GPT-3) de OpenAI, que tiene 175 12 millones de parámetros y necesita acceso a enormes clústeres de servidores con tarjetas gráficas de primer nivel, tuvo un costo estimado de USD $XNUMX millones. También se necesita un servidor potente y cientos de gigabytes de memoria de acceso aleatorio de video (VRAM) para ejecutar el modelo.

Si bien las principales empresas de tecnología podrían permitirse tales costos de capacitación, se vuelve prohibitivo para las empresas emergentes y las organizaciones de investigación más pequeñas. Tres factores impulsan este gasto.

1. Costos de computación extensos, que necesitarían varias semanas con miles de unidades de procesamiento gráfico (GPU).

2. Los modelos perfeccionados requieren un almacenamiento masivo, que suele ocupar cientos de gigabytes (GB). Además, se deben almacenar múltiples modelos para diferentes tareas.

3. El entrenamiento de modelos grandes requiere potencia computacional y hardware precisos; de lo contrario, los resultados podrían no ser los ideales.

Debido a los costos prohibitivos, la investigación de IA se ha comercializado cada vez más, y las grandes empresas tecnológicas lideran los estudios en el campo. Estas empresas también pueden beneficiarse al máximo de sus hallazgos. Mientras tanto, las instituciones de investigación y las organizaciones sin fines de lucro a menudo tienen que colaborar con estas empresas si quieren realizar su exploración en el campo.

Impacto disruptivo

Existe evidencia que sugiere que las redes neuronales se pueden "podar". Esto significa que dentro de las redes neuronales de gran tamaño, un grupo más pequeño puede lograr el mismo nivel de precisión que el modelo de IA original sin grandes impactos en su funcionalidad. Por ejemplo, en 2020, los investigadores de IA del Swarthmore College y el Laboratorio Nacional de Los Álamos demostraron que, aunque un modelo DL complejo puede aprender a predecir pasos futuros en el Juego de la vida del matemático John Conway, siempre hay una red neuronal más pequeña que se puede enseñar. para hacer lo mismo.

Los investigadores descubrieron que si descartan numerosos parámetros de un modelo DL después de haber completado todo el procedimiento de entrenamiento, pueden reducirlo al 10 por ciento de su tamaño original y aun así lograr el mismo resultado. Varias empresas de tecnología ya están comprimiendo sus modelos de IA para ahorrar espacio en dispositivos como computadoras portátiles y teléfonos inteligentes. Este método no solo ahorra dinero, sino que también permite que el software se ejecute sin conexión a Internet y obtenga resultados en tiempo real.

También hubo casos en los que DL fue posible en dispositivos alimentados por baterías solares o pilas de botón, gracias a pequeñas redes neuronales. Sin embargo, una limitación del método de poda es que el modelo todavía necesita estar completamente entrenado antes de que pueda reducirse. Hubo algunos estudios iniciales sobre subconjuntos neuronales que pueden entrenarse por sí mismos. Sin embargo, su precisión no es la misma que la de las redes neuronales de gran tamaño.

Implicaciones del entrenamiento de modelos de IA

Las implicaciones más amplias del entrenamiento de modelos de IA pueden incluir:

Mayor investigación en diferentes métodos de entrenamiento de redes neuronales; sin embargo, el progreso podría verse frenado por la falta de financiación.
Las grandes tecnológicas siguen financiando sus laboratorios de investigación de IA, lo que genera más conflictos de intereses.
Los costos del desarrollo de la IA crean las condiciones para que se formen monopolios, lo que limita la capacidad de las nuevas empresas de IA para competir de forma independiente con las empresas tecnológicas establecidas. Un escenario comercial emergente puede ver a un puñado de grandes empresas de tecnología desarrollando modelos de IA patentados gigantes y arrendándolos a empresas de IA más pequeñas como un servicio/utilidad.
Instituciones de investigación, organizaciones sin fines de lucro y universidades financiadas por grandes tecnologías para realizar algunos experimentos de IA en su nombre. Esta tendencia puede conducir a una mayor fuga de cerebros de la academia a las corporaciones.
Mayor presión para que las grandes tecnológicas publiquen y actualicen regularmente sus pautas de ética de IA para que sean responsables de sus proyectos de investigación y desarrollo.
Los modelos de IA de entrenamiento se vuelven más costosos a medida que se requiere cada vez más potencia informática, lo que genera más emisiones de carbono.
Algunas agencias gubernamentales intentan regular los datos utilizados en el entrenamiento de estos gigantescos modelos de IA. Además, las agencias de competencia pueden crear una legislación que obligue a que los modelos de IA de cierto tamaño sean accesibles para las empresas nacionales más pequeñas en un esfuerzo por estimular la innovación de las pymes.

Preguntas a considerar

Si trabaja en el sector de la IA, ¿cómo está desarrollando su organización modelos de IA más ambientalmente sostenibles?
¿Cuáles son las posibles consecuencias a largo plazo de los costosos modelos de IA?

Agregar a la lista