Vokenización: lenguaje que la IA puede ver

CREDITO DE IMAGEN:
Crédito de la imagen
iStock

Vokenización: lenguaje que la IA puede ver

Vokenización: lenguaje que la IA puede ver

Subtítulo de texto
Ahora que las imágenes se incorporan al entrenamiento de los sistemas de inteligencia artificial (IA), los robots pronto podrían "ver" los comandos.
    • Escrito por:
    • Nombre del autor
      Previsión Quantumrun
    • 9 de mayo de 2023

    El procesamiento del lenguaje natural (NLP) ha permitido que los sistemas de inteligencia artificial (IA) aprendan el habla humana mediante la comprensión de palabras y la combinación del contexto con el sentimiento. El único inconveniente es que estos sistemas de PNL se basan únicamente en texto. Vokenization está a punto de cambiar todo eso.

    Contexto de vocanización

    A menudo se utilizan dos programas de aprendizaje automático (ML) basados ​​en texto para entrenar a la IA para que procese y comprenda el lenguaje humano: Generative Pre-trained Transformer 3 (GPT-3) de OpenAI y BERT (Representaciones de codificador bidireccional de Transformers) de Google. En la terminología de IA, las palabras utilizadas en el entrenamiento de PNL se denominan tokens. Investigadores de la Universidad de Carolina del Norte (UNC) observaron que los programas de capacitación basados ​​en texto son limitados porque no pueden "ver", lo que significa que no pueden capturar información y comunicación visual. 

    Por ejemplo, si alguien le pregunta a GPT-3 de qué color es la oveja, el sistema a menudo responderá "negro", incluso si es claramente blanco. Esta respuesta se debe a que el sistema basado en texto lo asociará con el término "oveja negra" en lugar de identificar el color correcto. Al incorporar imágenes con tokens (voken), los sistemas de IA pueden tener una comprensión holística de los términos. Vokenization integra vokens en sistemas NLP autosupervisados, lo que les permite desarrollar "sentido común".

    La integración de modelos de lenguaje y visión por computadora no es un concepto nuevo, y es un campo en rápida expansión en la investigación de IA. La combinación de estos dos tipos de IA aprovecha sus fortalezas individuales. Los modelos de lenguaje como GPT-3 se entrenan a través del aprendizaje no supervisado, lo que les permite escalar fácilmente. Por el contrario, los modelos de imágenes, como los sistemas de reconocimiento de objetos, pueden aprender directamente de la realidad y no dependen de la abstracción proporcionada por el texto. Por ejemplo, los modelos de imagen pueden reconocer que una oveja es blanca al mirar una imagen.

    Impacto disruptivo

    El proceso de vocanización es bastante sencillo. Los vokens se crean asignando imágenes correspondientes o relevantes a tokens de idioma. Luego, los algoritmos (vokenizer) están diseñados para generar vokens a través del aprendizaje no supervisado (sin parámetros/reglas explícitos). La IA de sentido común entrenada a través de la vocalización puede comunicarse y resolver problemas mejor porque tiene una comprensión más profunda del contexto. Este enfoque es único porque no solo predice tokens de idioma, sino que también predice tokens de imágenes, algo que los modelos BERT tradicionales no pueden hacer.

    Por ejemplo, los asistentes robóticos podrán reconocer imágenes y navegar mejor por los procesos porque pueden “ver” lo que se requiere de ellos. Los sistemas de inteligencia artificial entrenados para escribir contenido podrán elaborar artículos que suenen más humanos, con ideas que fluyan mejor, en lugar de oraciones inconexas. Teniendo en cuenta el amplio alcance de las aplicaciones de NLP, la vocanización puede conducir a chatbots, asistentes virtuales, diagnósticos médicos en línea, traductores digitales y más de mejor rendimiento.

    Además, la combinación de visión y aprendizaje de idiomas está ganando popularidad en las aplicaciones de imágenes médicas, específicamente para el diagnóstico automatizado de imágenes médicas. Por ejemplo, algunos investigadores están experimentando con este enfoque en imágenes de radiografías con descripciones de texto que las acompañan, donde la segmentación semántica puede llevar mucho tiempo. La técnica de vocalización podría mejorar estas representaciones y mejorar las imágenes médicas automatizadas utilizando la información del texto.

    Solicitudes de vocanización

    Algunas aplicaciones para la vocanización pueden incluir:

    • Chatbots intuitivos que pueden procesar capturas de pantalla, imágenes y contenido del sitio web. Los chatbots de atención al cliente, en particular, pueden recomendar productos y servicios con precisión.
    • Traductores digitales que pueden procesar imágenes y videos y proporcionar una traducción precisa que considere el contexto cultural y situacional.
    • Los escáneres de bots de redes sociales pueden realizar un análisis de sentimiento más holístico mediante la combinación de imágenes, subtítulos y comentarios. Esta aplicación puede ser útil en la moderación de contenidos que requieran el análisis de imágenes dañinas.
    • Aumentar las oportunidades de empleo para los ingenieros y científicos de datos de visión por computadora y aprendizaje automático de NLP.
    • Startups que se basan en estos sistemas de IA para comercializarlos o proporcionar soluciones personalizadas para las empresas.

    Preguntas para comentar

    • ¿De qué otra forma crees que la vokenización cambiará la forma en que interactuamos con los robots?
    • ¿Cómo puede la vocanización cambiar la forma en que hacemos negocios e interactuamos con nuestros dispositivos (teléfonos inteligentes y electrodomésticos inteligentes)?

    Referencias de información

    Se hizo referencia a los siguientes enlaces populares e institucionales para esta perspectiva: