Vokenización linguaxe ai pode ver

CRÉDITO DA IMAXE:

iStock

Vokenización: linguaxe que a IA pode ver

Con imaxes que agora se incorporan ao adestramento de sistemas de intelixencia artificial (IA), os robots pronto poderán "ver" comandos.

autor:
nome do autor
Previsión de Quantumrun
Pode 9, 2023

O procesamento da linguaxe natural (PNL) permitiu que os sistemas de intelixencia artificial (IA) aprendan a fala humana entendendo palabras e relacionando o contexto co sentimento. O único inconveniente é que estes sistemas de PNL están baseados puramente en texto. A vokenización está a piques de cambiar todo iso.

Contexto de vokenización

Adoitan usarse dous programas de aprendizaxe automática (ML) baseados en texto para adestrar a IA para procesar e comprender a linguaxe humana: Generative Pre-Trained Transformer 3 (GPT-3) de OpenAI e BERT (Bidirectional Encoder Representations from Transformers) de Google. Na terminoloxía da IA, as palabras usadas no adestramento de PNL chámanse tokens. Investigadores da Universidade de Carolina do Norte (UNC) observaron que os programas de adestramento baseados en texto son limitados porque non poden "ver", é dicir, non poden capturar información visual e comunicación.

Por exemplo, se alguén pregunta a GPT-3 cal é a cor da ovella, o sistema responderá a miúdo "negro" aínda que sexa claramente branco. Esta resposta débese a que o sistema baseado en texto asociarao co termo "ovella negra" en lugar de identificar a cor correcta. Ao incorporar elementos visuais con tokens (voken), os sistemas de IA poden ter unha comprensión holística dos termos. A vokenización integra os vokens en sistemas de PNL autosupervisados, o que lles permite desenvolver o "sentido común".

Integrar modelos lingüísticos e visión por ordenador non é un concepto novo, e é un campo en rápida expansión na investigación da IA. A combinación destes dous tipos de IA aproveita as súas fortalezas individuais. Os modelos de idiomas como GPT-3 adestran a través da aprendizaxe sen supervisión, o que lles permite escalar facilmente. Pola contra, os modelos de imaxes como os sistemas de recoñecemento de obxectos poden aprender directamente da realidade e non dependen da abstracción proporcionada polo texto. Por exemplo, os modelos de imaxe poden recoñecer que unha ovella é branca mirando unha imaxe.

Impacto perturbador

O proceso de vokenización é bastante sinxelo. Os vokens créanse asignando imaxes correspondentes ou relevantes aos tokens de idioma. Despois, os algoritmos (vokenizer) están deseñados para xerar vokens mediante unha aprendizaxe non supervisada (sen parámetros/regras explícitos). A IA de sentido común adestrada a través da vokenización pode comunicarse e resolver mellor os problemas porque teñen unha comprensión máis profunda do contexto. Este enfoque é único porque non só predice as fichas de linguaxe senón que tamén prevé as fichas de imaxe, algo que os modelos BERT tradicionais non poden facer.

Por exemplo, os asistentes robóticos poderán recoñecer imaxes e navegar mellor polos procesos porque poden "ver" o que se lles esixe. Os sistemas de intelixencia artificial adestrados para escribir contidos poderán elaborar artigos que soen máis humanos, con ideas que flúen mellor, en lugar de frases inconexas. Tendo en conta o amplo alcance das aplicacións de PNL, a vokenización pode levar a chatbots, asistentes virtuais, diagnósticos médicos en liña, tradutores dixitais e moito máis.

Ademais, a combinación de visión e aprendizaxe de idiomas está gañando popularidade nas aplicacións de imaxe médica, especialmente para o diagnóstico automatizado de imaxes médicas. Por exemplo, algúns investigadores están experimentando con este enfoque en imaxes de radiografía con descricións de texto acompañadas, onde a segmentación semántica pode levar moito tempo. A técnica de vokenización podería mellorar estas representacións e mellorar a imaxe médica automatizada mediante a utilización da información do texto.

Solicitudes de vokenización

Algunhas aplicacións de vokenización poden incluír:

Chatbots intuitivos que poden procesar capturas de pantalla, imaxes e contido do sitio web. Os chatbots de atención ao cliente, en particular, poden recomendar produtos e servizos con precisión.
Tradutores dixitais que poden procesar imaxes e vídeos e proporcionar unha tradución precisa que teña en conta o contexto cultural e situacional.
Os escáneres de bot de redes sociais poden realizar unha análise de sentimentos máis holística combinando imaxes, subtítulos e comentarios. Esta aplicación pode ser útil na moderación de contido que require a análise de imaxes daniñas.
Aumento das oportunidades de emprego para enxeñeiros de visión artificial e PNL e científicos de datos.
As startups que se basean nestes sistemas de IA para comercializalos ou proporcionar solucións personalizadas para as empresas.

Preguntas para comentar

De que outra maneira pensas que a vokenización cambiará a forma en que interactuamos cos robots?
Como pode a vokenización cambiar a nosa forma de facer negocios e interactuar cos nosos gadgets (teléfonos intelixentes e aparellos intelixentes)?

Engadir á lista