Vokenização: linguagem que a IA pode ver

CRÉDITO DE IMAGEM:
Crédito da imagem
iStock

Vokenização: linguagem que a IA pode ver

Vokenização: linguagem que a IA pode ver

Texto do subtítulo
Com as imagens sendo incorporadas ao treinamento de sistemas de inteligência artificial (IA), os robôs poderão em breve “ver” comandos.
    • Autor:
    • Nome do autor
      Previsão Quantumrun
    • 9 de maio de 2023

    O processamento de linguagem natural (NLP) permitiu que os sistemas de inteligência artificial (IA) aprendessem a fala humana ao compreender as palavras e combinar o contexto com o sentimento. A única desvantagem é que esses sistemas NLP são puramente baseados em texto. A vokenização está prestes a mudar tudo isso.

    contexto de vokenização

    Dois programas de aprendizado de máquina (ML) baseados em texto são frequentemente usados ​​para treinar a IA para processar e compreender a linguagem humana: o Generative Pre-trained Transformer 3 (GPT-3) da OpenAI e o BERT (Representações de Codificador Bidirecional de Transformadores) do Google. Na terminologia de IA, as palavras usadas no treinamento de PNL são chamadas de tokens. Pesquisadores da Universidade da Carolina do Norte (UNC) observaram que os programas de treinamento baseados em texto são limitados porque não podem "ver", o que significa que não podem capturar informações visuais e comunicação. 

    Por exemplo, se alguém perguntar ao GPT-3 qual é a cor da ovelha, o sistema geralmente responderá "preto", mesmo que seja claramente branco. Essa resposta ocorre porque o sistema baseado em texto irá associá-lo ao termo "ovelha negra" em vez de identificar a cor correta. Ao incorporar recursos visuais com tokens (voken), os sistemas de IA podem ter uma compreensão holística dos termos. A vokenização integra os vokens em sistemas de PNL auto-supervisionados, permitindo que eles desenvolvam "bom senso".

    A integração de modelos de linguagem e visão computacional não é um conceito novo e é um campo em rápida expansão na pesquisa de IA. A combinação desses dois tipos de IA potencializa seus pontos fortes individuais. Modelos de linguagem como o GPT-3 são treinados por meio de aprendizado não supervisionado, o que permite que eles sejam dimensionados facilmente. Em contraste, modelos de imagem como sistemas de reconhecimento de objetos podem aprender diretamente com a realidade e não dependem da abstração fornecida pelo texto. Por exemplo, modelos de imagem podem reconhecer que uma ovelha é branca olhando para uma foto.

    Impacto disruptivo

    O processo de vokenização é bastante simples. Vokens são criados atribuindo imagens correspondentes ou relevantes a tokens de idioma. Em seguida, algoritmos (vokenizer) são projetados para gerar vokens por meio de aprendizado não supervisionado (sem parâmetros/regras explícitas). A IA de senso comum treinada por meio da vokenização pode se comunicar e resolver problemas melhor porque eles têm uma compreensão mais profunda do contexto. Essa abordagem é única porque não apenas prevê tokens de linguagem, mas também prevê tokens de imagem, algo que os modelos BERT tradicionais não conseguem fazer.

    Por exemplo, os assistentes robóticos serão capazes de reconhecer imagens e navegar melhor pelos processos porque podem “ver” o que é exigido deles. Sistemas de inteligência artificial treinados para escrever conteúdo serão capazes de criar artigos que soem mais humanos, com ideias que fluem melhor, em vez de frases desconexas. Considerando o amplo alcance dos aplicativos de PNL, a vokenização pode levar a chatbots de melhor desempenho, assistentes virtuais, diagnósticos médicos online, tradutores digitais e muito mais.

    Além disso, a combinação de visão e aprendizado de linguagem está ganhando popularidade em aplicações de imagens médicas, especificamente para diagnóstico automatizado de imagens médicas. Por exemplo, alguns pesquisadores estão experimentando essa abordagem em imagens de radiografia acompanhadas de descrições de texto, onde a segmentação semântica pode ser demorada. A técnica de vokenização pode aprimorar essas representações e melhorar a geração de imagens médicas automatizadas, utilizando as informações do texto.

    Aplicações para vokenização

    Algumas aplicações para a vokenização podem incluir:

    • Chatbots intuitivos que podem processar capturas de tela, fotos e conteúdo do site. Os chatbots de suporte ao cliente, em particular, podem recomendar produtos e serviços com precisão.
    • Tradutores digitais que podem processar imagens e vídeos e fornecer uma tradução precisa que considera o contexto cultural e situacional.
    • Os scanners de bots de mídia social são capazes de conduzir uma análise de sentimento mais holística, mesclando imagens, legendas e comentários. Este aplicativo pode ser útil na moderação de conteúdo que requer a análise de imagens nocivas.
    • Aumentar as oportunidades de emprego para engenheiros de visão computacional e aprendizado de máquina PNL e cientistas de dados.
    • Startups que se baseiam nesses sistemas de IA para comercializá-los ou fornecer soluções personalizadas para empresas.

    Perguntas para comentar

    • De que outra forma você acha que a vokenização mudará a forma como interagimos com os robôs?
    • Como a vokenização pode mudar a forma como conduzimos negócios e interagimos com nossos gadgets (smartphones e aparelhos inteligentes)?

    Referências de insights

    Os seguintes links populares e institucionais foram referenciados para esta percepção: