Vokenizzazione: lingua che l'intelligenza artificiale può vedere

CREDITO IMMAGINE:
Immagine di credito
iStock

Vokenizzazione: lingua che l'intelligenza artificiale può vedere

Vokenizzazione: lingua che l'intelligenza artificiale può vedere

Testo del sottotitolo
Con le immagini ora incorporate nell'addestramento dei sistemi di intelligenza artificiale (AI), i robot potrebbero presto essere in grado di "vedere" i comandi.
    • Autore:
    • Nome dell'autore
      Preveggenza quantistica
    • 9 Maggio 2023

    L'elaborazione del linguaggio naturale (NLP) ha consentito ai sistemi di intelligenza artificiale (AI) di apprendere il linguaggio umano comprendendo le parole e abbinando il contesto al sentimento. L'unico aspetto negativo è che questi sistemi di PNL sono puramente testuali. La Vokenizzazione sta per cambiare tutto questo.

    Contesto di Vokenizzazione

    Due programmi di machine learning (ML) basati su testo vengono spesso utilizzati per addestrare l'intelligenza artificiale a elaborare e comprendere il linguaggio umano: Generative Pre-trained Transformer 3 (GPT-3) di OpenAI e BERT (Bidirectional Encoder Representations from Transformers) di Google. Nella terminologia AI, le parole usate nella formazione PNL sono chiamate token. I ricercatori dell'Università della Carolina del Nord (UNC) hanno osservato che i programmi di formazione basati sul testo sono limitati perché non possono "vedere", nel senso che non possono catturare informazioni e comunicazioni visive. 

    Ad esempio, se qualcuno chiede a GPT-3 qual è il colore della pecora, il sistema spesso risponderà "nero" anche se è chiaramente bianco. Questa risposta è dovuta al fatto che il sistema basato su testo lo assocerà al termine "pecora nera" invece di identificare il colore corretto. Incorporando elementi visivi con token (voken), i sistemi di intelligenza artificiale possono avere una comprensione olistica dei termini. Vokenization integra i voken nei sistemi di PNL auto-supervisionati, consentendo loro di sviluppare il "buon senso".

    L'integrazione di modelli linguistici e visione artificiale non è un concetto nuovo ed è un campo in rapida espansione nella ricerca sull'IA. La combinazione di questi due tipi di IA sfrutta i loro punti di forza individuali. I modelli linguistici come GPT-3 vengono addestrati attraverso l'apprendimento senza supervisione, che consente loro di scalare facilmente. Al contrario, i modelli di immagini come i sistemi di riconoscimento degli oggetti possono imparare direttamente dalla realtà e non fare affidamento sull'astrazione fornita dal testo. Ad esempio, i modelli di immagini possono riconoscere che una pecora è bianca guardando un'immagine.

    Impatto dirompente

    Il processo di vocalizzazione è piuttosto semplice. I Voken vengono creati assegnando immagini corrispondenti o pertinenti ai token della lingua. Quindi, gli algoritmi (vokenizer) sono progettati per generare voken attraverso l'apprendimento senza supervisione (senza parametri/regole esplicite). L'intelligenza artificiale di buon senso addestrata attraverso la vocalizzazione può comunicare e risolvere meglio i problemi perché ha una comprensione più approfondita del contesto. Questo approccio è unico perché non solo prevede i token linguistici, ma prevede anche i token immagine, cosa che i modelli BERT tradizionali non sono in grado di fare.

    Ad esempio, gli assistenti robotici saranno in grado di riconoscere le immagini e navigare meglio nei processi perché possono "vedere" ciò che viene loro richiesto. I sistemi di intelligenza artificiale addestrati a scrivere contenuti saranno in grado di creare articoli che suonino più umani, con idee che scorrono meglio, invece di frasi sconnesse. Considerando l'ampia portata delle applicazioni NLP, la vocalizzazione può portare a chatbot, assistenti virtuali, diagnosi mediche online, traduttori digitali e altro ancora con prestazioni migliori.

    Inoltre, la combinazione di visione e apprendimento del linguaggio sta guadagnando popolarità nelle applicazioni di imaging medico, in particolare per la diagnosi automatizzata di immagini mediche. Ad esempio, alcuni ricercatori stanno sperimentando questo approccio su immagini radiografiche con descrizioni testuali di accompagnamento, dove la segmentazione semantica può richiedere molto tempo. La tecnica di vocalizzazione potrebbe migliorare queste rappresentazioni e migliorare l'imaging medico automatizzato utilizzando le informazioni di testo.

    Applicazioni per la vocalizzazione

    Alcune applicazioni per la vocalizzazione possono includere:

    • Chatbot intuitivi in ​​grado di elaborare schermate, immagini e contenuti di siti web. I chatbot dell'assistenza clienti, in particolare, possono essere in grado di consigliare accuratamente prodotti e servizi.
    • Traduttori digitali in grado di elaborare immagini e video e fornire una traduzione accurata che tenga conto del contesto culturale e situazionale.
    • Gli scanner dei bot dei social media sono in grado di condurre un'analisi del sentiment più olistica unendo immagini, didascalie e commenti. Questa applicazione può essere utile nella moderazione dei contenuti che richiedono l'analisi di immagini dannose.
    • Aumentare le opportunità di lavoro per ingegneri e data scientist di computer vision e NLP machine learning.
    • Startup che si basano su questi sistemi di intelligenza artificiale per commercializzarli o fornire soluzioni personalizzate per le aziende.

    Domande da commentare

    • In quale altro modo pensi che la vocalizzazione cambierà il modo in cui interagiamo con i robot?
    • In che modo la vocalizzazione può cambiare il modo in cui conduciamo affari e interagiamo con i nostri gadget (smartphone ed elettrodomestici intelligenti)?

    Riferimenti di approfondimento

    I seguenti collegamenti popolari e istituzionali sono stati referenziati per questa intuizione: