Vokenizační jazyk, který vidím

KREDIT OBRAZU:

iStock

Vokenizace: Jazyk, který AI vidí

S obrázky, které jsou nyní začleňovány do školení systémů umělé inteligence (AI), by roboti mohli brzy „vidět“ příkazy.

Autor:
jméno autora
Quantumrun Foresight
9

Zpracování přirozeného jazyka (NLP) umožnilo systémům umělé inteligence (AI) naučit se lidskou řeč porozuměním slovům a přiřazování kontextu k sentimentu. Jedinou nevýhodou je, že tyto NLP systémy jsou čistě textové. Vokenizace to všechno změní.

Kontext vokenizace

K trénování umělé inteligence ke zpracování a porozumění lidské řeči se často používají dva textové programy strojového učení (ML): Generative Pre-trained Transformer 3 (GPT-3) od OpenAI a BERT (Obousměrné reprezentace kodéru od společnosti Transformers) od Googlu. V terminologii AI se slova používaná v tréninku NLP nazývají tokeny. Výzkumníci z University of North Carolina (UNC) pozorovali, že textové tréninkové programy jsou omezené, protože nemohou „vidět“, což znamená, že nemohou zachytit vizuální informace a komunikaci.

Pokud se například někdo zeptá GPT-3, jakou barvu má ovce, systém často odpoví „černá“, i když je jasně bílá. Tato odpověď je způsobena tím, že textový systém ji spojí s pojmem "černá ovce" namísto určení správné barvy. Začleněním vizuálů s tokeny (voken) mohou systémy umělé inteligence chápat termíny holisticky. Vokenizace integruje vokeny do systémů NLP s vlastním dohledem, což jim umožňuje rozvíjet „zdravý rozum“.

Integrace jazykových modelů a počítačového vidění není nový koncept a jedná se o rychle se rozvíjející obor ve výzkumu AI. Kombinace těchto dvou typů AI využívá jejich individuální silné stránky. Jazykové modely jako GPT-3 jsou trénovány učením bez dozoru, což jim umožňuje snadno škálovat. Naproti tomu obrazové modely, jako jsou systémy rozpoznávání objektů, se mohou přímo učit z reality a nespoléhají na abstrakci poskytovanou textem. Obrazové modely mohou například rozpoznat, že ovce je bílá, podle obrázku.

Rušivý dopad

Proces vokenizace je docela přímočarý. Vokeny se vytvářejí přiřazením odpovídajících nebo relevantních obrázků k jazykovým tokenům. Poté jsou navrženy algoritmy (vokenizer) pro generování vokenů prostřednictvím učení bez dozoru (žádné explicitní parametry/pravidla). Umělá inteligence se zdravým rozumem trénovaná pomocí vokenizace dokáže lépe komunikovat a řešit problémy, protože hlouběji rozumí kontextu. Tento přístup je jedinečný, protože nejen předpovídá jazykové tokeny, ale také předpovídá obrázkové tokeny, což je něco, co tradiční modely BERT nejsou schopny.

Robotičtí asistenti budou například schopni rozpoznávat obrázky a lépe procházet procesy, protože „vidí“, co se od nich vyžaduje. Systémy umělé inteligence vycvičené k psaní obsahu budou schopny vytvářet články, které znějí lidštěji, s nápady, které lépe plynou, namísto nesouvislých vět. Vzhledem k širokému dosahu aplikací NLP může vokenizace vést k výkonnějším chatbotům, virtuálním asistentům, online lékařským diagnózám, digitálním překladačům a dalším.

Kombinace zraku a výuky jazyků navíc získává na popularitě v aplikacích lékařského zobrazování, konkrétně pro automatizovanou diagnostiku lékařských snímků. Někteří výzkumníci například experimentují s tímto přístupem na rentgenových snímcích s doprovodným textovým popisem, kde může být sémantická segmentace časově náročná. Technika vokenizace by mohla zlepšit tyto reprezentace a zlepšit automatizované lékařské zobrazování využitím textových informací.

Aplikace pro vokenizování

Některé aplikace pro vokenizaci mohou zahrnovat:

Intuitivní chatboti, kteří dokážou zpracovat snímky obrazovky, obrázky a obsah webových stránek. Zejména chatboti zákaznické podpory mohou být schopni přesně doporučit produkty a služby.
Digitální překladatelé, kteří dokážou zpracovat obrázky a videa a poskytnout přesný překlad zohledňující kulturní a situační kontext.
Skenery botů na sociálních sítích jsou schopny provádět holističtější analýzu sentimentu sloučením obrázků, titulků a komentářů. Tato aplikace může být užitečná při moderování obsahu, který vyžaduje analýzu škodlivých obrázků.
Zvyšování pracovních příležitostí pro inženýry počítačového vidění a strojového učení NLP a datové vědce.
Startupy, které na těchto systémech AI staví, aby je mohly komercializovat nebo poskytovat firmám přizpůsobená řešení.

Otázky ke komentáři

Jak jinak podle vás vokenizace změní způsob, jakým komunikujeme s roboty?
Jak může vokenizace změnit způsob, jakým podnikáme a komunikujeme s našimi gadgety (chytré telefony a chytrá zařízení)?

Přidat k oblíbeným