Vokenization language ai can see

CREDIT NG LARAWAN:

iStock

Vokenization: Wika na nakikita ng AI

Sa mga larawang isinasama na ngayon sa pagsasanay sa mga sistema ng artificial intelligence (AI), maaaring malapit nang "makita" ng mga robot ang mga utos.

May-akda:
pangalan Author
Quantumrun Foresight
Mayo 9, 2023

Ang natural na pagpoproseso ng wika (NLP) ay nagbigay-daan sa mga sistema ng artificial intelligence (AI) na matutunan ang pagsasalita ng tao sa pamamagitan ng pag-unawa sa mga salita at pagtutugma ng konteksto sa damdamin. Ang tanging downside ay ang mga NLP system na ito ay puro text-based. Malapit nang baguhin ng vokenization ang lahat ng iyon.

Konteksto ng vokenization

Dalawang text-based machine learning (ML) program ang kadalasang ginagamit para sanayin ang AI na iproseso at maunawaan ang wika ng tao: OpenAI's Generative Pre-trained Transformer 3 (GPT-3) at Google's BERT (Bidirectional Encoder Representations from Transformers). Sa terminolohiya ng AI, ang mga salitang ginamit sa pagsasanay sa NLP ay tinatawag na mga token. Naobserbahan ng mga mananaliksik mula sa University of North Carolina (UNC) na limitado ang mga programa sa pagsasanay na nakabatay sa teksto dahil hindi nila "nakikita," ibig sabihin ay hindi nila makuha ang visual na impormasyon at komunikasyon.

Halimbawa, kung may nagtanong sa GPT-3 kung ano ang kulay ng tupa, kadalasang "itim" ang sagot ng system kahit na malinaw na puti. Ang tugon na ito ay dahil iuugnay ito ng text-based system sa terminong "black sheep" sa halip na tukuyin ang tamang kulay. Sa pamamagitan ng pagsasama ng mga visual na may mga token (voken), ang mga AI system ay maaaring magkaroon ng holistic na pag-unawa sa mga termino. Isinasama ng vokenization ang mga voken sa mga self-supervised na NLP system, na nagpapahintulot sa kanila na bumuo ng "common sense."

Ang pagsasama ng mga modelo ng wika at computer vision ay hindi isang bagong konsepto, at ito ay isang mabilis na lumalawak na larangan sa AI research. Ang kumbinasyon ng dalawang uri na ito ng AI ay gumagamit ng kanilang mga indibidwal na lakas. Ang mga modelo ng wika tulad ng GPT-3 ay sinanay sa pamamagitan ng hindi pinangangasiwaang pag-aaral, na nagbibigay-daan sa kanila na madaling mag-scale. Sa kabaligtaran, ang mga modelo ng imahe tulad ng mga object recognition system ay maaaring direktang matuto mula sa katotohanan at hindi umaasa sa abstraction na ibinigay ng teksto. Halimbawa, makikilala ng mga modelo ng imahe na ang isang tupa ay puti sa pamamagitan ng pagtingin sa isang larawan.

Nakakagambalang epekto

Ang proseso ng vokenization ay medyo diretso. Ang mga Voken ay nilikha sa pamamagitan ng pagtatalaga ng katumbas o nauugnay na mga larawan sa mga token ng wika. Pagkatapos, ang mga algorithm (vokenizer) ay idinisenyo upang bumuo ng mga voken sa pamamagitan ng hindi pinangangasiwaang pag-aaral (walang tahasang mga parameter/tuntunin). Ang sentido komun na sinanay ng AI sa pamamagitan ng vokenization ay maaaring makipag-usap at malutas ang mga problema nang mas mahusay dahil mayroon silang mas malalim na pag-unawa sa konteksto. Ang diskarte na ito ay natatangi dahil hindi lamang nito hinuhulaan ang mga token ng wika ngunit hinuhulaan din ang mga token ng imahe, na isang bagay na hindi kayang gawin ng mga tradisyonal na modelo ng BERT.

Halimbawa, mas makikilala ng mga robotic assistant ang mga larawan at mag-navigate sa mga proseso dahil "makikita" nila kung ano ang kinakailangan sa kanila. Ang mga artificial intelligence system na sinanay upang magsulat ng nilalaman ay makakagawa ng mga artikulong mas mukhang tao, na may mga ideyang mas mahusay na dumadaloy, sa halip na mga magkakahiwalay na pangungusap. Isinasaalang-alang ang malawak na pag-abot ng mga NLP application, ang vokenization ay maaaring humantong sa mas mahusay na pagganap ng mga chatbot, mga virtual na katulong, mga online na medikal na diagnosis, mga digital na tagasalin, at higit pa.

Bilang karagdagan, ang kumbinasyon ng paningin at pag-aaral ng wika ay nakakakuha ng katanyagan sa mga medikal na imaging application, partikular para sa awtomatikong pagsusuri ng medikal na imahe. Halimbawa, ang ilang mga mananaliksik ay nag-eeksperimento sa diskarteng ito sa mga larawan ng radiograph na may kasamang mga paglalarawan ng teksto, kung saan ang semantic segmentation ay maaaring magtagal. Ang pamamaraan ng vokenization ay maaaring mapahusay ang mga representasyong ito at mapabuti ang automated na medikal na imaging sa pamamagitan ng paggamit ng impormasyon ng teksto.

Mga aplikasyon para sa vokenization

Ang ilang mga aplikasyon para sa vokenization ay maaaring kabilang ang:

Mga intuitive na chatbot na maaaring magproseso ng mga screenshot, larawan, at nilalaman ng website. Ang mga chatbot ng suporta sa customer, sa partikular, ay maaaring tumpak na magrekomenda ng mga produkto at serbisyo.
Mga digital na tagasalin na maaaring magproseso ng mga larawan at video at magbigay ng tumpak na pagsasalin na isinasaalang-alang ang konteksto ng kultura at sitwasyon.
Nagagawa ng mga social media bot scanner na magsagawa ng mas holistic na pagsusuri ng sentimento sa pamamagitan ng pagsasama-sama ng mga larawan, caption, at komento. Maaaring maging kapaki-pakinabang ang application na ito sa pagmo-moderate ng nilalaman na nangangailangan ng pagsusuri ng mga mapaminsalang larawan.
Pagdaragdag ng mga pagkakataon sa trabaho para sa computer vision at NLP machine learning engineer at data scientist.
Ang mga startup ay bumubuo sa mga AI system na ito para i-komersyal ang mga ito o magbigay ng mga customized na solusyon para sa mga negosyo.

Mga tanong na ikokomento

Sa palagay mo, paano pa ba mababago ang vokenization kung paano tayo nakikipag-ugnayan sa mga robot?
Paano mababago ng vokenization ang ating pagsasagawa ng negosyo at pakikipag-ugnayan sa ating mga gadget (smartphone at smart appliances)?

Idagdag sa listahan