Вокенизација: Језик који АИ може да види

КРЕДИТ ЗА СЛИКУ:
Слика кредит
иСтоцк

Вокенизација: Језик који АИ може да види

Вокенизација: Језик који АИ може да види

Текст поднаслова
Пошто се слике сада уграђују у обуку система вештачке интелигенције (АИ), роботи би ускоро могли да „виде“ команде.
    • Аутор:
    • ime аутора
      Куантумрун Форесигхт
    • Може 9, 2023

    Обрада природног језика (НЛП) је омогућила системима вештачке интелигенције (АИ) да науче људски говор разумевањем речи и усклађивањем контекста са осећањем. Једина мана је што су ови НЛП системи искључиво текстуални. Вокенизација ће све то променити.

    Контекст вокенизације

    Два програма за машинско учење заснована на тексту (МЛ) се често користе за обуку вештачке интелигенције да обрађује и разуме људски језик: ОпенАИ-јев Генеративни унапред обучени Трансформер 3 (ГПТ-3) и Гоогле-ов БЕРТ (Бидирецтионал Енцодер Репресентатионс фром Трансформерс). У терминологији вештачке интелигенције, речи које се користе у НЛП тренингу називају се токени. Истраживачи са Универзитета Северне Каролине (УНЦ) приметили су да су програми обуке засновани на тексту ограничени јер не могу да „виде“, што значи да не могу да схвате визуелне информације и комуникацију. 

    На пример, ако неко пита ГПТ-3 која је боја овце, систем ће често одговорити „црно“ чак и ако је јасно бела. Овај одговор је зато што ће га систем заснован на тексту повезати са термином „црна овца“ уместо да идентификује тачну боју. Укључујући визуелне елементе са токенима (вокен), АИ системи могу имати холистичко разумевање појмова. Вокенизација интегрише вокене у самонадзиране НЛП системе, омогућавајући им да развију „здрав разум“.

    Интегрисање језичких модела и компјутерске визије није нов концепт, и то је поље које се брзо шири у истраживању вештачке интелигенције. Комбинација ове две врсте АИ користи њихове индивидуалне снаге. Језички модели као што је ГПТ-3 се обучавају кроз учење без надзора, што им омогућава да се лако скалирају. Насупрот томе, модели слика као што су системи за препознавање објеката могу директно да уче из стварности и не ослањају се на апстракцију коју пружа текст. На пример, модели слика могу препознати да је овца бела гледајући слику.

    Ометајући утицај

    Процес вокенизације је прилично једноставан. Вокени се креирају додељивањем одговарајућих или релевантних слика језичким токенима. Затим, алгоритми (вокенизер) су дизајнирани да генеришу вокене кроз учење без надзора (без експлицитних параметара/правила). Здрав разум АИ обучен кроз вокенизацију може боље да комуницира и решава проблеме јер имају дубље разумевање контекста. Овај приступ је јединствен јер не само да предвиђа језичке токене, већ и токене слике, што је нешто што традиционални БЕРТ модели не могу да ураде.

    На пример, роботски асистенти ће моћи да препознају слике и боље се крећу кроз процесе јер могу да „виде“ шта се од њих тражи. Системи вештачке интелигенције обучени за писање садржаја моћи ће да праве чланке који звуче људскије, са идејама које боље теку, уместо неповезаних реченица. Узимајући у обзир широк домет НЛП апликација, вокенизација може довести до бољег учинка цхатботова, виртуелних асистената, онлајн медицинских дијагноза, дигиталних преводилаца и још много тога.

    Поред тога, комбинација учења вида и језика постаје све популарнија у апликацијама за медицинско снимање, посебно за аутоматску дијагностику медицинске слике. На пример, неки истраживачи експериментишу са овим приступом на рендгенским сликама са пратећим текстуалним описима, где семантичка сегментација може бити дуготрајна. Техника вокенизације би могла да побољша ове репрезентације и побољша аутоматизовано медицинско снимање коришћењем текстуалних информација.

    Пријаве за вокенизацију

    Неке апликације за вокенизацију могу укључивати:

    • Интуитивни цхат ботови који могу да обрађују снимке екрана, слике и садржај веб странице. Чат-ботови за корисничку подршку, посебно, могу бити у могућности да прецизно препоруче производе и услуге.
    • Дигитални преводиоци који могу да обрађују слике и видео записе и обезбеде тачан превод који узима у обзир културни и ситуациони контекст.
    • Бот скенери друштвених медија који су у стању да спроведу холистичкију анализу осећања спајањем слика, натписа и коментара. Ова апликација може бити корисна у модерирању садржаја који захтева анализу штетних слика.
    • Повећање могућности запошљавања за инжењере компјутерског вида и НЛП машинског учења и научнике података.
    • Стартапи граде ове системе вештачке интелигенције да би их комерцијализовали или обезбедили прилагођена решења за предузећа.

    Питања за коментарисање

    • Шта иначе мислите да ће вокенизација променити начин на који комуницирамо са роботима?
    • Како вокенизација може да промени начин на који водимо посао и комуницирамо са нашим гаџетима (паметним телефонима и паметним уређајима)?

    Референце за увид

    Следеће популарне и институционалне везе су референциране за овај увид: