Мова вокенізації AI може бачити

КРЕДИТ ЗОБРАЖЕННЯ:

iStock

Вокенізація: мова, яку може бачити ШІ

Завдяки використанню зображень у системі навчання штучного інтелекту (ШІ) роботи незабаром зможуть «бачити» команди.

Автор:
ім'я автора
Quantumrun Foresight
Травень 9, 2023

Обробка природної мови (NLP) дозволила системам штучного інтелекту (AI) вивчати людську мову, розуміючи слова та зіставляючи контекст із почуттями. Єдиним недоліком є те, що ці системи НЛП суто текстові. Вокенізація скоро все це змінить.

Контекст вокенізації

Дві програми машинного навчання на основі тексту (ML) часто використовуються для навчання ШІ обробляти та розуміти людську мову: Generative Pre-trained Transformer 3 (GPT-3) від OpenAI і BERT (Bidirectional Encoder Representations from Transformers) від Google. У термінології штучного інтелекту слова, які використовуються в тренінгу НЛП, називаються токенами. Дослідники з Університету Північної Кароліни (UNC) помітили, що текстові навчальні програми обмежені, оскільки вони не можуть «бачити», тобто не можуть захоплювати візуальну інформацію та комунікацію.

Наприклад, якщо хтось запитає GPT-3, якого кольору вівця, система часто відповість «чорна», навіть якщо вона явно біла. Ця відповідь пояснюється тим, що текстова система пов’язуватиме його з терміном «чорна вівця» замість визначення правильного кольору. Завдяки поєднанню візуальних елементів із токенами (voken) системи ШІ можуть мати цілісне розуміння термінів. Вокенізація інтегрує вокени в самоконтрольовані системи НЛП, дозволяючи їм розвивати «здоровий глузд».

Інтеграція мовних моделей і комп’ютерного зору не є новою концепцією, і це сфера досліджень штучного інтелекту, яка швидко розвивається. Поєднання цих двох типів штучного інтелекту використовує їхні індивідуальні переваги. Мовні моделі, такі як GPT-3, навчаються шляхом неконтрольованого навчання, що дозволяє легко масштабувати їх. Навпаки, моделі зображень, такі як системи розпізнавання об’єктів, можуть безпосередньо вивчати реальність і не покладатися на абстракцію, надану текстом. Наприклад, моделі зображень можуть розпізнати, що вівця біла, дивлячись на зображення.

Руйнівний вплив

Процес вокенізації досить простий. Вокени створюються шляхом присвоєння відповідних або релевантних зображень лексемам мови. Потім алгоритми (вокенізатор) розроблені для генерації вокенів шляхом неконтрольованого навчання (без явних параметрів/правил). ШІ здорового глузду, навчений за допомогою вокенізації, може краще спілкуватися та вирішувати проблеми, оскільки він має більш глибоке розуміння контексту. Цей підхід є унікальним, оскільки він не лише передбачає токени мови, але й передбачає токени зображень, чого традиційні моделі BERT не можуть зробити.

Наприклад, роботизовані помічники зможуть краще розпізнавати зображення та орієнтуватися в процесах, оскільки вони можуть «бачити», що від них вимагається. Системи штучного інтелекту, навчені писати контент, зможуть створювати статті, які звучатимуть більш людяно, з ідеями, які краще протікають, замість роз’єднаних речень. Враховуючи широкий охоплення додатків NLP, вокенізація може призвести до кращих чат-ботів, віртуальних помічників, онлайн-діагностики медиків, цифрових перекладачів тощо.

Крім того, поєднання зору та вивчення мови набуває популярності в програмах для медичних зображень, зокрема для автоматизованої діагностики медичних зображень. Наприклад, деякі дослідники експериментують із цим підходом на рентгенограмах із супровідними текстовими описами, де семантична сегментація може забрати багато часу. Техніка вокенізації може покращити ці уявлення та покращити автоматизовану медичну візуалізацію, використовуючи текстову інформацію.

Додатки для вокенізації

Деякі програми для вокенізації можуть включати:

Інтуїтивно зрозумілі чат-боти, які можуть обробляти знімки екрана, зображення та вміст веб-сайту. Зокрема, чат-боти служби підтримки клієнтів можуть точно рекомендувати продукти та послуги.
Цифрові перекладачі, які можуть обробляти зображення та відео та надавати точний переклад з урахуванням культурного та ситуаційного контексту.
Боти-сканери соціальних мереж можуть проводити більш цілісний аналіз настроїв, об’єднуючи зображення, підписи та коментарі. Ця програма може бути корисною для модерування вмісту, який потребує аналізу шкідливих зображень.
Збільшення можливостей працевлаштування для інженерів комп’ютерного бачення та машинного навчання NLP та спеціалістів із обробки даних.
Стартапи, які створюють ці системи ШІ, щоб комерціалізувати їх або надавати індивідуальні рішення для бізнесу.

Питання для коментарів

Як ще, на вашу думку, вокенізація змінить нашу взаємодію з роботами?
Як вокенізація може змінити те, як ми ведемо бізнес і взаємодіємо з нашими гаджетами (смартфонами та інтелектуальними пристроями)?

Додати до списку