Vokenisierung: Sprache, die KI sehen kann

IMAGE CREDIT:
Bildnachweis
iStock

Vokenisierung: Sprache, die KI sehen kann

Vokenisierung: Sprache, die KI sehen kann

Untertiteltext
Da Bilder jetzt in das Training von Systemen der künstlichen Intelligenz (KI) integriert werden, könnten Roboter bald in der Lage sein, Befehle zu „sehen“.
    • Autor:
    • Autorenname
      Quantumrun-Vorausschau
    • 9. Mai 2023

    Die Verarbeitung natürlicher Sprache (NLP) hat es Systemen der künstlichen Intelligenz (KI) ermöglicht, menschliche Sprache zu lernen, indem sie Wörter verstehen und den Kontext mit der Stimmung abgleichen. Der einzige Nachteil besteht darin, dass diese NLP-Systeme rein textbasiert sind. Die Vokenisierung wird das alles ändern.

    Vokenisierungskontext

    Zwei textbasierte maschinelle Lernprogramme (ML) werden häufig verwendet, um KI zu trainieren, menschliche Sprache zu verarbeiten und zu verstehen: Generative Pre-trained Transformer 3 (GPT-3) von OpenAI und BERT (Bidirektionale Encoder-Repräsentationen von Transformers) von Google. In der KI-Terminologie werden die im NLP-Training verwendeten Wörter Token genannt. Forscher der University of North Carolina (UNC) stellten fest, dass textbasierte Trainingsprogramme begrenzt sind, weil sie nicht „sehen“ können, was bedeutet, dass sie visuelle Informationen und Kommunikation nicht erfassen können. 

    Wenn beispielsweise jemand GPT-3 fragt, welche Farbe das Schaf hat, antwortet das System oft mit „schwarz“, auch wenn es eindeutig weiß ist. Diese Reaktion ist darauf zurückzuführen, dass das textbasierte System sie mit dem Begriff „schwarzes Schaf“ verknüpft, anstatt die richtige Farbe zu identifizieren. Durch die Integration von visuellen Elementen mit Token (Voken) können KI-Systeme ein ganzheitliches Verständnis von Begriffen erlangen. Die Vokenisierung integriert Vokens in selbstüberwachte NLP-Systeme und ermöglicht ihnen so die Entwicklung eines „gesunden Menschenverstandes“.

    Die Integration von Sprachmodellen und Computer Vision ist kein neues Konzept und ein schnell wachsendes Feld in der KI-Forschung. Die Kombination dieser beiden Arten von KI nutzt ihre individuellen Stärken. Sprachmodelle wie GPT-3 werden durch unbeaufsichtigtes Lernen trainiert, was eine einfache Skalierung ermöglicht. Im Gegensatz dazu können Bildmodelle wie Objekterkennungssysteme direkt aus der Realität lernen und verlassen sich nicht auf die durch den Text bereitgestellte Abstraktion. Bildmodelle können beispielsweise anhand eines Bildes erkennen, dass ein Schaf weiß ist.

    Störende Wirkung

    Der Prozess der Vokalisierung ist ziemlich einfach. Vokens werden erstellt, indem Sprachtokens entsprechende oder relevante Bilder zugewiesen werden. Anschließend werden Algorithmen (Vokenizer) entwickelt, um Vokens durch unbeaufsichtigtes Lernen (keine expliziten Parameter/Regeln) zu generieren. Durch Vokenisierung trainierte KI mit gesundem Menschenverstand kann besser kommunizieren und Probleme lösen, da sie über ein tieferes Verständnis des Kontexts verfügt. Dieser Ansatz ist einzigartig, da er nicht nur Sprach-Tokens, sondern auch Bild-Tokens vorhersagt, was herkömmliche BERT-Modelle nicht leisten können.

    Roboterassistenten können beispielsweise Bilder besser erkennen und Prozesse besser steuern, weil sie „sehen“ können, was von ihnen verlangt wird. Künstliche Intelligenzsysteme, die darauf trainiert sind, Inhalte zu schreiben, werden in der Lage sein, Artikel zu verfassen, die menschlicher klingen und deren Ideen besser fließen, statt unzusammenhängender Sätze. Angesichts der großen Reichweite von NLP-Anwendungen kann die Vokenisierung zu leistungsfähigeren Chatbots, virtuellen Assistenten, medizinischen Online-Diagnosen, digitalen Übersetzern und mehr führen.

    Darüber hinaus erfreut sich die Kombination aus Seh- und Sprachlernen in medizinischen Bildgebungsanwendungen, insbesondere für die automatisierte medizinische Bilddiagnose, zunehmender Beliebtheit. Einige Forscher experimentieren mit diesem Ansatz beispielsweise an Röntgenbildern mit begleitenden Textbeschreibungen, bei denen die semantische Segmentierung zeitaufwändig sein kann. Die Vokenisierungstechnik könnte diese Darstellungen verbessern und die automatisierte medizinische Bildgebung durch Nutzung der Textinformationen verbessern.

    Anträge auf Vokenisierung

    Einige Anträge auf Vokenisierung können Folgendes umfassen:

    • Intuitive Chatbots, die Screenshots, Bilder und Website-Inhalte verarbeiten können. Insbesondere Kundensupport-Chatbots können Produkte und Dienstleistungen möglicherweise genau empfehlen.
    • Digitale Übersetzer, die Bilder und Videos verarbeiten und eine genaue Übersetzung liefern können, die den kulturellen und situativen Kontext berücksichtigt.
    • Bot-Scanner für soziale Medien können eine ganzheitlichere Stimmungsanalyse durchführen, indem sie Bilder, Bildunterschriften und Kommentare zusammenführen. Diese Anwendung kann bei der Inhaltsmoderation nützlich sein, die die Analyse schädlicher Bilder erfordert.
    • Steigende Beschäftigungsmöglichkeiten für Ingenieure und Datenwissenschaftler im Bereich Computer Vision und NLP, maschinelles Lernen.
    • Startups bauen auf diesen KI-Systemen auf, um sie zu kommerzialisieren oder maßgeschneiderte Lösungen für Unternehmen bereitzustellen.

    Fragen zum Kommentieren

    • Wie sonst wird die Vokenisierung Ihrer Meinung nach die Art und Weise verändern, wie wir mit Robotern interagieren?
    • Wie kann Vokenisierung die Art und Weise verändern, wie wir Geschäfte abwickeln und mit unseren Gadgets (Smartphones und Smart Appliances) interagieren?

    Insight-Referenzen

    Für diesen Einblick wurde auf die folgenden beliebten und institutionellen Links verwiesen: