Seslendirme: AI'nın görebileceği dil

GÖRÜNTÜ KREDİSİ:
Resim kredi
iStock

Seslendirme: AI'nın görebileceği dil

Seslendirme: AI'nın görebileceği dil

Alt başlık metni
Artık görüntülerin yapay zeka (AI) sistemleri eğitimine dahil edilmesiyle, robotlar yakında komutları "görebilir".
    • Yazar:
    • Yazar adı
      Kuantumrun Öngörüsü
    • Mayıs 9, 2023

    Doğal dil işleme (NLP), yapay zeka (AI) sistemlerinin kelimeleri anlayarak ve bağlamı duygularla eşleştirerek insan konuşmasını öğrenmesini sağladı. Tek dezavantajı, bu NLP sistemlerinin tamamen metin tabanlı olmasıdır. Seslendirme tüm bunları değiştirmek üzere.

    Seslendirme bağlamı

    Yapay zekayı insan dilini işlemek ve anlamak üzere eğitmek için genellikle iki metin tabanlı makine öğrenimi (ML) programı kullanılır: OpenAI'nin Generative Pre-trained Transformer 3 (GPT-3) ve Google'ın BERT (Transformers'tan Çift Yönlü Kodlayıcı Temsilleri). AI terminolojisinde, NLP eğitiminde kullanılan kelimelere jeton denir. Kuzey Karolina Üniversitesi'nden (UNC) araştırmacılar, metin tabanlı eğitim programlarının "göremedikleri", yani görsel bilgileri ve iletişimi yakalayamadıkları için sınırlı olduğunu gözlemlediler. 

    Örneğin, birisi GPT-3'e koyunun renginin ne olduğunu sorarsa, açıkça beyaz olsa bile sistem genellikle "siyah" yanıtını verir. Bu yanıtın nedeni, metin tabanlı sistemin doğru rengi belirlemek yerine onu "kara koyun" terimiyle ilişkilendirmesidir. Görselleri belirteçlerle (voken) birleştirerek, AI sistemleri bütünsel bir terim anlayışına sahip olabilir. Vokenization, voken'ları kendi kendini denetleyen NLP sistemlerine entegre ederek "sağduyu" geliştirmelerini sağlar.

    Dil modellerini ve bilgisayar görüşünü entegre etmek yeni bir kavram değildir ve yapay zeka araştırmasında hızla genişleyen bir alandır. Bu iki yapay zeka türünün birleşimi, bireysel güçlerinden yararlanır. GPT-3 gibi dil modelleri, kolayca ölçeklenmelerini sağlayan denetimsiz öğrenme yoluyla eğitilir. Buna karşılık, nesne tanıma sistemleri gibi görüntü modelleri doğrudan gerçeklikten öğrenebilir ve metnin sağladığı soyutlamaya güvenmez. Örneğin, görüntü modelleri bir resme bakarak bir koyunun beyaz olduğunu anlayabilir.

    Yıkıcı etki

    Seslendirme işlemi oldukça basittir. Voken'lar, karşılık gelen veya ilgili görüntüleri dil belirteçlerine atayarak oluşturulur. Ardından, denetimsiz öğrenme yoluyla (açık parametreler/kurallar yok) voken oluşturmak için algoritmalar (vokenizer) tasarlanır. Seslendirme yoluyla eğitilen sağduyulu AI, bağlam hakkında daha derinlemesine bir anlayışa sahip oldukları için iletişim kurabilir ve sorunları daha iyi çözebilir. Bu yaklaşım benzersizdir çünkü yalnızca dil belirteçlerini tahmin etmekle kalmaz, aynı zamanda geleneksel BERT modellerinin yapamadığı bir şey olan görüntü belirteçlerini de tahmin eder.

    Örneğin, robotik asistanlar görüntüleri tanıyabilecek ve süreçlerde daha iyi gezinebilecekler çünkü onlardan neyin gerekli olduğunu "görebiliyorlar". İçerik yazmak için eğitilen yapay zeka sistemleri, kopuk cümleler yerine daha iyi akan fikirlerle kulağa daha insani gelen makaleler üretebilecek. NLP uygulamalarının geniş erişimi göz önüne alındığında, seslendirme, daha iyi performans gösteren sohbet robotlarına, sanal asistanlara, çevrimiçi tıbbi teşhislere, dijital çevirmenlere ve daha fazlasına yol açabilir.

    Ek olarak, görme ve dil öğreniminin birleşimi, özellikle otomatik tıbbi görüntü teşhisi için tıbbi görüntüleme uygulamalarında popülerlik kazanıyor. Örneğin, bazı araştırmacılar, anlamsal bölümlemenin zaman alıcı olabildiği metin açıklamalarıyla birlikte radyografi görüntüleri üzerinde bu yaklaşımı deniyorlar. Seslendirme tekniği, metin bilgisini kullanarak bu temsilleri geliştirebilir ve otomatik tıbbi görüntülemeyi geliştirebilir.

    Seslendirme uygulamaları

    Seslendirme için bazı uygulamalar şunları içerebilir:

    • Ekran görüntülerini, resimleri ve web sitesi içeriğini işleyebilen sezgisel sohbet robotları. Özellikle müşteri desteği sohbet robotları, ürün ve hizmetleri doğru bir şekilde önerebilir.
    • Görüntüleri ve videoları işleyebilen ve kültürel ve durumsal bağlamı dikkate alan doğru bir çeviri sağlayan dijital çevirmenler.
    • Sosyal medya bot tarayıcıları, görüntüleri, alt yazıları ve yorumları birleştirerek daha bütünsel bir duygu analizi gerçekleştirebiliyor. Bu uygulama, zararlı görüntülerin analizini gerektiren içerik denetiminde faydalı olabilir.
    • Bilgisayar görüşü ve NLP makine öğrenimi mühendisleri ve veri bilimcileri için artan istihdam fırsatları.
    • Bunları ticarileştirmek veya işletmeler için özelleştirilmiş çözümler sağlamak için bu yapay zeka sistemlerini temel alan girişimler.

    Yorum yapılacak sorular

    • Seslendirmenin robotlarla etkileşim biçimimizi başka nasıl değiştireceğini düşünüyorsunuz?
    • Seslendirme, iş yapma ve cihazlarımızla (akıllı telefonlar ve akıllı cihazlar) etkileşim kurma şeklimizi nasıl değiştirebilir?

    Analiz referansları

    Bu içgörü için aşağıdaki popüler ve kurumsal bağlantılara başvurulmuştur: