Vokenization: ภาษาที่ AI สามารถมองเห็นได้

เครดิตภาพ:
เครดิตภาพ
iStock

Vokenization: ภาษาที่ AI สามารถมองเห็นได้

Vokenization: ภาษาที่ AI สามารถมองเห็นได้

ข้อความหัวข้อย่อย
เมื่อรวมรูปภาพเข้ากับการฝึกอบรมระบบปัญญาประดิษฐ์ (AI) แล้ว หุ่นยนต์อาจสามารถ "เห็น" คำสั่งได้ในเร็วๆ นี้
    • เขียนโดย:
    • ชื่อผู้เขียน
      มองการณ์ไกลควอนตัมรัน
    • May 9, 2023

    การประมวลผลภาษาธรรมชาติ (NLP) ช่วยให้ระบบปัญญาประดิษฐ์ (AI) สามารถเรียนรู้คำพูดของมนุษย์โดยการทำความเข้าใจคำและจับคู่บริบทกับความรู้สึก ข้อเสียเพียงอย่างเดียวคือระบบ NLP เหล่านี้เป็นแบบข้อความล้วน ๆ โวเคไนเซชันกำลังจะเปลี่ยนทั้งหมดนั้น

    บริบทการโวเค็น

    โปรแกรมแมชชีนเลิร์นนิง (ML) แบบข้อความสองโปรแกรมมักใช้ในการฝึกให้ AI ประมวลผลและเข้าใจภาษามนุษย์ ได้แก่ Transformer 3 (GPT-3) ที่ได้รับการฝึกอบรมล่วงหน้าของ OpenAI และ BERT ของ Google (การแทนตัวเข้ารหัสแบบสองทิศทางจาก Transformers) ในคำศัพท์เกี่ยวกับ AI คำที่ใช้ในการฝึกอบรม NLP เรียกว่าโทเค็น นักวิจัยจากมหาวิทยาลัยนอร์ทแคโรไลนา (UNC) สังเกตว่าโปรแกรมการฝึกอบรมแบบข้อความมีข้อจำกัด เนื่องจากไม่สามารถ "มองเห็น" ซึ่งหมายความว่าไม่สามารถจับภาพข้อมูลและการสื่อสารได้ 

    เช่น ถ้ามีคนถาม GPT-3 ว่าแกะสีอะไร ระบบมักจะตอบว่า "สีดำ" แม้ว่าจะเป็นสีขาวอย่างชัดเจนก็ตาม การตอบสนองนี้เป็นเพราะระบบที่ใช้ข้อความจะเชื่อมโยงกับคำว่า "แกะดำ" แทนที่จะระบุสีที่ถูกต้อง ด้วยการรวมภาพเข้ากับโทเค็น (voken) ระบบ AI สามารถเข้าใจคำศัพท์แบบองค์รวม Vokenization รวม vokens เข้ากับระบบ NLP ที่ดูแลตนเอง ช่วยให้พวกเขาพัฒนา "สามัญสำนึก"

    การรวมโมเดลภาษาและคอมพิวเตอร์วิทัศน์ไม่ใช่แนวคิดใหม่ และเป็นสาขาที่ขยายอย่างรวดเร็วในการวิจัย AI การรวมกันของ AI ทั้งสองประเภทนี้จะใช้ประโยชน์จากจุดแข็งของแต่ละคน โมเดลภาษาอย่าง GPT-3 ได้รับการฝึกผ่านการเรียนรู้แบบไม่มีผู้ดูแล ซึ่งช่วยให้ปรับขนาดได้ง่าย ในทางตรงกันข้าม แบบจำลองภาพ เช่น ระบบการจดจำวัตถุสามารถเรียนรู้ได้โดยตรงจากความเป็นจริงและไม่ต้องพึ่งพาสิ่งที่เป็นนามธรรมจากข้อความ ตัวอย่างเช่น แบบจำลองรูปภาพสามารถรับรู้ได้ว่าแกะมีสีขาวโดยการดูที่รูปภาพ

    ผลกระทบก่อกวน

    ขั้นตอนการ vokenization ค่อนข้างตรงไปตรงมา Vokens ถูกสร้างขึ้นโดยการกำหนดรูปภาพที่เกี่ยวข้องหรือเกี่ยวข้องกับโทเค็นภาษา จากนั้น อัลกอริทึม (vokenizer) ได้รับการออกแบบมาเพื่อสร้าง vokens ผ่านการเรียนรู้แบบไม่มีผู้ดูแล (ไม่มีพารามิเตอร์/กฎที่ชัดเจน) AI สามัญสำนึกที่ได้รับการฝึกฝนผ่านการ vokenization สามารถสื่อสารและแก้ปัญหาได้ดีขึ้นเพราะมีความเข้าใจบริบทในเชิงลึกมากขึ้น วิธีการนี้ไม่เหมือนใครเพราะไม่เพียงทำนายโทเค็นภาษาเท่านั้น แต่ยังทำนายโทเค็นรูปภาพด้วย ซึ่งเป็นสิ่งที่โมเดล BERT แบบดั้งเดิมไม่สามารถทำได้

    ตัวอย่างเช่น ผู้ช่วยหุ่นยนต์จะสามารถจดจำภาพและนำทางกระบวนการต่างๆ ได้ดีขึ้น เพราะสามารถ "เห็น" สิ่งที่จำเป็น ระบบปัญญาประดิษฐ์ที่ได้รับการฝึกฝนให้เขียนเนื้อหาจะสามารถสร้างบทความที่ฟังดูเป็นมนุษย์มากขึ้น ด้วยแนวคิดที่ลื่นไหลดีขึ้น แทนที่จะเป็นประโยคที่ไม่ปะติดปะต่อ เมื่อพิจารณาถึงการเข้าถึงที่หลากหลายของแอปพลิเคชัน NLP การโวเคไนเซชันสามารถนำไปสู่แชทบอทที่มีประสิทธิภาพดีขึ้น ผู้ช่วยเสมือน การวินิจฉัยทางการแพทย์ออนไลน์ นักแปลดิจิทัล และอื่นๆ อีกมากมาย

    นอกจากนี้ การผสมผสานระหว่างการมองเห็นและการเรียนรู้ภาษากำลังได้รับความนิยมในการใช้งานด้านการถ่ายภาพทางการแพทย์ โดยเฉพาะอย่างยิ่งสำหรับการวินิจฉัยภาพทางการแพทย์แบบอัตโนมัติ ตัวอย่างเช่น นักวิจัยบางคนกำลังทดลองแนวทางนี้กับภาพรังสีที่มีคำอธิบายประกอบ ซึ่งการแบ่งส่วนความหมายอาจใช้เวลานาน เทคนิคการ vokenization สามารถปรับปรุงการเป็นตัวแทนเหล่านี้และปรับปรุงภาพทางการแพทย์อัตโนมัติโดยใช้ข้อมูลที่เป็นข้อความ

    แอปพลิเคชั่นสำหรับ vokenization

    แอปพลิเคชันบางอย่างสำหรับการ vokenization อาจรวมถึง:

    • แชทบอทที่ใช้งานง่ายที่สามารถประมวลผลภาพหน้าจอ รูปภาพ และเนื้อหาเว็บไซต์ โดยเฉพาะอย่างยิ่งแชทบอทฝ่ายสนับสนุนลูกค้าอาจสามารถแนะนำผลิตภัณฑ์และบริการได้อย่างถูกต้อง
    • นักแปลดิจิทัลที่สามารถประมวลผลรูปภาพและวิดีโอ และให้การแปลที่ถูกต้องโดยคำนึงถึงบริบททางวัฒนธรรมและสถานการณ์
    • บอตสแกนเนอร์โซเชียลมีเดียสามารถวิเคราะห์ความรู้สึกแบบองค์รวมได้มากขึ้นโดยการรวมรูปภาพ คำบรรยาย และความคิดเห็นเข้าด้วยกัน แอปพลิเคชั่นนี้มีประโยชน์ในการกลั่นกรองเนื้อหาที่ต้องมีการวิเคราะห์ภาพที่เป็นอันตราย
    • การเพิ่มโอกาสการจ้างงานสำหรับวิศวกรคอมพิวเตอร์วิทัศน์และการเรียนรู้ของเครื่อง NLP และนักวิทยาศาสตร์ข้อมูล
    • สตาร์ทอัพที่สร้างจากระบบ AI เหล่านี้เพื่อทำการค้าหรือจัดหาโซลูชันที่กำหนดเองสำหรับธุรกิจ

    คำถามที่จะแสดงความคิดเห็นเกี่ยวกับ

    • คุณคิดว่าการ vokenization จะเปลี่ยนวิธีที่เรามีปฏิสัมพันธ์กับหุ่นยนต์ได้อย่างไร?
    • การโวเคไนเซชั่นสามารถเปลี่ยนวิธีการดำเนินธุรกิจและการโต้ตอบกับแกดเจ็ตของเรา (สมาร์ทโฟนและเครื่องใช้อัจฉริยะ) ได้อย่างไร

    ข้อมูลอ้างอิงเชิงลึก

    ลิงก์ที่เป็นที่นิยมและลิงก์สถาบันต่อไปนี้ถูกอ้างอิงสำหรับข้อมูลเชิงลึกนี้: