שפת ווקוניזציה אני יכול לראות

אשראי תמונה:

iStock

Vokenization: שפה שבינה מלאכותית יכולה לראות

כאשר תמונות משולבות כעת באימוני מערכות בינה מלאכותית (AI), רובוטים עשויים בקרוב להיות מסוגלים "לראות" פקודות.

מְחַבֵּר:
שם היוצר
Quantumrun Foresight
מאי 9, 2023

עיבוד שפה טבעית (NLP) אפשר למערכות בינה מלאכותית (AI) ללמוד דיבור אנושי על ידי הבנת מילים והתאמת ההקשר לסנטימנט. החיסרון היחיד הוא שמערכות ה-NLP הללו מבוססות טקסט בלבד. הווקניזציה עומדת לשנות את כל זה.

הקשר של ווקנציה

שתי תוכניות למידת מכונה מבוססת טקסט (ML) משמשות לעתים קרובות לאימון AI לעיבוד והבנת שפה אנושית: Transformer Generative Pre-trained Transformer 3 (GPT-3) של OpenAI ו-BERT (ייצוגי קודן דו-כיווני מרובוטריקים). בטרמינולוגיה של AI, המילים המשמשות באימון NLP נקראות אסימונים. חוקרים מאוניברסיטת צפון קרוליינה (UNC) הבחינו שתכניות הכשרה מבוססות טקסט מוגבלות מכיוון שאינן יכולות "לראות", כלומר אינן יכולות ללכוד מידע ותקשורת חזותית.

לדוגמה, אם מישהו שואל את GPT-3 מה צבע הכבשה, המערכת תענה לרוב "שחור" גם אם הוא לבן בבירור. תגובה זו נובעת מכך שהמערכת מבוססת הטקסט תשייך אותה למונח "כבשה שחורה" במקום לזהות את הצבע הנכון. על ידי שילוב ויזואליות עם אסימונים (voken), מערכות AI יכולות לקבל הבנה הוליסטית של מונחים. Vokenization משלבת vokens במערכות NLP בפיקוח עצמי, ומאפשרת להם לפתח "שכל ישר".

שילוב מודלים של שפה וראייה ממוחשבת אינו מושג חדש, וזהו תחום שמתרחב במהירות בחקר בינה מלאכותית. השילוב של שני סוגי AI אלה ממנף את החוזקות האישיות שלהם. מודלים של שפה כמו GPT-3 מאומנים באמצעות למידה ללא פיקוח, מה שמאפשר להם להתאים בקלות. לעומת זאת, מודלים של תמונה כמו מערכות זיהוי אובייקטים יכולים ללמוד ישירות מהמציאות ולא להסתמך על ההפשטה שמספק הטקסט. לדוגמה, דגמי תמונה יכולים לזהות שכבשה לבנה על ידי התבוננות בתמונה.

השפעה משבשת

תהליך ה-vokenization הוא די פשוט. Vokens נוצרים על ידי הקצאת תמונות מתאימות או רלוונטיות לאסימוני שפה. לאחר מכן, אלגוריתמים (vokenizer) נועדו ליצור vokens באמצעות למידה ללא פיקוח (ללא פרמטרים/כללים מפורשים). בינה מלאכותית של שכל ישר מאומנת באמצעות vokenization יכולה לתקשר ולפתור בעיות טוב יותר מכיוון שיש להן הבנה מעמיקה יותר של ההקשר. גישה זו ייחודית מכיוון שהיא לא רק מנבאת אסימוני שפה אלא גם מנבאת אסימוני תמונה, וזה משהו שדגמי BERT מסורתיים אינם מסוגלים לעשות.

לדוגמה, עוזרים רובוטיים יוכלו לזהות תמונות ולנווט תהליכים טוב יותר כי הם יכולים "לראות" מה נדרש מהם. מערכות בינה מלאכותית שהוכשרו לכתיבת תוכן יוכלו ליצור מאמרים שנשמעים אנושיים יותר, עם רעיונות שזורמים טוב יותר, במקום משפטים מפורקים. בהתחשב בטווח הרחב של יישומי NLP, vokenization יכול להוביל לצ'אטבוטים בעלי ביצועים טובים יותר, עוזרים וירטואליים, אבחונים רפואיים מקוונים, מתרגמים דיגיטליים ועוד.

בנוסף, השילוב של ראייה ולימוד שפה צובר פופולריות ביישומי הדמיה רפואית, במיוחד לאבחון תמונה רפואית אוטומטית. לדוגמה, כמה חוקרים מתנסים עם גישה זו על תמונות רנטגן עם תיאורי טקסט נלווים, כאשר פילוח סמנטי יכול לקחת זמן רב. טכניקת ה-vokenization יכולה לשפר את הייצוגים הללו ולשפר הדמיה רפואית אוטומטית על ידי שימוש במידע הטקסט.

בקשות ל-vokenization

יישומים מסוימים ל-vokenization עשויים לכלול:

צ'אטבוטים אינטואיטיביים שיכולים לעבד צילומי מסך, תמונות ותוכן אתר. צ'אטבוטים של תמיכת לקוחות, בפרט, עשויים להמליץ במדויק על מוצרים ושירותים.
מתרגמים דיגיטליים שיכולים לעבד תמונות וסרטונים ולספק תרגום מדויק שמתחשב בהקשר תרבותי ומצבי.
סורקי בוטים של מדיה חברתית מסוגלים לבצע ניתוח סנטימנט הוליסטי יותר על ידי מיזוג תמונות, כיתובים והערות. יישום זה יכול להיות שימושי בניהול תוכן הדורש ניתוח של תמונות מזיקות.
הגדלת הזדמנויות תעסוקה למהנדסי ראייה ממוחשבת ולמידת מכונה NLP ומדעני נתונים.
סטארט-אפים המתבססים על מערכות בינה מלאכותיות אלו כדי למסחר אותן או לספק פתרונות מותאמים לעסקים.

שאלות להגיב עליהן

איך אחרת לדעתך ה-vokenization ישנה את אופן האינטראקציה שלנו עם רובוטים?
כיצד vokenization יכולה לשנות את האופן שבו אנו מנהלים עסקים ואינטראקציה עם הגאדג'טים שלנו (סמארטפונים ומכשירים חכמים)?

הוסף לרשימה