Vokenization: AI-ийн харж чадах хэл

ЗУРГИЙН ЗЭЭЛ:
Зургийн кредит
iStock

Vokenization: AI-ийн харж чадах хэл

Vokenization: AI-ийн харж чадах хэл

Дэд гарчгийн текст
Хиймэл оюун ухааны (AI) системийн сургалтанд зургуудыг оруулснаар удахгүй роботууд тушаалуудыг "харах" боломжтой болно.
    • Зохиогчийн тухай:
    • Зохиогчийн нэр
      Quantumrun Foresight
    • 9 болтугай 2023

    Байгалийн хэлний боловсруулалт (NLP) нь хиймэл оюун ухааны (AI) системийг үгсийг ойлгож, нөхцөл байдлыг мэдрэмжтэй уялдуулах замаар хүний ​​яриаг сурах боломжийг олгосон. Цорын ганц сул тал нь эдгээр NLP системүүд нь зөвхөн текст дээр суурилсан байдаг. Вокенизаци энэ бүхнийг өөрчлөх гэж байна.

    Vokenization контекст

    AI-г хүний ​​хэлийг боловсруулах, ойлгоход сургахад ихэвчлэн текстэд суурилсан машин сургалтын (ML) хоёр програмыг ашигладаг: OpenAI-ийн Урьдчилан бэлтгэгдсэн Transformer 3 (GPT-3) болон Google-ийн BERT (Transformers-аас хоёр чиглэлтэй кодлогчийн төлөөлөл). AI нэр томъёонд NLP сургалтанд хэрэглэгддэг үгсийг жетон гэж нэрлэдэг. Хойд Каролинагийн Их Сургуулийн (UNC) судлаачид текстэд суурилсан сургалтын хөтөлбөрүүд нь "харах" боломжгүй, өөрөөр хэлбэл харааны мэдээлэл, харилцаа холбоог барьж чаддаггүй тул хязгаарлагдмал байгааг ажиглав. 

    Жишээлбэл, хэрэв хэн нэгэн хонь ямар өнгөтэй вэ гэж GPT-3-аас асуувал систем нь цагаан өнгөтэй байсан ч "хар" гэж хариулдаг. Энэ хариулт нь текстэд суурилсан систем нь зөв өнгийг тодорхойлохын оронд үүнийг "хар хонь" гэсэн нэр томъёотой холбодогтой холбоотой юм. AI системүүд нь жетонтой (дуудсан) дүрслэлийг нэгтгэснээр нэр томьёоны талаар цогц ойлголттой болно. Vokenization нь vokens-ийг өөрөө хянадаг NLP системд нэгтгэж, "эрүүл ухаан" хөгжүүлэх боломжийг олгодог.

    Хэлний загвар болон компьютерийн алсын харааг нэгтгэх нь шинэ ойлголт биш бөгөөд энэ нь хиймэл оюун ухааны судалгааны хурдацтай хөгжиж буй салбар юм. Эдгээр хоёр төрлийн хиймэл оюун ухааны хослол нь тэдний хувийн давуу талыг бий болгодог. GPT-3 гэх мэт хэлний загварууд нь хяналтгүй сургалтаар дамждаг бөгөөд энэ нь тэднийг хялбархан масштаблах боломжийг олгодог. Үүний эсрэгээр, объект таних систем гэх мэт зургийн загварууд нь бодит байдлаас шууд суралцах боломжтой бөгөөд текстээс өгсөн хийсвэрлэлд найддаггүй. Жишээлбэл, зурагны загвар өмсөгчид хонь цагаан өнгөтэй болохыг зурагнаас харж болно.

    Сөрөг нөлөө

    Дууг дуулах үйл явц нь маш энгийн. Хэлний токенуудад харгалзах эсвэл холбогдох дүрсийг оноох замаар вокенуудыг үүсгэдэг. Дараа нь алгоритмууд (vokenizer) нь хяналтгүй суралцах замаар дуу авиа үүсгэх зориулалттай (тодорхой параметр/дүрэм байхгүй). Дуу хоолойгоор дамжуулан сургасан эрүүл ухаантай хиймэл оюун ухаан нь нөхцөл байдлын талаар илүү гүнзгий ойлголттой тул илүү сайн харилцаж, асуудлыг шийдэж чадна. Энэ арга нь зөвхөн хэлний жетоныг урьдчилан таамаглаад зогсохгүй дүрсний жетоныг урьдчилан таамагладгаараа онцлог бөгөөд энэ нь уламжлалт BERT загваруудын хийж чаддаггүй зүйл юм.

    Жишээлбэл, робот туслахууд дүрсийг таньж, процессыг илүү сайн удирдаж, тэднээс юу шаардагдахыг "хардаг" болно. Агуулга бичихэд сургагдсан хиймэл оюун ухааны системүүд нь салангид өгүүлбэрийн оронд илүү хүн чанартай, илүү сайн урсдаг санаатай нийтлэлүүдийг бүтээх боломжтой болно. NLP программуудын өргөн хүрээг харгалзан дуу хоолойгоо өргөх нь чатботууд, виртуал туслахууд, онлайн эмнэлгийн оношлогоо, дижитал орчуулагч гэх мэт илүү сайн гүйцэтгэлтэй болоход хүргэдэг.

    Нэмж дурдахад алсын хараа болон хэл сурах хосолсон арга нь эмнэлгийн дүрслэлийн хэрэглээнд, ялангуяа эмнэлгийн зургийн автоматжуулсан оношлогоонд түгээмэл болж байна. Жишээлбэл, зарим судлаачид семантик сегментчилэл нь цаг хугацаа их шаарддаг дагалдах текстийн тайлбар бүхий рентген зураг дээр ийм аргыг туршиж байна. Дуу хоолойны техник нь эдгээр дүрслэлийг сайжруулж, текстийн мэдээллийг ашиглан автоматжуулсан эмнэлгийн дүрслэлийг сайжруулж чадна.

    Дууг дуулах өргөдөл

    Дууг татах зарим програмд ​​дараахь зүйлс орно.

    • Дэлгэцийн агшин, зураг, вэб сайтын агуулгыг боловсруулах боломжтой ухаалаг чатботууд. Ялангуяа хэрэглэгчийн дэмжлэгийн чатботууд бүтээгдэхүүн, үйлчилгээг зөв санал болгох боломжтой.
    • Зураг, видеог боловсруулж, соёл, нөхцөл байдлын нөхцөл байдлыг харгалзан зөв орчуулга хийх боломжтой дижитал орчуулагчид.
    • Сошиал медиа бот сканнерууд зураг, тайлбар, тайлбарыг нэгтгэх замаар сэтгэл хөдлөлийн илүү цогц дүн шинжилгээ хийх боломжтой. Энэ програм нь хортой зургуудад дүн шинжилгээ хийх шаардлагатай контентыг зохицуулахад хэрэг болно.
    • Компьютерийн алсын хараа, NLP машин сургалтын инженер, өгөгдөл судлаачдад зориулсан ажлын байрыг нэмэгдүүлэх.
    • Гарааны бизнесүүд эдгээр хиймэл оюун ухааны системүүд дээр тулгуурлан тэдгээрийг арилжаанд оруулах эсвэл бизнесүүдэд тохирсон шийдлүүдийг санал болгодог.

    Сэтгэгдэл бичих асуултууд

    • Таны бодлоор дуу хоолой нь роботтой харилцах харилцааг өөр яаж өөрчлөх вэ?
    • Дуу хоолой нь бидний бизнес хийх, гаджет (ухаалаг гар утас, ухаалаг хэрэгсэл)-тэй харилцах харилцааг хэрхэн өөрчлөх вэ?

    Үзэл баримтлалын лавлагаа

    Энэхүү ойлголтыг авахын тулд дараах алдартай болон институцийн холбоосыг ашигласан болно: