Vokenization ngôn ngữ ai có thể nhìn thấy

TÍN DỤNG HÌNH ẢNH:

iStock

Vokenization: Ngôn ngữ mà AI có thể nhìn thấy

Với việc hình ảnh hiện được tích hợp vào quá trình đào tạo hệ thống trí tuệ nhân tạo (AI), robot có thể sớm “nhìn thấy” các lệnh.

tác giả:
tên tác giả
Tầm nhìn lượng tử
9 Tháng Năm, 2023

Xử lý ngôn ngữ tự nhiên (NLP) đã cho phép các hệ thống trí tuệ nhân tạo (AI) học lời nói của con người bằng cách hiểu các từ và khớp ngữ cảnh với cảm xúc. Nhược điểm duy nhất là các hệ thống NLP này hoàn toàn dựa trên văn bản. Vokenization sắp thay đổi tất cả.

Bối cảnh từ hóa

Hai chương trình máy học (ML) dựa trên văn bản thường được sử dụng để huấn luyện AI xử lý và hiểu ngôn ngữ của con người: Generative Pre-training Transformer 3 (GPT-3) của OpenAI và BERT của Google (Đại diện bộ mã hóa hai chiều từ Transformers). Trong thuật ngữ AI, các từ được sử dụng trong đào tạo NLP được gọi là mã thông báo. Các nhà nghiên cứu từ Đại học Bắc Carolina (UNC) đã quan sát thấy rằng các chương trình đào tạo dựa trên văn bản bị hạn chế vì chúng không thể "nhìn thấy", nghĩa là chúng không thể nắm bắt thông tin và giao tiếp bằng hình ảnh.

Ví dụ: nếu ai đó hỏi GPT-3 màu của con cừu là gì, hệ thống thường sẽ trả lời là "đen" ngay cả khi nó rõ ràng là màu trắng. Phản hồi này là do hệ thống dựa trên văn bản sẽ liên kết nó với thuật ngữ "cừu đen" thay vì xác định màu chính xác. Bằng cách kết hợp hình ảnh với mã thông báo (voken), hệ thống AI có thể hiểu toàn diện về các thuật ngữ. Vokenization tích hợp voken vào các hệ thống NLP tự giám sát, cho phép chúng phát triển "ý thức chung".

Tích hợp các mô hình ngôn ngữ và thị giác máy tính không phải là một khái niệm mới và nó là một lĩnh vực đang mở rộng nhanh chóng trong nghiên cứu AI. Sự kết hợp của hai loại AI này thúc đẩy sức mạnh riêng của chúng. Các mô hình ngôn ngữ như GPT-3 được đào tạo thông qua học tập không giám sát, cho phép chúng mở rộng dễ dàng. Ngược lại, các mô hình hình ảnh như hệ thống nhận dạng đối tượng có thể học trực tiếp từ thực tế và không dựa vào sự trừu tượng hóa do văn bản cung cấp. Ví dụ: các mô hình hình ảnh có thể nhận ra rằng một con cừu có màu trắng bằng cách nhìn vào một bức tranh.

Tác động gián đoạn

Quá trình vokenization khá đơn giản. Voken được tạo bằng cách gán hình ảnh tương ứng hoặc có liên quan cho mã thông báo ngôn ngữ. Sau đó, các thuật toán (vokenizer) được thiết kế để tạo voken thông qua quá trình học không giám sát (không có tham số/quy tắc rõ ràng). AI thông thường được đào tạo thông qua vokenization có thể giao tiếp và giải quyết vấn đề tốt hơn vì chúng hiểu sâu hơn về ngữ cảnh. Cách tiếp cận này là duy nhất bởi vì nó không chỉ dự đoán mã thông báo ngôn ngữ mà còn dự đoán mã thông báo hình ảnh, đây là điều mà các mô hình BERT truyền thống không thể thực hiện được.

Ví dụ, các trợ lý robot sẽ có thể nhận dạng hình ảnh và điều hướng các quy trình tốt hơn vì chúng có thể “nhìn thấy” những gì chúng được yêu cầu. Các hệ thống trí tuệ nhân tạo được đào tạo để viết nội dung sẽ có thể tạo ra các bài báo nghe giống con người hơn, với các ý tưởng trôi chảy hơn thay vì các câu rời rạc. Xem xét khả năng tiếp cận rộng rãi của các ứng dụng NLP, quá trình voken hóa có thể dẫn đến các chatbot hoạt động tốt hơn, trợ lý ảo, chẩn đoán y tế trực tuyến, dịch giả kỹ thuật số, v.v.

Ngoài ra, sự kết hợp giữa thị giác và học ngôn ngữ đang trở nên phổ biến trong các ứng dụng hình ảnh y tế, đặc biệt là chẩn đoán hình ảnh y tế tự động. Ví dụ, một số nhà nghiên cứu đang thử nghiệm cách tiếp cận này trên các hình ảnh chụp X quang với các mô tả văn bản đi kèm, trong đó việc phân đoạn ngữ nghĩa có thể tốn nhiều thời gian. Kỹ thuật voken hóa có thể tăng cường các biểu diễn này và cải thiện hình ảnh y tế tự động bằng cách sử dụng thông tin văn bản.

Ứng dụng cho vokenization

Một số ứng dụng cho vokenization có thể bao gồm:

Chatbot trực quan có thể xử lý ảnh chụp màn hình, hình ảnh và nội dung trang web. Đặc biệt, các chatbot hỗ trợ khách hàng có thể đề xuất chính xác các sản phẩm và dịch vụ.
Trình dịch kỹ thuật số có thể xử lý hình ảnh và video và cung cấp bản dịch chính xác có xem xét bối cảnh văn hóa và tình huống.
Máy quét bot phương tiện truyền thông xã hội có thể tiến hành phân tích tình cảm toàn diện hơn bằng cách hợp nhất hình ảnh, chú thích và nhận xét. Ứng dụng này có thể hữu ích trong việc kiểm duyệt nội dung yêu cầu phân tích các hình ảnh có hại.
Tăng cơ hội việc làm cho các kỹ sư thị giác máy tính và máy học NLP và các nhà khoa học dữ liệu.
Các công ty khởi nghiệp xây dựng trên các hệ thống AI này để thương mại hóa chúng hoặc cung cấp các giải pháp tùy chỉnh cho doanh nghiệp.

Các câu hỏi để bình luận

Còn cách nào khác để bạn nghĩ vokenization sẽ thay đổi cách chúng ta tương tác với robot?
Quá trình vokenization có thể thay đổi cách chúng ta tiến hành kinh doanh và tương tác với các thiết bị của mình như thế nào (điện thoại thông minh và thiết bị thông minh)?

Thêm vào danh sách