Đào tạo mô hình AI: Tìm kiếm sự phát triển AI chi phí thấp

TÍN DỤNG HÌNH ẢNH:
Tín dụng hình ảnh
iStock

Đào tạo mô hình AI: Tìm kiếm sự phát triển AI chi phí thấp

Đào tạo mô hình AI: Tìm kiếm sự phát triển AI chi phí thấp

Văn bản tiêu đề phụ
Các mô hình trí tuệ nhân tạo nổi tiếng là tốn kém để xây dựng và đào tạo, khiến chúng nằm ngoài tầm với của hầu hết các nhà nghiên cứu và người dùng.
    • tác giả:
    • tên tác giả
      Tầm nhìn lượng tử
    • 21 Tháng ba, 2023

    Học sâu (DL) đã được chứng minh là một giải pháp hiệu quả cho một số thách thức trong phát triển trí tuệ nhân tạo (AI). Tuy nhiên, DL cũng đang trở nên đắt đỏ hơn. Vận hành mạng lưới thần kinh sâu đòi hỏi tài nguyên xử lý cao, đặc biệt là trong quá trình đào tạo trước. Tồi tệ hơn, quy trình sử dụng nhiều năng lượng này có nghĩa là những yêu cầu này dẫn đến lượng khí thải carbon lớn, làm hỏng xếp hạng ESG của hoạt động thương mại hóa nghiên cứu AI.

    Đào tạo bối cảnh mô hình AI

    Đào tạo trước hiện là cách tiếp cận phổ biến nhất để xây dựng mạng lưới thần kinh quy mô lớn và nó đã cho thấy thành công lớn trong lĩnh vực thị giác máy tính (CV) và xử lý ngôn ngữ tự nhiên (NLP). Tuy nhiên, việc phát triển các mô hình DL khổng lồ đã trở nên quá tốn kém. Ví dụ: đào tạo OpenAI's Generative Pre-training Transformer 3 (GPT-3), có 175 tỷ tham số và cần quyền truy cập vào các cụm máy chủ khổng lồ với cạc đồ họa hàng đầu, có chi phí ước tính là 12 triệu USD. Một máy chủ mạnh mẽ và hàng trăm gigabyte bộ nhớ truy cập ngẫu nhiên video (VRAM) cũng cần thiết để chạy mô hình.

    Mặc dù các công ty công nghệ lớn có thể đủ khả năng chi trả chi phí đào tạo như vậy, nhưng điều đó trở nên nghiêm trọng đối với các công ty khởi nghiệp và tổ chức nghiên cứu nhỏ hơn. Ba yếu tố thúc đẩy chi phí này. 

    1. Chi phí tính toán lớn, sẽ cần vài tuần với hàng nghìn đơn vị xử lý đồ họa (GPU).

    2. Các mô hình tinh chỉnh yêu cầu dung lượng lưu trữ lớn, thường chiếm hàng trăm gigabyte (GB). Hơn nữa, nhiều mô hình cho các nhiệm vụ khác nhau cần được lưu trữ.

    3. Đào tạo các mô hình lớn đòi hỏi sức mạnh tính toán và phần cứng chính xác; nếu không, kết quả có thể không lý tưởng.

    Do chi phí cao, nghiên cứu AI ngày càng được thương mại hóa, trong đó các công ty Công nghệ lớn đang dẫn đầu các nghiên cứu trong lĩnh vực này. Các công ty này cũng có thể thu được nhiều lợi ích nhất từ ​​những phát hiện của họ. Trong khi đó, các tổ chức nghiên cứu và tổ chức phi lợi nhuận thường phải hợp tác với các doanh nghiệp này nếu họ muốn tiến hành thăm dò trong lĩnh vực này. 

    Tác động gián đoạn

    Có bằng chứng cho thấy mạng lưới thần kinh có thể được "cắt tỉa". Điều này có nghĩa là trong các mạng thần kinh siêu lớn, một nhóm nhỏ hơn có thể đạt được mức độ chính xác tương tự như mô hình AI ban đầu mà không ảnh hưởng nhiều đến chức năng của nó. Ví dụ: vào năm 2020, các nhà nghiên cứu AI tại Đại học Swarthmore và Phòng thí nghiệm quốc gia Los Alamos đã minh họa rằng mặc dù một mô hình DL phức tạp có thể học cách dự đoán các bước đi trong tương lai trong Trò chơi cuộc sống của nhà toán học John Conway, nhưng luôn có một mạng lưới thần kinh nhỏ hơn có thể dạy được để làm điều tương tự.

    Các nhà nghiên cứu phát hiện ra rằng nếu họ loại bỏ nhiều tham số của mô hình DL sau khi mô hình đó đã hoàn thành toàn bộ quy trình đào tạo, thì họ có thể giảm kích thước ban đầu xuống 10% mà vẫn đạt được kết quả tương tự. Một số công ty công nghệ đã nén các mô hình AI của họ để tiết kiệm dung lượng trên các thiết bị như máy tính xách tay và điện thoại thông minh. Phương pháp này không chỉ tiết kiệm tiền mà còn cho phép phần mềm chạy mà không cần kết nối Internet và nhận kết quả trong thời gian thực. 

    Cũng có những trường hợp khi DL có thể thực hiện được trên các thiết bị chạy bằng pin mặt trời hoặc tế bào cúc áo, nhờ các mạng thần kinh nhỏ. Tuy nhiên, một hạn chế của phương pháp cắt tỉa là mô hình vẫn cần phải được đào tạo hoàn chỉnh trước khi có thể giảm bớt. Đã có một số nghiên cứu ban đầu về các tập hợp con thần kinh có thể tự đào tạo. Tuy nhiên, độ chính xác của chúng không giống như độ chính xác của các mạng thần kinh siêu lớn.

    Ý nghĩa của việc đào tạo các mô hình AI

    Ý nghĩa rộng hơn của các mô hình AI đào tạo có thể bao gồm: 

    • Tăng cường nghiên cứu các phương pháp đào tạo mạng lưới thần kinh khác nhau; tuy nhiên, tiến độ có thể bị chậm lại do thiếu kinh phí.
    • Các ông lớn công nghệ tiếp tục tài trợ cho các phòng thí nghiệm nghiên cứu AI của họ, dẫn đến nhiều xung đột lợi ích hơn.
    • Chi phí phát triển AI tạo điều kiện cho các công ty độc quyền hình thành, hạn chế khả năng cạnh tranh độc lập với các công ty công nghệ lâu đời của các công ty khởi nghiệp AI mới. Một kịch bản kinh doanh mới nổi có thể chứng kiến ​​một số ít công ty công nghệ lớn phát triển các mô hình AI độc quyền khổng lồ và cho các công ty AI nhỏ hơn thuê chúng dưới dạng dịch vụ/tiện ích.
    • Các tổ chức nghiên cứu, tổ chức phi lợi nhuận và trường đại học được tài trợ bởi công nghệ lớn để thay mặt họ tiến hành một số thử nghiệm AI. Xu hướng này có thể dẫn đến tình trạng chảy máu chất xám nhiều hơn từ giới học thuật sang các tập đoàn.
    • Áp lực gia tăng đối với các ông lớn công nghệ trong việc xuất bản và cập nhật thường xuyên các hướng dẫn về đạo đức AI của họ để khiến họ chịu trách nhiệm về các dự án nghiên cứu và phát triển của mình.
    • Việc đào tạo các mô hình AI ngày càng trở nên đắt đỏ hơn khi sức mạnh tính toán cao hơn ngày càng được yêu cầu, dẫn đến lượng khí thải carbon nhiều hơn.
    • Một số cơ quan chính phủ đang cố gắng điều chỉnh dữ liệu được sử dụng trong quá trình đào tạo các mô hình AI khổng lồ này. Đồng thời, các cơ quan cạnh tranh có thể tạo ra luật buộc các doanh nghiệp nhỏ hơn trong nước có thể tiếp cận các mô hình AI ở một quy mô nhất định nhằm thúc đẩy sự đổi mới của các doanh nghiệp vừa và nhỏ.

    Các câu hỏi cần xem xét

    • Nếu bạn làm việc trong lĩnh vực AI, tổ chức của bạn đang phát triển các mô hình AI bền vững hơn với môi trường như thế nào?
    • Những hậu quả lâu dài tiềm ẩn của các mô hình AI đắt tiền là gì?

    Tham khảo thông tin chi tiết

    Các liên kết phổ biến và liên kết thể chế sau đây đã được tham chiếu cho thông tin chi tiết này: