Melatih model AI: Pencarian pembangunan AI kos rendah

KREDIT GAMBAR:
Kredit Image
iStock

Melatih model AI: Pencarian pembangunan AI kos rendah

Melatih model AI: Pencarian pembangunan AI kos rendah

Teks subtajuk
Model kecerdasan buatan terkenal mahal untuk dibina dan dilatih, menjadikannya tidak dapat dicapai oleh kebanyakan penyelidik dan pengguna.
    • Pengarang
    • Nama pengarang
      Quantumrun Foresight
    • Mac 21, 2023

    Pembelajaran mendalam (DL) telah terbukti sebagai penyelesaian yang cekap kepada beberapa cabaran dalam pembangunan kecerdasan buatan (AI). Walau bagaimanapun, DL juga menjadi lebih mahal. Mengendalikan rangkaian neural dalam memerlukan sumber pemprosesan yang tinggi, terutamanya dalam pra-latihan. Lebih buruk lagi, proses intensif tenaga ini bermakna keperluan ini menghasilkan jejak karbon yang besar, merosakkan penarafan ESG pengkomersilan penyelidikan AI.

    Melatih konteks model AI

    Pra-latihan kini merupakan pendekatan paling popular untuk membina rangkaian saraf berskala besar, dan ia telah menunjukkan kejayaan besar dalam penglihatan komputer (CV) dan pemprosesan bahasa semula jadi (NLP). Walau bagaimanapun, membangunkan model DL yang besar telah menjadi terlalu mahal. Sebagai contoh, melatih OpenAI's Generative Pre-trained Transformer 3 (GPT-3), yang mempunyai 175 bilion parameter dan memerlukan akses kepada kluster pelayan yang besar dengan kad grafik terkemuka, mempunyai anggaran kos sebanyak USD $12 juta. Pelayan yang berkuasa dan beratus-ratus gigabait memori akses rawak video (VRAM) juga diperlukan untuk menjalankan model.

    Walaupun syarikat teknologi utama mungkin mampu membayar kos latihan sedemikian, ia menjadi penghalang untuk syarikat permulaan dan organisasi penyelidikan yang lebih kecil. Tiga faktor mendorong perbelanjaan ini. 

    1. Kos pengiraan yang meluas, yang memerlukan beberapa minggu dengan beribu-ribu unit pemprosesan grafik (GPU).

    2. Model yang diperhalusi memerlukan storan yang besar, biasanya menggunakan ratusan gigabait (GB). Tambahan pula, berbilang model untuk tugasan yang berbeza perlu disimpan.

    3. Melatih model besar memerlukan kuasa dan perkakasan pengiraan yang tepat; jika tidak, keputusan mungkin tidak sesuai.

    Kerana kos yang tinggi, penyelidikan AI telah menjadi semakin dikomersialkan, di mana syarikat Big Tech menerajui kajian dalam bidang tersebut. Firma-firma ini juga berpeluang mendapat manfaat sepenuhnya daripada penemuan mereka. Sementara itu, institusi penyelidikan dan badan bukan untung selalunya perlu bekerjasama dengan perniagaan ini jika mereka ingin menjalankan penerokaan mereka di lapangan. 

    Kesan yang mengganggu

    Terdapat bukti yang menunjukkan rangkaian saraf boleh "dipangkas." Ini bermakna bahawa dalam rangkaian neural bersaiz besar, kumpulan yang lebih kecil boleh mencapai tahap ketepatan yang sama seperti model AI asal tanpa kesan berat terhadap fungsinya. Sebagai contoh, pada tahun 2020, penyelidik AI di Swarthmore College dan Los Alamos National Laboratory menggambarkan bahawa walaupun model DL yang kompleks boleh belajar untuk meramalkan langkah-langkah masa depan dalam Game of Life ahli matematik John Conway, sentiasa ada rangkaian saraf yang lebih kecil yang boleh diajar. untuk melakukan perkara yang sama.

    Penyelidik mendapati bahawa jika mereka membuang banyak parameter model DL selepas ia menyelesaikan keseluruhan prosedur latihan, mereka boleh mengurangkannya kepada 10 peratus daripada saiz asalnya dan masih mencapai hasil yang sama. Beberapa syarikat teknologi sudah memampatkan model AI mereka untuk menjimatkan ruang pada peranti seperti komputer riba dan telefon pintar. Kaedah ini bukan sahaja menjimatkan wang tetapi juga membolehkan perisian berjalan tanpa sambungan Internet dan mendapatkan hasil dalam masa nyata. 

    Terdapat juga keadaan apabila DL boleh dilakukan pada peranti yang dikuasakan oleh bateri solar atau sel butang, terima kasih kepada rangkaian saraf yang kecil. Walau bagaimanapun, batasan kaedah pemangkasan ialah model masih perlu dilatih sepenuhnya sebelum ia boleh dikurangkan. Terdapat beberapa kajian awal tentang subset saraf yang boleh dilatih sendiri. Walau bagaimanapun, ketepatannya tidak sama dengan rangkaian neural bersaiz besar.

    Implikasi melatih model AI

    Implikasi yang lebih luas daripada latihan model AI mungkin termasuk: 

    • Peningkatan penyelidikan dalam kaedah yang berbeza untuk melatih rangkaian saraf; walau bagaimanapun, kemajuan mungkin diperlahankan kerana kekurangan dana.
    • Teknologi besar terus membiayai makmal penyelidikan AI mereka, mengakibatkan lebih banyak konflik kepentingan.
    • Kos pembangunan AI mewujudkan syarat untuk monopoli terbentuk, mengehadkan keupayaan pemula AI baharu untuk bersaing secara bebas dengan firma teknologi yang mantap. Senario perniagaan baru muncul mungkin menyaksikan segelintir firma teknologi besar membangunkan model AI proprietari gergasi dan memajakkannya kepada firma AI yang lebih kecil sebagai perkhidmatan/utiliti.
    • Institusi penyelidikan, organisasi bukan untung dan universiti dibiayai oleh teknologi besar untuk menjalankan beberapa eksperimen AI bagi pihak mereka. Aliran ini boleh menyebabkan lebih banyak brain drain daripada akademia kepada syarikat.
    • Tekanan yang meningkat untuk teknologi besar untuk menerbitkan dan mengemas kini garis panduan etika AI mereka secara kerap untuk menjadikan mereka bertanggungjawab terhadap projek penyelidikan dan pembangunan mereka.
    • Melatih model AI menjadi lebih mahal kerana kuasa pengkomputeran yang lebih tinggi semakin diperlukan, yang membawa kepada lebih banyak pelepasan karbon.
    • Sesetengah agensi kerajaan cuba mengawal selia data yang digunakan dalam latihan model AI gergasi ini. Selain itu, agensi persaingan mungkin membuat undang-undang yang memaksa model AI pada saiz tertentu boleh diakses oleh firma domestik yang lebih kecil dalam usaha untuk merangsang inovasi PKS.

    Soalan yang perlu dipertimbangkan

    • Jika anda bekerja dalam sektor AI, bagaimanakah organisasi anda membangunkan model AI yang lebih mampan terhadap alam sekitar?
    • Apakah kemungkinan akibat jangka panjang model AI yang mahal?

    Rujukan wawasan

    Pautan popular dan institusi berikut telah dirujuk untuk cerapan ini: