Gandeng Peneliti IST Austria, NeuralMagic, dan KAUST, Yandex Kembangkan Metode Kompresi LLM Inovatif

Sistem AQLM memanfaatkan pendekatan kuantisasi aditif atau pendekatan dalam memetakan himpunan besar menjadi himpunan kecil untuk melakukan kompresi LLM. Secara konvensional, pendekatan ini biasa digunakan untuk pengambilan informasi.

Lihat Foto

- Tim Riset Yandex bekerja sama dengan peneliti Institute of Science and Technology (IST) Austria, NeuralMagic, dan King Abdullah University of Science and Technology (KAUST). Kolaborasi ini berhasil mengembangkan dua metode kompresi inovatif untuk large language model (LLM), yakni Additive Quantization of Language Models (AQLM) dan PV-Tuning.

Dalam keterangan tertulis yang diterima , Selasa (23/7/2024), pengembangan kedua metode tersebut diklaim memungkinkan pengurangan ukuran model hingga 8 kali lipat sekaligus mempertahankan kualitas respons hingga 95 persen.

Adapun metode-metode tersebut dikembangkan untuk mengoptimalkan sumber daya dan meningkatkan efisiensi dalam menjalankan model bahasa yang besar.

Artikel penelitian yang merinci pendekatan tersebut telah dipaparkan dalam gelaran International Conference on Machine Learning (ICML) di Wina, Austria.

Sistem AQLM memanfaatkan pendekatan kuantisasi aditif atau pendekatan dalam memetakan himpunan besar menjadi himpunan kecil untuk melakukan kompresi LLM. Secara konvensional, pendekatan ini biasa digunakan untuk pengambilan informasi.

Metode yang dihasilkan pun mampu mempertahankan dan bahkan meningkatkan akurasi model di bawah kompresi ekstrem sehingga memungkinkan pemanfaatan LLM pada perangkat sehari-hari, seperti komputer di rumah dan smartphone. Bahkan, penggunaan memori bisa berkurang secara signifikan.

Sementara, PV-Tuning mampu mengatasi kesalahan yang mungkin timbul selama proses kompresi model.

Apabila digabungkan, AQLM dan PV-Tuning memberikan hasil yang optimal sehingga model mampu memberikan respons berkualitas tinggi, bahkan pada sumber daya penyimpanan yang terbatas.

Evaluasi dan pengenalan metode

Penilaian atau asesmen atas efektivitas metode tersebut dilakukan secara ketat menggunakan model-model sumber terbuka yang populer, seperti Llama 2, Llama 3, dan Mistral.

Para peneliti melakukan kompresi atas LLM serta mengevaluasi kualitas jawaban yang dihasilkan berdasarkan tolok ukur bahasa Inggris, yakni WikiText2 dan C4.

Hasil evaluasi menunjukkan bahwa metode tersebut mampu mempertahankan kualitas jawaban 95 persen secara mengesankan karena model-model tersebut dikompresi sebanyak 8 kali.

Lantas, siapa yang bisa mengambil manfaat dari AQLM dan PV-Tuning?

Baca juga: Polisi Telusuri SItus Web Yandex yang Menginspirasi Remaja di Makassar Bunuh Bocah 11 Tahun

Metode baru tersebut menawarkan penghematan sumber daya yang substansial bagi perusahaan yang terlibat dalam pengembangan dan penggunaan model bahasa berpemilik ataupun LLM sumber terbuka.

Sebagai contoh, model Llama 2 dengan 13 miliar parameter. Setelah dikompresi, model ini dapat berjalan hanya dengan 1 GPU, tak memerlukan hingga 4 GPU. Dengan demikian, biaya perangkat keras bisa dikurangi hingga 8 kali lipat.

Itu berarti, perusahaan rintisan, peneliti perorangan, dan penggemar LLM dapat menjalankan LLM tingkat lanjut seperti Llama di komputer mereka sehari-hari.

cpu-data.info

Gandeng Peneliti IST Austria, NeuralMagic, dan KAUST, Yandex Kembangkan Metode Kompresi LLM Inovatif

Evaluasi dan pengenalan metode

Terkini Lainnya

Tautan Sahabat