cpu-data.info

Model AI DeepSeek V-3 Versi Baru Dirilis, Makin Canggih dan Ungguli OpenAI

Ilustrasi DeepSeek
Lihat Foto

- Perusahaan kecerdasan buatan (artificial intelligence/AI) DeepSeek diam-diam merilis model AI versi baru bernama DeepSeek-V3-0324. Model ini merupakan versi penyempurnaan dari DeepSeek-V3 yang sudah ada sebelumnya.

Perilisannya disebut diam-diam karena model AI ini muncul di platform proyek AI, Hugging Face, tanpa pengumuman resmi apa pun dari perusahaan.

Model AI ini menawarkan performa yang mumpuni sebagaimana versi sebelumnya. Yang menarik, DeepSeek-V3-0324 juga bisa diadopsi langsung ke perangkat konsumen, walaupun model ini memiliki ukuran 641 gigabyte.

Baca juga: Tencent Rilis Model AI Hunyuan T1, Diklaim Lebih Kencang dari DeepSeek

Selain itu, model AI umumnya hanya dapat berjalan pada Graphics Processing Unit (GPU) yang ditujukan untuk data center. 

Namun menurut peneliti di Apple, Awni Hannun melalui media sosial X (dahulu Twitter), DeepSeek-V3-0324 bisa dijalankan di Apple Mac Studio dengan chip M3 Ultra.

"DeepSeek-V3-0324 baru 4-bit menjalankan lebih dari 20 token/detik pada (Apple Mac Studio) M3 Ultra 512 GB dengan mlx-lm!" kata Hannun di X dengan handle @awnihannun.

Walau harganya cukup tinggi, sekitar 9.499 dollar AS (sekitar Rp 157 juta) Mac Studio M3 Ultra masih tergolong perangkat konsumen karena tidak memakai GPU khusus atau chip AI.

Adapun penerapan DeepSeek-V3-0324 pada komputer tersebut melibatkan kuantisasi empat bit, yaitu teknik pengoptimalan model AI yang mengorbankan sebagian akurasi output, demi penggunaan memori dan latensi yang lebih rendah. 

Baca juga: Departemen Perdagangan AS Blokir DeepSeek

Peneliti AI, Xeophon juga menguji kebolehan model AI terbaru DeepSeek. Hasilnya, DeepSeek-V3 versi baru ini lebih baik dalam hal pemrograman dibanding versi sebelumnya. 

Dalam beberapa pengujian seperti saat model AI ini diminta menuliskan kode Python dan Bash, skornya sekitar 60 persen. Lebih tinggi dibanding DeepSeek-V3 maupun model AI Calude Sonet 3.5 milik Anthropic dan GPT 4o milik OpenAI.

Walau demikian, performanya masih lebih rendah bila dibandingkan dengan model AI penalaran (reasoning) DeepSeek-R1. Namun, bila dibandingkan dengan model AI non-reasoning, DeepSeek-V3-0324 bisa dibilang yang paling unggul. Apalagi model ini tersedia secara gratis.

Lantas bagimana DeepSeek-V3-0324 bisa sehebat itu?

Dilansir VentureBeat, DeepSeek-V3-0324 menggunakan arsitektur mixture-of-experts (MoE), yaitu teknik untuk menata ulang cara kerja model AI.

Baca juga: Baidu Rilis Ernie X1 dan Ernie 4.5, Model AI Penantang DeepSeek dan OpenAI

Model AI pada umumnya mengaktifkan seluruh jumlah parameternya untuk setiap tugas. Namun DeepSeek hanya mengaktifkan sekitar 37 miliar dari total 685 miliar parameternya selama tugas tertentu.

Pemilihan ini pada akhirnya membuat model jadi lebih efisien. Karena hanya perlu mengaktifkan prameter yang paling relevan untuk setiap tugas tertentu. 

Konsep ini juga membuat DeepSeek bisa memiliki performa yang sebanding dengan model AI lainnya (yang mengerahkan seluruh parameter sekaligus), sembari meminimalisasi tuntutan komputasi.

Tidak hanya itu, DeepSeek-V3-0324 juga menerapkan dua teknologi lainnya yaitu Multi-Head Latent Attention (MLA) and Multi-Token Prediction (MTP). MLA dapat meningkatkan kemampuan model dalam mempertahankan konteks pada teks yang panjang.

Baca juga: CEO Nvidia Komentari DeepSeek: Banyak yang Salah Paham

Sementara itu MTP dapat menghasilkan beberapa token per tahap, bukan lagi satu per satu seperti model tradisional, sebagaimana dirangkum KompasTekno dari VentureBeat, Rabu (26/3/2025).

DeepSeek-V3-0324 sendiri dirilis di bawah lisensi MIT, bukan dengan lisensi custom open-source seperti versi sebelumnya. Dengan begitu, para pengembang dapat menggunakan model AI tersebut untuk proyek komersial hingga memodifikasinya tanpa batasan.

Terkini Lainnya

Tautan Sahabat