Apa Itu DeepSeek, Penantang ChatGPT dari China?
- DeepSeek sedang menjadi bahan pembicaraan di dunia teknologi. Startup artificial intelligence (AI) asal Tiongkok ini berhasil mencuri perhatian dengan model AI terbarunya, DeepSeek R1, yang disebut-sebut mampu menyaingi ChatGPT.
Bahkan, model ini sudah memuncaki App Store iOS dan membuat banyak orang penasaran. Dengan harga yang jauh lebih murah tapi performa setara dengan OpenAI, DeepSeek membuka babak baru dalam persaingan teknologi antara Tiongkok dan Amerika Serikat.
Namun, DeepSeek tidak hanya menarik perhatian karena performanya yang tinggi. Startup ini juga memiliki pendekatan unik dalam mengembangkan model AI, yang membuatnya berbeda dari para pesaingnya di Amerika.
Jadi, apa sebenarnya DeepSeek itu, dan siapa yang ada di balik pengembangannya? Selengkapnya berikut ini KompasTekno mengulasnya.
Baca juga: AI DeepSeek Mendadak Jadi Aplikasi Terpopuler di App Store dan Play Store
Apa itu DeepSeek dan siapa yang mengembangkannya?
DeepSeek adalah model kecerdasan buatan (AI) inovatif asal Tiongkok yang menjadi pesaing serius ChatGPT dari OpenAI.
DeepSeek menawarkan dua model unggulan, DeepSeek-V3 dan DeepSeek-R1, yang diklaim memiliki efisiensi dan performa lebih baik dibandingkan model AI lain di pasar.
DeepSeek-V3 dirancang untuk memenuhi kebutuhan pengguna di berbagai bidang, mulai dari menjawab pertanyaan sehari-hari hingga menangani tugas-tugas kompleks, seperti perhitungan matematika dan pemecahan masalah logika.
Model ini disebut sebagai pesaing langsung GPT-4o milik OpenAI. Sementara itu, DeepSeek-R1, model terbaru mereka, dirancang dengan efisiensi yang lebih tinggi dan kemampuan untuk bersaing langsung dengan O1 dari OpenAI, terutama dalam tugas yang membutuhkan analisis data mendalam dan penalaran kompleks.
Dikembangkan oleh DeepSeek AI, sebuah startup yang berbasis di Hangzhou, Tiongkok, model ini menjadi sorotan karena menggabungkan efisiensi tinggi dengan biaya penggunaan yang jauh lebih rendah dibandingkan pesaingnya.
DeepSeek R1, misalnya, tidak hanya cepat dalam memproses informasi tetapi juga hemat sumber daya, membuatnya lebih terjangkau bagi banyak pengguna dibandingkan model sekelasnya.
Startup DeepSeek AI didirikan kurang dari dua tahun lalu oleh High Flyer, sebuah hedge fund Tiongkok dengan visi ambisius untuk mengembangkan artificial general intelligence (AGI).
Dalam waktu singkat, DeepSeek telah membangun reputasi sebagai pelopor AI global dengan menghadirkan model-model yang tak hanya canggih, tetapi juga mendorong persaingan harga di industri AI Tiongkok.
Hal ini memperkuat posisinya sebagai pemain utama dalam perkembangan teknologi AI modern.
Liang Wenfeng
Kesuksesan DeepSeek tidak lepas dari sosok pendirinya, Liang Wenfeng, yang memiliki visi besar untuk membawa Tiongkok ke garis depan inovasi kecerdasan buatan global.
Ia mengarahkan perusahaannya untuk fokus pada pengembangan artificial general intelligence (AGI), sebuah konsep kecerdasan buatan yang mampu berpikir dan membuat keputusan seperti manusia.
Salah satu nilai jual utama dari DeepSeek adalah efisiensi modelnya. DeepSeek-R1, model terbaru mereka, hanya membutuhkan biaya sekitar 6 juta dollar AS untuk pelatihan.
Ini menjadi angka yang jauh lebih kecil dibandingkan investasi besar yang dilakukan oleh pesaing seperti OpenAI. Dengan biaya rendah dan performa tinggi, DeepSeek telah menjadi simbol efisiensi dalam pengembangan teknologi AI.
Efisiensi ini tidak hanya berdampak pada pasar lokal, tetapi juga mulai mengguncang industri teknologi global. Banyak perusahaan besar, termasuk Meta dan OpenAI, mulai memperhatikan pendekatan DeepSeek untuk meningkatkan efisiensi model mereka sendiri.
Hal ini menegaskan bahwa meskipun DeepSeek adalah pemain baru, mereka sudah membawa perubahan signifikan dalam persaingan AI global.
Baca juga: Ironis, Sanksi AS ke China Justru Lahirkan AI DeepSeek Pembunuh ChatGPT
Model-model DeepSeek
Dilansir dari laman Time, DeepSeek memiliki dua model unggulan, yaitu DeepSeek-V3 dan DeepSeek-R1.
Kedua model ini dirancang untuk memenuhi kebutuhan yang berbeda, menawarkan efisiensi tinggi, dan menantang dominasi model AI terkemuka seperti GPT-4o dari OpenAI.
Meski berasal dari arsitektur dasar yang sama, keduanya memiliki fokus dan keunggulan yang membedakannya.
DeepSeek-V3, yang dirilis pada Desember 2024, adalah model berbasis Mixture-of-Experts (MoE) dengan total 671 miliar parameter. Namun, hanya 37 miliar parameter yang diaktifkan per token selama proses inferensi, membuatnya sangat efisien.
Model ini mampu menangani jendela konteks hingga 128.000 token dan menghasilkan output hingga 8.000 token.
Fokus utama DeepSeek-V3 adalah menyelesaikan tugas-tugas umum, seperti menjawab pertanyaan sehari-hari, memahami bahasa alami, dan menghasilkan konten kreatif. Model ini dirancang untuk memberikan solusi yang cepat dan efektif bagi pengguna dengan kebutuhan yang beragam.
Sementara itu, DeepSeek-R1, yang diluncurkan pada Januari 2025, mengambil langkah lebih jauh. Dibangun di atas fondasi DeepSeek-V3, model ini menggunakan teknik reinforcement learning untuk meningkatkan kemampuan penalaran (reasoning) dan pemecahan masalah kompleks.
Dengan kapasitas output yang diperluas hingga 32.000 token, DeepSeek-R1 dirancang untuk tugas-tugas yang membutuhkan analisis mendalam, seperti matematika tingkat lanjut, logika berantai, dan pemrograman.
Model ini tidak hanya unggul dalam memahami konteks yang kompleks, tetapi juga dalam menghasilkan respons yang lebih detail dan terstruktur.
Perbedaan utama antara keduanya terletak pada tujuan dan fokusnya. DeepSeek-V3 lebih cocok untuk tugas-tugas umum dengan efisiensi tinggi, sementara DeepSeek-R1 diarahkan untuk aplikasi yang membutuhkan kemampuan berpikir kritis dan pemecahan masalah yang mendalam.
Selain itu, kapasitas output DeepSeek-R1 yang lebih besar memungkinkan model ini memberikan jawaban yang lebih panjang dan komprehensif, menjadikannya ideal untuk skenario penggunaan yang lebih kompleks.
Mixture-of-Experts (MoE) dan Chain-of-Thought (CoT)
DeepSeek mengadopsi pendekatan teknologi inovatif untuk memastikan efisiensi dan performa tinggi dalam model AI mereka.
Mixture-of-Experts (MoE) adalah arsitektur yang memungkinkan model besar, seperti DeepSeek-V3, dengan total 671 miliar parameter, untuk hanya mengaktifkan 37 miliar parameter saat memproses setiap token. Pendekatan ini membuat model lebih hemat sumber daya tanpa mengorbankan kinerja.
Model lanjutan mereka, DeepSeek-R1, dilatih menggunakan teknik Chain-of-Thought (CoT), yang memecah pertanyaan kompleks menjadi langkah-langkah kecil sebelum memberikan jawaban akhir.
Dilansir dari The Register, dengan CoT, model tidak hanya menghasilkan respons yang lebih logis dan akurat, tetapi juga mampu mengidentifikasi dan memperbaiki kesalahan logika atau halusinasi data selama proses berpikirnya.
Baca juga: Jomplang, Biaya Bangun AI China DeepSeek ketimbang ChatGPT
Pemanfaatan Nvidia H800
Untuk melatih model-model ini, DeepSeek menggunakan 2.048 unit Nvidia H800 GPU, yang memiliki spesifikasi lebih rendah dibandingkan H100 yang sering digunakan perusahaan AI di AS.
Pelatihan memakan waktu sekitar 2.788 juta jam GPU, dengan biaya total sekitar 5.58 dollar juta AS. Efisiensi ini jauh melampaui model seperti GPT-4o, yang dilatih menggunakan ribuan chip H100 dan investasi puluhan miliar dolar.
Pembatasan ekspor chip oleh AS memaksa Tiongkok menggunakan chip seperti H800 yang memiliki performa lebih rendah. Namun, keterbatasan ini justru mendorong inovasi, seperti penggunaan teknik distillation.
Dengan teknik ini, model AI dilatih untuk fokus pada tugas-tugas spesifik, sehingga lebih efisien dalam hal konsumsi sumber daya, tanpa mengorbankan performa pada tugas tertentu.
Perbandingan biaya dengan model AI AS
Biaya pengembangan DeepSeek menunjukkan efisiensi luar biasa:
- DeepSeek-R1: Dilatih dalam waktu sekitar dua bulan dengan biaya sekitar 6 juta dollar AS atau sekitar Rp 97 milliar.
- GPT-4: Dilatih dengan biaya hingga 63 juta dollar AS atau sekitar Rp 1 triliun, menggunakan infrastruktur GPU yang jauh lebih mahal dan sumber daya lebih besar.
Meski menggunakan chip H800 yang lebih murah dan performanya dipangkas dibandingkan H100, DeepSeek berhasil mencapai kinerja yang sebanding atau lebih baik pada beberapa tolok ukur.
Ini menunjukkan bahwa efisiensi arsitektur dan teknik pelatihan dapat menjadi keunggulan kompetitif yang signifikan.
DeepSeek mengklaim kinerja yang unggul dibanding model-model AI terkenal lainnya pada sejumlah tolok ukur (benchmarks):
- DROP (3-shot F1): DeepSeek-V3 mencetak 91,6 poin, mengungguli Llama 3.1 (88,7), Claude 3.5 (88,3), dan GPT-4o (83,7).
- MATH-500: DeepSeek-V3 mencetak 90,2 poin, lebih tinggi dari Claude 3.5 (78,3) dan GPT-4o (74,6).
- AIME 2024: DeepSeek-V3 mencapai skor 39,2, jauh di atas Llama 3.1 (23,3) dan GPT-4o (9,3).
DeepSeek juga mengklaim bahwa DeepSeek-R1 mampu menyaingi dan bahkan melampaui OpenAI O1 di beberapa benchmark, termasuk dalam tes pemahaman konteks dan pemecahan masalah matematika.
Selengkapnya, berikut ini KompasTekno merangkum tabel perbandingan DeepSeek dan model AI dari Amerika Serikat.
Baca juga: DeepSeek, Penantang ChatGPT dari China Bikin Amerika Ketar-ketir
Tabel perbandingan DeepSeek dan Model ÅI
Aspek | DeepSeek |
Model AI AS (OpenAI, GPT-4) |
Teknologi utama |
- Mixture-of-Experts (MoE) untuk efisiensi parameter aktif - Chain-of-Thought (CoT) untuk pemecahan masalah logis |
- Model padat (dense models) - Penekanan pada pelatihan dengan dataset besar dan parameter penu |
Parameter model |
671 miliar (37 miliar aktif per token) |
Hingga 175 miliar parameter (semua aktif) |
Chip yang digunakan |
Nvidia H800 |
Nvidia H100 |
Jumlah Chip GPU |
2.048 unit |
Ribuan hingga puluhan ribu unit |
Biaya Pelatihan |
|
Hingga 63 juta dollar AS untuk GPT-4 |
Durasi Pelatihan | 2 bulan |
Beberapa bulan hingga satu tahun |
Benchmark Performansi |
|
|
Fokus Pengembangan |
Efisiensi biaya dan performa dalam tugas spesifik |
General-purpose AI untuk berbagai tugas |
Ketersediaan |
Open-source di Hugging Face dengan lisensi MIT |
Closed-source (kebanyakan model AS seperti GPT-4) |
Efisiensi Energi |
Lebih hemat energi dengan pendekatan MoE |
Konsumsi energi tinggi karena semua parameter aktif |
Keterbatasan |
|
|
Dapatkan update berita teknologi dan gadget pilihan setiap hari. Mari bergabung di Kanal WhatsApp KompasTekno.
Caranya klik link https://whatsapp.com/channel/0029VaCVYKk89ine5YSjZh1a. Anda harus install aplikasi WhatsApp terlebih dulu di ponsel.
Terkini Lainnya
- Samsung Galaxy S25 Series Punya Fitur "Best Face", Bikin Foto Anti-Gagal
- Apa Itu DeepSeek, Penantang ChatGPT dari China?
- Apakah Menutup Aplikasi di Background Bisa Bikin HP Kencang? Begini Penjelasannya
- iOS 18.3 Meluncur, Apple Intelligence Otomatis Aktif
- Cara Mengeluarkan Akun Google dari Perangkat Lain, Mudah dan Aman
- AI DeepSeek Datang, Saham Nvidia Terjun Bebas
- Salip ChatGPT, DeepSeek Kena Serangan Siber hingga Batasi Registrasi
- Jomplang, Biaya Bangun AI China DeepSeek ketimbang ChatGPT
- Daftar Harga Samsung Galaxy S25, Berikut Pilihan Warna dan Spesifikasinya
- Xiaomi Ungkap Strategi Tahun Ini, Siap "Tancap Gas"
- Ironis, Sanksi AS ke China Justru Lahirkan AI DeepSeek "Pembunuh" ChatGPT
- AI DeepSeek Mendadak Jadi Aplikasi Terpopuler di App Store dan Play Store
- Seperti Ini Penampakan Nyata iPhone "Murah" Terbaru
- Cara Menghilangkan Status Online di WhatsApp dengan Mudah dan Praktis
- Korea Utara Dituding Jadi Dalang Pencurian Kripto Rp 10 Triliun
- iOS 18.3 Meluncur, Apple Intelligence Otomatis Aktif
- Daftar Harga Samsung Galaxy S25, Berikut Pilihan Warna dan Spesifikasinya
- Salip ChatGPT, DeepSeek Kena Serangan Siber hingga Batasi Registrasi
- AI DeepSeek Datang, Saham Nvidia Terjun Bebas
- Ironis, Sanksi AS ke China Justru Lahirkan AI DeepSeek "Pembunuh" ChatGPT