OpenAI Umumkan o3 dan o3-mini, Bisa Pecahkan Soal Matematika Level Dewa

- Perusahaan pembuat chatbot ChatGPT, OpenAI resmi mengumumkan dua model kecerdasan buatan (artificial intelligence/AI) terbarunya, o3 dan o3-mini.
o3 dan o3-mini merupakan model AI yang memiliki kemampuan bernalar (reasoning). Dengan kemampuan ini, kedua model AI tersebut diklaim mampu menyelesaikan sebuah persoalan dengan cara berpikir yang lebih logis, mirip seperti manusia.
Seperti namanya, o3 merupakan suksesor dari o1 yang diperkenalkan September lalu. Kemudian o3-mini adalah model AI reasoning versi lebih ringan dan lebih murah dari o3, sekaligus merupakan penerus dari o1-mini.
Dalam sejumlah pengujian internal, OpenAI mengeklaim o3 jauh lebih pintar dari o1 untuk menyelesaikan berbagai persoalan matematika. Salah satunya adalah kompetisi matematika level "dewa" alias internasional, American Invitational Mathematics Exam (AIME) 2024.
Pada pengujian AIME 2024, o3 disebut mampu menyelesaikan hampir semua soal di kompetisi ini dengan nilai 96,7 persen (hanya salah satu soal). Di sisi lain, o1 hanya mampu mendapatkan skor 83,3 persen untuk pengujian serupa.
Baca juga: OpenAI Akhirnya Rilis Sora, AI Pembuat Video dari Teks

o3-mini, dalam mode penalaran "High", juga diklaim lebih jago menjawab soal-soal AIME 2024 dibanding o1 dan o1-mini dengan skor 83,6 persen. o1-mini sendiri memiliki skor akhir 63,6 persen.
Selain pengujian soal AIME 2024, OpenAI juga mengeklaim o3 dapat menjawab berbagai soal sains di level universitas yang tergabung dalam kelompok soal GPQA Diamond. Di pengujian ini, o3 mendapatkan skor 87,7 persen.
o3, lanjut OpenAI, juga unggul di beberapa pengujian alias benchmark populer yang berkaitan dengan reasoning.
Beberapa di antaranya seperti SWE-Bench Verified (programming) dengan skor 22,8 poin, Codeforces (coding) dengan skor 2.727 poin, serta Frontier Math milik EpochAI dengan kemampuan penyelesaian soal 25,2 persen.

Di luar aneka benchmark di atas, o3 juga disebut memiliki performa nyaris sempurna untuk pengujian kebolehan Artificial General Intelligence (AGI), yaitu ARC-AGI.
Pengujian ini biasanya dipakai untuk mengetes apakah AI dapat memiliki kemampuan pola pikir seperti manusia atau tidak.
Dalam skala 0-100 persen, o3 memiliki skor performa ARC-AGI mencapai 76 persen untuk mode "Low" dan 88 persen untuk mode "High". Di sisi lain, o1 dalam hanya memiliki skor berkisar di angka 20-30 persen untuk berbagai mode, dari Low hingga High.
Baca juga: Google Rilis Model AI Veo 2, Bikin Video dari Teks Makin Realistis
Tidak lebih cepat dari GPT-4o dan o1
Secara umum, model AI reasoning akan merespons pertanyaan atau kueri pengguna lebih lama dari model AI "reguler". Hal ini disebabkan karena o3 sejatinya akan berpikir dan menghitung berulang kali sebelum mereka menjawab respons dari pengguna.

Ketika dibandingkan, o3 untuk mode High akan merespons pengguna 23 detik setelah kueri diterima. Pada ChatGPT yang memakai GPT-4o, proses ini hanya akan berlangsung sekitar 0,5 detik.
Terkini Lainnya
- Memegang Realme 14 Pro Langsung di Barcelona, HP dengan Cangkang Unik
- 12 HP Android Terbaru yang Rilis di Indonesia, Harga Mulai Rp 1 Jutaan
- Buka Hari Ini Jam 16.00, Ini Link Pendaftaran Mudik Kemenhub 2025, Jadwal, dan Rutenya
- Komdigi Gandeng Polri, Gelar Operasi Bersama Tangani Kasus "Fake BTS"
- Harga iPhone 11 Second Terbaru, Masih Banyak Peminatnya
- 5 TWS Harga Rp 200.000-an dari Berbagai Merek, Tahan Percikan Air dan Debu
- Kejutan, Sony Tiba-tiba Rilis Update Software Konsol 19 Tahun Ini
- Link dan Cara Daftar Mudik Gratis Pemprov Jatim 2025, Buka Hari Ini Pukul 09.00
- Melihat Langsung Ponsel Lipat Tiga Samsung, Bukti Flex G dan Flex S Bukan Rumor
- Bos ZTE: Indonesia Salah Satu Pasar Terbesar Kami
- AS Akan Wajibkan Imigran Setor Akun Media Sosial untuk Izin Tinggal
- Microsoft "Suntik Mati" Software Berusia 35 Tahun Ini
- 5 Contoh Surat Lamaran Kerja via Email yang Benar dalam Bahasa Indonesia dan Inggris
- Alibaba Rilis Model AI QwQ-32B, Diklaim Ungguli OpenAI dan DeepSeek
- 2 Cara Membuat Kolom Tanda Tangan di Microsoft Word dengan Mudah dan Praktis
- Melihat Langsung Ponsel Lipat Tiga Samsung, Bukti Flex G dan Flex S Bukan Rumor
- Pemakaian Cerdas dan Etis ChatGPT di Telepon dan WhatsApp (Bagian I)
- Temuan Amnesty International: Polisi Serbia Mata-matai Ponsel Jurnalis Pakai Spyware
- LG Rilis TV Transparan Nirkabel Pertama di Dunia, Harganya Nyaris Rp 1 Miliar
- Mengulik Lenovo Yoga Pro 7, Laptop Premium dengan Kecerdasan AI untuk Para Kreator
- Bocoran Tampang Samsung Galaxy S25 Plus dan S25 Ultra, Punya Sudut Berbeda