OpenAI Umumkan o3 dan o3-mini, Bisa Pecahkan Soal Matematika Level Dewa
- Perusahaan pembuat chatbot ChatGPT, OpenAI resmi mengumumkan dua model kecerdasan buatan (artificial intelligence/AI) terbarunya, o3 dan o3-mini.
o3 dan o3-mini merupakan model AI yang memiliki kemampuan bernalar (reasoning). Dengan kemampuan ini, kedua model AI tersebut diklaim mampu menyelesaikan sebuah persoalan dengan cara berpikir yang lebih logis, mirip seperti manusia.
Seperti namanya, o3 merupakan suksesor dari o1 yang diperkenalkan September lalu. Kemudian o3-mini adalah model AI reasoning versi lebih ringan dan lebih murah dari o3, sekaligus merupakan penerus dari o1-mini.
Dalam sejumlah pengujian internal, OpenAI mengeklaim o3 jauh lebih pintar dari o1 untuk menyelesaikan berbagai persoalan matematika. Salah satunya adalah kompetisi matematika level "dewa" alias internasional, American Invitational Mathematics Exam (AIME) 2024.
Pada pengujian AIME 2024, o3 disebut mampu menyelesaikan hampir semua soal di kompetisi ini dengan nilai 96,7 persen (hanya salah satu soal). Di sisi lain, o1 hanya mampu mendapatkan skor 83,3 persen untuk pengujian serupa.
Baca juga: OpenAI Akhirnya Rilis Sora, AI Pembuat Video dari Teks
o3-mini, dalam mode penalaran "High", juga diklaim lebih jago menjawab soal-soal AIME 2024 dibanding o1 dan o1-mini dengan skor 83,6 persen. o1-mini sendiri memiliki skor akhir 63,6 persen.
Selain pengujian soal AIME 2024, OpenAI juga mengeklaim o3 dapat menjawab berbagai soal sains di level universitas yang tergabung dalam kelompok soal GPQA Diamond. Di pengujian ini, o3 mendapatkan skor 87,7 persen.
o3, lanjut OpenAI, juga unggul di beberapa pengujian alias benchmark populer yang berkaitan dengan reasoning.
Beberapa di antaranya seperti SWE-Bench Verified (programming) dengan skor 22,8 poin, Codeforces (coding) dengan skor 2.727 poin, serta Frontier Math milik EpochAI dengan kemampuan penyelesaian soal 25,2 persen.
Di luar aneka benchmark di atas, o3 juga disebut memiliki performa nyaris sempurna untuk pengujian kebolehan Artificial General Intelligence (AGI), yaitu ARC-AGI.
Pengujian ini biasanya dipakai untuk mengetes apakah AI dapat memiliki kemampuan pola pikir seperti manusia atau tidak.
Dalam skala 0-100 persen, o3 memiliki skor performa ARC-AGI mencapai 76 persen untuk mode "Low" dan 88 persen untuk mode "High". Di sisi lain, o1 dalam hanya memiliki skor berkisar di angka 20-30 persen untuk berbagai mode, dari Low hingga High.
Baca juga: Google Rilis Model AI Veo 2, Bikin Video dari Teks Makin Realistis
Tidak lebih cepat dari GPT-4o dan o1
Secara umum, model AI reasoning akan merespons pertanyaan atau kueri pengguna lebih lama dari model AI "reguler". Hal ini disebabkan karena o3 sejatinya akan berpikir dan menghitung berulang kali sebelum mereka menjawab respons dari pengguna.
Ketika dibandingkan, o3 untuk mode High akan merespons pengguna 23 detik setelah kueri diterima. Pada ChatGPT yang memakai GPT-4o, proses ini hanya akan berlangsung sekitar 0,5 detik.
Terkini Lainnya
- OpenAI Umumkan o3 dan o3-mini, Bisa Pecahkan Soal Matematika Level Dewa
- LG Rilis TV Transparan Nirkabel Pertama di Dunia, Harganya Nyaris Rp 1 Miliar
- Cara Download Peta Google Maps Offline biar Bisa Akses Tanpa Kuota
- Router Wi-Fi TP-Link Terancam Dilarang Dijual di AS
- Apa Itu Chatbot? Ini Dia Fungsi dan Cara Kerjanya
- Temuan Amnesty International: Polisi Serbia Mata-matai Ponsel Jurnalis Pakai Spyware
- Dibantu AI, E-mail Spam Gmail Turun 35 Persen
- Mengenal SSD dan HDD, Mana yang Lebih Cepat dan Efisien?
- 50 Link Gambar Ucapan Natal 2024 dan Tahun Baru 2025 yang Menarik
- 50 Link Download Poster Natal 2024 Menarik buat Membagikan Ucapan Selamat
- 100 Slang Gen Z Kekinian, Lengkap dengan Arti dan Contoh Penggunaannya
- Bisakah Menonaktifkan Meta AI di WhatsApp dan Instagram?
- Google Umumkan Gemini 2.0 Flash Thinking, AI yang Bisa Berpikir seperti Manusia
- Inikah Harga iPhone 16 Resmi di Indonesia?
- 30 Link Twibbon Hari Ibu 22 Desember 2024 dan Cara Buat Desainnya
- Pemakaian Cerdas dan Etis ChatGPT di Telepon dan WhatsApp (Bagian I)
- Temuan Amnesty International: Polisi Serbia Mata-matai Ponsel Jurnalis Pakai Spyware
- LG Rilis TV Transparan Nirkabel Pertama di Dunia, Harganya Nyaris Rp 1 Miliar
- Mengulik Lenovo Yoga Pro 7, Laptop Premium dengan Kecerdasan AI untuk Para Kreator
- Bocoran Tampang Samsung Galaxy S25 Plus dan S25 Ultra, Punya Sudut Berbeda