cpu-data.info

OpenAI Umumkan o3 dan o3-mini, Bisa Pecahkan Soal Matematika Level Dewa

Ilustrasi OpenAI.
Lihat Foto

- Perusahaan pembuat chatbot ChatGPT, OpenAI resmi mengumumkan dua model kecerdasan buatan (artificial intelligence/AI) terbarunya, o3 dan o3-mini.

o3 dan o3-mini merupakan model AI yang memiliki kemampuan bernalar (reasoning). Dengan kemampuan ini, kedua model AI tersebut diklaim mampu menyelesaikan sebuah persoalan dengan cara berpikir yang lebih logis, mirip seperti manusia. 

Seperti namanya, o3 merupakan suksesor dari o1 yang diperkenalkan September lalu. Kemudian o3-mini adalah model AI reasoning versi lebih ringan dan lebih murah dari o3, sekaligus merupakan penerus dari o1-mini.

Dalam sejumlah pengujian internal, OpenAI mengeklaim o3 jauh lebih pintar dari o1 untuk menyelesaikan berbagai persoalan matematika. Salah satunya adalah kompetisi matematika level "dewa" alias internasional, American Invitational Mathematics Exam (AIME) 2024.

Pada pengujian AIME 2024, o3 disebut mampu menyelesaikan hampir semua soal di kompetisi ini dengan nilai 96,7 persen (hanya salah satu soal). Di sisi lain, o1 hanya mampu mendapatkan skor 83,3 persen untuk pengujian serupa. 

Baca juga: OpenAI Akhirnya Rilis Sora, AI Pembuat Video dari Teks

Ilustrasi performa model AI reasoning OpenAI o1 dan o3 dalam menyelesaikan soal AIME 2024.x.com/@_kevinlu Ilustrasi performa model AI reasoning OpenAI o1 dan o3 dalam menyelesaikan soal AIME 2024.

o3-mini, dalam mode penalaran "High", juga diklaim lebih jago menjawab soal-soal AIME 2024 dibanding o1 dan o1-mini dengan skor 83,6 persen. o1-mini sendiri memiliki skor akhir 63,6 persen. 

Selain pengujian soal AIME 2024, OpenAI juga mengeklaim o3 dapat menjawab berbagai soal sains di level universitas yang tergabung dalam kelompok soal GPQA Diamond. Di pengujian ini, o3 mendapatkan skor 87,7 persen. 

o3, lanjut OpenAI, juga unggul di beberapa pengujian alias benchmark populer yang berkaitan dengan reasoning

Beberapa di antaranya seperti SWE-Bench Verified (programming) dengan skor 22,8 poin, Codeforces (coding) dengan skor 2.727 poin, serta Frontier Math milik EpochAI dengan kemampuan penyelesaian soal 25,2 persen. 

Performa benchmark ARC-AGI untuk model AI reasoning o1 dan o3.x.com/@fchollet Performa benchmark ARC-AGI untuk model AI reasoning o1 dan o3.

Di luar aneka benchmark di atas, o3 juga disebut memiliki performa nyaris sempurna untuk pengujian kebolehan Artificial General Intelligence (AGI), yaitu ARC-AGI.

Pengujian ini biasanya dipakai untuk mengetes apakah AI dapat memiliki kemampuan pola pikir seperti manusia atau tidak.

Dalam skala 0-100 persen, o3 memiliki skor performa ARC-AGI mencapai 76 persen untuk mode "Low" dan 88 persen untuk mode "High". Di sisi lain, o1 dalam hanya memiliki skor berkisar di angka 20-30 persen untuk berbagai mode, dari Low hingga High. 

Baca juga: Google Rilis Model AI Veo 2, Bikin Video dari Teks Makin Realistis

Tidak lebih cepat dari GPT-4o dan o1

Secara umum, model AI reasoning akan merespons pertanyaan atau kueri pengguna lebih lama dari model AI "reguler". Hal ini disebabkan karena o3 sejatinya akan berpikir dan menghitung berulang kali sebelum mereka menjawab respons dari pengguna. 

Ilustrasi performa model AI reasoning OpenAI o1 dan o3 dalam menyelesaikan soal AIME 2024.x.com/@_kevinlu Ilustrasi performa model AI reasoning OpenAI o1 dan o3 dalam menyelesaikan soal AIME 2024.

Ketika dibandingkan, o3 untuk mode High akan merespons pengguna 23 detik setelah kueri diterima. Pada ChatGPT yang memakai GPT-4o, proses ini hanya akan berlangsung sekitar 0,5 detik.

Terkini Lainnya

Tautan Sahabat