Terungkap! Begini Kisah di Balik AI OpenAI yang Mampu Menang Olimpiade Matematika

Senin, 04 Agustus 2025 - 08:00 WIB | Oleh : M Ihsan

JAKARTA, GENVOICE.ID - Tak banyak yang tahu bahwa di balik kesuksesan ChatGPT sebagai salah satu produk teknologi dengan pertumbuhan tercepat dalam sejarah, OpenAI secara diam-diam tengah membangun fondasi teknologi yang jauh lebih ambisius, yaitu menciptakan kecerdasan buatan (AI) yang benar-benar mampu "berpikir" dan menyelesaikan tugas seperti manusia.

Dilansir dari Tech Crunch, salah satu kunci utama dari ambisi ini berasal dari sebuah tim internal bernama MathGen, yang sejak 2022 bekerja melatih model AI untuk memecahkan soal-soal olimpiade matematika tingkat SMA. Tim ini termasuk Hunter Lightman, peneliti OpenAI yang menyaksikan langsung bagaimana ChatGPT meledak, sementara ia dan timnya diam-diam mengembangkan kemampuan penalaran matematis AI yang saat itu masih sangat lemah.

Kini, hasil kerja keras mereka membuahkan hasil luar biasa. Salah satu model OpenAI berhasil memenangkan medali emas di International Math Olympiad (IMO), sebuah kompetisi matematika paling prestisius di dunia. Pencapaian ini bukan sekadar soal angka, tetapi menandai kemajuan besar dalam pengembangan AI yang bisa menalar, fondasi penting untuk membangun agen AI yang mampu menyelesaikan tugas-tugas kompleks layaknya manusia di komputer.

ChatGPT mungkin lahir secara tak sengaja dari eksperimen kecil, namun upaya untuk menciptakan AI agents adalah proyek yang disengaja dan telah dikerjakan selama bertahun-tahun. CEO OpenAI Sam Altman pernah mengatakan dalam konferensi developer pertama mereka tahun 2023 bahwa masa depan adalah saat kita bisa cukup meminta komputer melakukan sesuatu, dan itu langsung dikerjakan. Impian ini perlahan menjadi nyata dengan diperkenalkannya model penalaran pertama OpenAI, yang diberi nama o1, pada akhir 2024.

Baca Juga:

Mitos atau Fakta: Apakah AI Benar-Benar Akan Menggantikan Pekerjaan Kita?

Keberhasilan o1 menjadi tonggak baru yang menjadikan 21 peneliti OpenAI yang mengembangkan model ini sebagai talenta paling diburu di Silicon Valley. Bahkan, CEO Meta Mark Zuckerberg dilaporkan merekrut lima dari mereka ke tim superintelligence baru Meta, dengan tawaran kompensasi fantastis mencapai lebih dari $100 juta.

Keunggulan model seperti o1 terletak pada teknik pelatihan berbasis reinforcement learning (RL), yang memungkinkan AI belajar dari umpan balik mengenai benar atau salah dalam lingkungan simulasi. Kombinasi RL dengan model bahasa besar (LLM) dan teknik test-time computation, yang memungkinkan AI menggunakan lebih banyak waktu dan komputasi saat menyelesaikan soal, menghasilkan model revolusioner yang disebut Strawberry. Model ini memperkenalkan pendekatan baru bernama chain-of-thought (CoT), di mana AI mampu menelusuri dan memverifikasi langkah-langkah logis sebelum memberikan jawaban.

Menurut peneliti OpenAI El Kishky, proses berpikir model ini menyerupai manusia, dapat menyadari kesalahan, mundur, bahkan tampak "frustrasi". Meskipun teknik-teknik tersebut bukan hal baru, kemampuan OpenAI dalam menggabungkannya secara unik menjadikan Strawberry dan o1 sebagai tonggak yang membentuk masa depan AI reasoning.

Setelah keberhasilan ini, OpenAI membentuk tim khusus bernama Agents di bawah pimpinan Daniel Selsam. Tim ini didedikasikan untuk membuat model AI mampu menyelesaikan tugas-tugas yang lebih kompleks dan bernuansa subjektif. Visi besarnya adalah menghadirkan AI agents yang benar-benar dapat menggantikan kerja manusia dalam berbagai aktivitas digital.