Geger Dunia AI! Startup Baru Raup Miliaran dari "Lingkungan Pelatihan" Rahasia yang Bisa Latih AI Menjadi Super Pintar

Genvoice.id | 22 Sep 2025

JAKARTA, GENVOICE.ID - Di balik kemajuan AI yang makin canggih, kini muncul tren baru yang digadang-gadang bakal menjadi lompatan terbesar sejak kemunculan ChatGPT: Reinforcement Learning (RL) Environments.

Selama bertahun-tahun, para CEO teknologi raksasa telah menjanjikan kehadiran agen AI yang mampu menjalankan berbagai aplikasi secara mandiri demi membantu pekerjaan manusia. Namun kenyataannya, ketika publik mencoba agen AI seperti ChatGPT Agent atau Comet dari Perplexity, yang terjadi justru kekecewaan, agen-agen ini masih terbatas dan mudah "tersesat" di dunia digital.

Disebut sebagai reinforcement learning environments, atau RL environments, teknik ini menciptakan simulasi kerja layaknya "video game membosankan" di mana AI bisa dilatih menyelesaikan tugas-tugas bertahap dan kompleks. Alih-alih hanya memberi respon teks, AI belajar mengambil tindakan nyata, seperti membuka browser, menavigasi situs, hingga membeli barang di Amazon, semua dilakukan dalam simulasi.

Tak butuh waktu lama, tren ini pun memunculkan gelombang startup baru yang didukung dana besar. Nama-nama seperti Mechanize dan Prime Intellect kini naik daun, dibarengi dengan perusahaan label data besar seperti Mercor dan Surge yang mengubah strategi demi mengejar potensi RL environments.

Menurut Jennifer Li, General Partner di Andreessen Horowitz, "Semua lab AI besar sedang membangun RL environments mereka sendiri. Tapi karena prosesnya sangat kompleks, mereka juga mencari vendor pihak ketiga dengan kualitas tinggi."

Saking menjanjikannya, startup seperti Mechanize bahkan berani menggaji engineer hingga 500.000 dolar AS per tahun hanya untuk membangun RL environments. Sementara itu, Mercor, yang telah bekerja sama dengan OpenAI, Meta, dan Anthropic, menyasar sektor-sektor khusus seperti hukum, kesehatan, dan pemrograman.

Bahkan perusahaan besar seperti Anthropic dikabarkan siap menggelontorkan lebih dari 1 miliar dolar AS dalam setahun untuk pengembangan RL environments.

Sebelumnya, kemajuan AI sangat tergantung pada dataset statis, kumpulan data yang sudah dilabeli untuk pelatihan model AI. Tapi kini, dunia bergerak ke arah simulasi interaktif. Alih-alih sekadar "menebak" jawaban, AI dilatih untuk berpikir dan bertindak layaknya manusia yang menggunakan komputer.

Konsep ini bukanlah hal baru. OpenAI pernah membangun proyek serupa bernama "Gym" pada 2016, dan DeepMind menggunakan teknik serupa saat AI mereka mengalahkan juara dunia Go. Namun perbedaannya, hari ini AI didukung oleh model transformer besar yang mampu belajar lebih luas dan kompleks.

Meski menjanjikan, banyak pihak tetap skeptis. Ross Taylor, mantan pemimpin riset AI Meta, memperingatkan bahwa RL environments rawan terhadap "reward hacking", situasi di mana AI 'menipu' sistem untuk mendapatkan nilai tinggi tanpa benar-benar menyelesaikan tugas.

Sherwin Wu, Kepala Teknik API di OpenAI, bahkan mengatakan ia "pesimis" terhadap startup RL environment karena perkembangan AI sangat cepat, dan kebutuhan lab AI sulit diantisipasi.

Investor dan tokoh AI ternama Andrej Karpathy, yang mendukung Prime Intellect, mengaku optimis terhadap environments, tapi ragu terhadap reinforcement learning itu sendiri.

"Aku optimis pada simulasi dan interaksi agen, tapi pesimis terhadap reinforcement learning secara spesifik," tulisnya.

Terlepas dari perdebatan, satu hal menjadi jelas: reinforcement learning environments adalah medan pertempuran baru di dunia AI.