DeepMind Luncurkan Genie 3: Model Dunia Interaktif untuk Latih Agen AI Menuju Kecerdasan Umum
JAKARTA, GENVOICE.ID - Google DeepMind baru saja mengumumkan peluncuran Genie 3, model dunia (world model) terbaru yang dikembangkan sebagai landasan untuk melatih agen AI serbaguna. Dengan kemampuan membangun lingkungan interaktif secara real-time hanya dari teks, Genie 3 diposisikan sebagai langkah penting menuju pengembangan Artificial General Intelligence (AGI),kecerdasan buatan dengan kapabilitas menyerupai manusia.
Dalam sebuah konferensi pers, Shlomi Fruchter, Direktur Riset di DeepMind, menyebut Genie 3 sebagai "model dunia interaktif serbaguna pertama yang bekerja secara real-time." Tidak seperti model sebelumnya yang hanya beroperasi dalam lingkungan terbatas, Genie 3 dirancang untuk dapat membuat berbagai dunia, dari yang fotorealistik hingga imajinatif, dan menyesuaikannya secara dinamis hanya dengan input teks.
Berbasis pada pendahulunya, Genie 2, serta model generasi video DeepMind Veo 3, Genie 3 mampu menghasilkan simulasi dunia 3D berdurasi beberapa menit dalam resolusi 720p pada 24 fps. Ini merupakan peningkatan signifikan dibanding Genie 2, yang hanya mampu menyimulasikan lingkungan selama 10-20 detik.
Salah satu fitur yang paling menonjol adalah kemampuannya mempertahankan konsistensi fisika dalam simulasi yang dihasilkan. Menurut DeepMind, model ini dapat "mengingat" apa yang telah dihasilkan sebelumnya - kemampuan yang muncul secara alami dari arsitektur model, bukan karena pemrograman eksplisit.
"Model ini bersifat auto-regresif, menghasilkan satu frame demi satu frame," jelas Fruchter. "Untuk menentukan frame berikutnya, model harus melihat ke belakang - pada apa yang telah dihasilkan sebelumnya."
Kemampuan mengingat ini menjadi kunci agar simulasi dunia tetap logis dan realistis. Misalnya, dalam skenario dunia virtual, objek yang jatuh akan terus bergerak secara konsisten, memberi kesan pemahaman akan gravitasi dan hukum fisika - seperti bagaimana manusia menyimpulkan bahwa gelas di tepi meja akan jatuh.
Menurut DeepMind, kekuatan utama Genie 3 terletak pada potensinya untuk melatih agen AI embodied, yakni agen yang harus beroperasi dan belajar dalam lingkungan fisik atau virtual yang kompleks. Dengan tidak bergantung pada mesin fisika yang dikodekan secara manual, Genie 3 memungkinkan agen belajar dari pengalaman langsung, mirip seperti manusia.
"Model dunia seperti ini sangat penting untuk kemajuan menuju AGI," ungkap Jack Parker-Holder, ilmuwan riset dari tim Open-Endedness DeepMind. "Simulasi dunia realistis adalah tantangan besar, dan Genie 3 bertujuan untuk memecahkan hambatan itu."
Sebagai uji coba, DeepMind menggunakan Genie 3 untuk melatih agen SIMA (Scalable Instructable Multiworld Agent) dalam skenario gudang, dengan instruksi seperti "dekati mesin pemadat hijau terang" atau "berjalan ke arah forklift merah." Dalam semua kasus, agen mampu mencapai tujuannya secara efektif karena Genie 3 mampu menjaga konsistensi dunia sekeliling agen saat ia belajar dan bergerak.
Meski menjanjikan, Genie 3 belum sempurna. Misalnya, meskipun model diklaim mampu memahami fisika, beberapa demo menunjukkan kelemahan - seperti simulasi pemain ski yang tidak merepresentasikan gerakan salju secara akurat. Selain itu, interaksi antar agen masih terbatas, dan durasi simulasi hanya berlangsung beberapa menit, jauh dari kebutuhan pelatihan yang ideal dalam hitungan jam.
Kendati begitu, para peneliti menilai bahwa Genie 3 tetap merupakan langkah besar. Dengan membiarkan agen AI menjelajah, merencanakan, dan belajar dari pengalaman serta kesalahan, Genie 3 membuka peluang untuk pendekatan pembelajaran self-driven yang selama ini menjadi impian dalam riset AGI.
"Kita belum melihat momen seperti Move 37 untuk agen embodied, momen ketika agen benar-benar mengambil tindakan baru yang tak terduga dalam dunia nyata," kata Parker-Holder, merujuk pada langkah legendaris AI AlphaGo yang mengejutkan dunia saat melawan Lee Sedol di tahun 2016.