Perusahaan Kecerdasan Buatan (AI) Sesame Resmi Merilis Mesin di Balik Asisten Suara Maya

Genvoice.Id - Jumat, 2025 Maret 14 - 17:15 WIB

JAKARTA, GENVOICE.ID - Perusahaan kecerdasan buatan (AI) Sesame resmi merilis model dasar yang menjadi kekuatan di balik Maya, asisten suara yang mengesankan dengan realisme luar biasa. Model ini, yang diberi nama CSM-1B, memiliki 1 miliar parameter, memiliki komponen individu dalam sistem AI dan dirilis dengan lisensi Apache 2.0. Artinya, model ini dapat digunakan secara komersial dengan sedikit pembatasan.

Dilansir dari TechCrunch, CSM-1B menghasilkan "RVQ audio codes" dari input teks dan audio, sebagaimana dijelaskan dalam platform pengembang AI, Hugging Face. RVQ, atau "residual vector quantization," adalah teknik pengkodean audio ke dalam token diskrit yang digunakan dalam berbagai teknologi audio AI terbaru, termasuk SoundStream dari Google dan Encodec dari Meta.

Perusahaan Kecerdasan Buatan (AI) Sesame Resmi Merilis Mesin di Balik Asisten Suara Maya — - (Dok. Bryce Durbin).

Model ini menggunakan model dari keluarga Llama milik Meta sebagai tulang punggungnya, dikombinasikan dengan komponen "decoder" audio. Sesame mengungkapkan bahwa versi yang telah disempurnakan dari CSM-1B menjadi dasar bagi Maya, asisten suara andalannya.

"Model yang diopen-source ini adalah model dasar generasi suara. Model ini mampu menghasilkan berbagai jenis suara, tetapi belum dioptimalkan untuk suara tertentu. Model ini juga memiliki sedikit kemampuan dalam bahasa non-Inggris akibat kontaminasi data dalam proses pelatihannya, namun performanya kemungkinan tidak optimal," tulis Sesame dalam repositori Hugging Face dan GitHub mereka.

Baca Juga:

Kunjungan Mengejutkan CEO Nvidia ke Beijing di Tengah Ketegangan Dagang AS-Tiongkok

Meski begitu, tidak jelas data apa yang digunakan Sesame untuk melatih CSM-1B. Perusahaan tidak memberikan informasi lebih lanjut mengenai sumber datanya.

Model ini juga tampaknya tidak memiliki perlindungan keamanan yang memadai. Sesame hanya mengandalkan sistem kepercayaan dan mengimbau pengembang serta pengguna untuk tidak menyalahgunakan model ini untuk meniru suara seseorang tanpa izin, membuat konten yang menyesatkan seperti berita palsu, atau melakukan aktivitas berbahaya dan beritikad buruk.

Meski demikian, model ini tetap membuka celah bagi penyalahgunaan, karena pada saat sesi uji coba pada platform Hugging Face, cloning suara hanya memerlukan waktu kurang dari satu menit. Setelah itu, pengguna dapat dengan mudah menghasilkan ucapan sesuai keinginan mereka, termasuk dalam topik kontroversial seperti pemilu dan propaganda Rusia. Laporan dari Consumer Reports baru-baru ini juga memperingatkan bahwa banyak alat cloning suara berbasis AI di pasaran saat ini tidak memiliki perlindungan yang cukup untuk mencegah penipuan atau penyalahgunaan.

Sesame, yang didirikan oleh salah satu pencipta Oculus, Brendan Iribe, pertama kali viral pada akhir Februari berkat teknologi asisten suara yang nyaris melewati "uncanny valley", zona ketidaknyamanan dalam interaksi dengan AI yang terlalu mirip manusia. Maya dan asisten suara lainnya, Miles, mampu bernapas, berbicara dengan jeda alami, serta dapat disela saat berbicara, mirip dengan fitur Voice Mode milik OpenAI.