Heri Jaya Pengalaman 6 Februari 2026 pukul 09.45

Catatan Pengalaman Membangun Voice Assistant di Awal 2026

Ada satu fase dalam proses membangun sistem berbasis suara yang jarang dibicarakan secara jujur: fase menyerah. Bukan karena tidak bisa, bukan karena bodoh, dan bukan karena teknologinya rusak. Tapi karena kita akhirnya menyentuh batas nyata teknologi saat ini.

Tulisan ini adalah catatan pengalaman pribadi ketika mencoba membangun voice assistant untuk konteks nyata—bukan demo, bukan presentasi, tapi lingkungan hidup: MAXsi POS sistem asisten toko, kasir, suara berisik, orang bicara dari jauh, dan sistem yang diharapkan langsung paham.

Awalnya Terlihat Mudah

Secara teori, semuanya tampak sederhana:

Mic mendengar suara
Speech-to-Text (STT) mengubahnya menjadi teks
Sistem memahami maksudnya
Text-to-Speech (TTS) menjawab dengan suara yang natural

Di atas kertas, alurnya rapi. Di tutorial YouTube, semuanya terlihat berjalan mulus. Bahkan dokumentasi resmi pun seolah memberi kesan: tinggal pasang, langsung jadi.

Kenyataannya jauh berbeda.

Ketika Sistem Selalu “Mendengar”

Masalah pertama muncul saat sistem dibuat selalu mendengarkan. Mic aktif terus. Tidak ada tombol. Tidak ada wake word. Harapannya sederhana: ketika orang bicara, sistem otomatis tahu.

Yang terjadi justru sebaliknya.

Sistem mendengar semuanya:

suara kipas
langkah kaki
orang lain berbicara
gema ruangan
jeda yang bagi manusia jelas, tapi bagi mesin tidak

Speech-to-Text pun bekerja sesuai tugasnya: menulis apa pun yang terdengar. Ketika suaranya tidak jelas, ia tidak diam. Ia mencoba menyelesaikan. Dan di situlah masalah bermula.

Dari Salah Dengar Menjadi Halusinasi

Awalnya hanya salah kata. Masih bisa dimaklumi.

Tapi ketika sistem dipaksa mendengar terus-menerus, hasilnya berubah menjadi sesuatu yang lebih aneh:

kata diulang-ulang
kalimat panjang yang terasa “masuk akal” tapi tidak relevan
bahkan kadang muncul bahasa lain

Ini bukan bug. Ini perilaku normal model AI ketika:

dianggap selalu ada ucapan
tidak diberi batas awal dan akhir kalimat
dipaksa menghasilkan teks tanpa konteks yang utuh

Dalam kondisi seperti ini, bukan hanya STT yang bermasalah. TTS pun ikut memperparah keadaan, karena ia dengan patuh membacakan teks apa pun yang diberikan kepadanya.

Mencari yang “Lebih Baik”, Tapi Tetap Sama

Lalu mulailah fase mencoba semuanya:

ganti model
naik dari small ke medium
pakai model khusus bahasa
ganti engine TTS
atur ulang parameter
tuning audio

Hasilnya? Tidak ada yang benar-benar menyelesaikan akar masalah.

Karena masalahnya bukan di kualitas model semata, tapi di ekspektasi:

berharap sistem selalu mendengarkan dan selalu menghasilkan kalimat bermakna.

Ekspektasi ini, sayangnya, belum bisa dipenuhi teknologi saat ini, baik open-source maupun komersial.

Kesadaran Paling Penting

Ada satu titik ketika akhirnya jelas:

Tidak ada TTS atau STT yang “sempurna” untuk kondisi dunia nyata yang bebas dan berisik.

Yang ada hanyalah sistem yang:

cukup baik jika dibatasi
cukup stabil jika tahu kapan harus diam
cukup aman jika tidak dipaksa selalu menjawab

Ini bukan kelemahan, tapi realitas desain sistem suara.

Diam Itu Fitur

Pelajaran terpenting dari seluruh proses ini justru sederhana:

Diam adalah fitur, bukan bug.

Sistem yang baik bukan yang paling sering bicara, tapi yang:

bicara hanya saat yakin
meminta ulang saat ragu
tidak memaksakan jawaban

Kalimat seperti:

“Maaf, bisa diulangi?”

ternyata jauh lebih profesional daripada jawaban panjang tapi salah.

Mengubah Definisi “Berhasil”

Awalnya, definisi sukses adalah:

sistem selalu aktif, selalu paham, selalu menjawab dengan natural.

Definisi ini hampir pasti berujung frustrasi.

Definisi yang lebih waras adalah:

sistem kadang diam, kadang bertanya ulang, tapi tidak pernah memalukan.

Dengan definisi ini, teknologi yang sama tiba-tiba terasa jauh lebih masuk akal.

Penutup

Menyerah bukan berarti gagal. Kadang, itu tanda bahwa kita sudah cukup paham untuk tahu batasnya.

Voice assistant bukan soal mencari TTS atau STT yang paling canggih, tapi soal:

kapan sistem harus mendengar
kapan harus menulis
dan kapan harus diam

Dan sampai hari ini, belum ada mesin yang bisa menggantikan intuisi manusia sepenuhnya dalam urusan itu.

Mungkin suatu hari nanti. Tapi hari ini, menerima kenyataan ini justru membuat kita membangun sistem yang lebih jujur, lebih stabil, dan lebih manusiawi.