Catatan Pengalaman Membangun Voice Assistant di Awal 2026
Tulisan ini adalah catatan pengalaman pribadi ketika mencoba membangun voice assistant untuk konteks nyata—bukan demo, bukan presentasi, tapi lingkungan hidup: MAXsi POS sistem asisten toko, kasir, suara berisik, orang bicara dari jauh, dan sistem yang diharapkan langsung paham.
Awalnya Terlihat Mudah
Secara teori, semuanya tampak sederhana:
- Mic mendengar suara
- Speech-to-Text (STT) mengubahnya menjadi teks
- Sistem memahami maksudnya
- Text-to-Speech (TTS) menjawab dengan suara yang natural
Di atas kertas, alurnya rapi. Di tutorial YouTube, semuanya terlihat berjalan mulus. Bahkan dokumentasi resmi pun seolah memberi kesan: tinggal pasang, langsung jadi.
Kenyataannya jauh berbeda.
Ketika Sistem Selalu “Mendengar”
Masalah pertama muncul saat sistem dibuat selalu mendengarkan. Mic aktif terus. Tidak ada tombol. Tidak ada wake word. Harapannya sederhana: ketika orang bicara, sistem otomatis tahu.
Yang terjadi justru sebaliknya.
Sistem mendengar semuanya:
- suara kipas
- langkah kaki
- orang lain berbicara
- gema ruangan
- jeda yang bagi manusia jelas, tapi bagi mesin tidak
Speech-to-Text pun bekerja sesuai tugasnya: menulis apa pun yang terdengar. Ketika suaranya tidak jelas, ia tidak diam. Ia mencoba menyelesaikan. Dan di situlah masalah bermula.
Dari Salah Dengar Menjadi Halusinasi
Awalnya hanya salah kata. Masih bisa dimaklumi.
Tapi ketika sistem dipaksa mendengar terus-menerus, hasilnya berubah menjadi sesuatu yang lebih aneh:
- kata diulang-ulang
- kalimat panjang yang terasa “masuk akal” tapi tidak relevan
- bahkan kadang muncul bahasa lain
Ini bukan bug. Ini perilaku normal model AI ketika:
- dianggap selalu ada ucapan
- tidak diberi batas awal dan akhir kalimat
- dipaksa menghasilkan teks tanpa konteks yang utuh
Dalam kondisi seperti ini, bukan hanya STT yang bermasalah. TTS pun ikut memperparah keadaan, karena ia dengan patuh membacakan teks apa pun yang diberikan kepadanya.
Mencari yang “Lebih Baik”, Tapi Tetap Sama
Lalu mulailah fase mencoba semuanya:
- ganti model
- naik dari small ke medium
- pakai model khusus bahasa
- ganti engine TTS
- atur ulang parameter
- tuning audio
Hasilnya? Tidak ada yang benar-benar menyelesaikan akar masalah.
Karena masalahnya bukan di kualitas model semata, tapi di ekspektasi:
berharap sistem selalu mendengarkan dan selalu menghasilkan kalimat bermakna.
Ekspektasi ini, sayangnya, belum bisa dipenuhi teknologi saat ini, baik open-source maupun komersial.
Kesadaran Paling Penting
Ada satu titik ketika akhirnya jelas:
Tidak ada TTS atau STT yang “sempurna” untuk kondisi dunia nyata yang bebas dan berisik.
Yang ada hanyalah sistem yang:
- cukup baik jika dibatasi
- cukup stabil jika tahu kapan harus diam
- cukup aman jika tidak dipaksa selalu menjawab
Ini bukan kelemahan, tapi realitas desain sistem suara.
Diam Itu Fitur
Pelajaran terpenting dari seluruh proses ini justru sederhana:
Diam adalah fitur, bukan bug.
Sistem yang baik bukan yang paling sering bicara, tapi yang:
- bicara hanya saat yakin
- meminta ulang saat ragu
- tidak memaksakan jawaban
Kalimat seperti:
“Maaf, bisa diulangi?”
ternyata jauh lebih profesional daripada jawaban panjang tapi salah.
Mengubah Definisi “Berhasil”
Awalnya, definisi sukses adalah:
sistem selalu aktif, selalu paham, selalu menjawab dengan natural.
Definisi ini hampir pasti berujung frustrasi.
Definisi yang lebih waras adalah:
sistem kadang diam, kadang bertanya ulang, tapi tidak pernah memalukan.
Dengan definisi ini, teknologi yang sama tiba-tiba terasa jauh lebih masuk akal.
Penutup
Menyerah bukan berarti gagal. Kadang, itu tanda bahwa kita sudah cukup paham untuk tahu batasnya.
Voice assistant bukan soal mencari TTS atau STT yang paling canggih, tapi soal:
- kapan sistem harus mendengar
- kapan harus menulis
- dan kapan harus diam
Dan sampai hari ini, belum ada mesin yang bisa menggantikan intuisi manusia sepenuhnya dalam urusan itu.
Mungkin suatu hari nanti. Tapi hari ini, menerima kenyataan ini justru membuat kita membangun sistem yang lebih jujur, lebih stabil, dan lebih manusiawi.