Heri Jaya Pengalaman 6 Februari 2026 pukul 09.45

Catatan Pengalaman Membangun Voice Assistant di Awal 2026

tidak-ada-tts-yang-sempurna-catatan-pengalaman.png Ada satu fase dalam proses membangun sistem berbasis suara yang jarang dibicarakan secara jujur: fase menyerah. Bukan karena tidak bisa, bukan karena bodoh, dan bukan karena teknologinya rusak. Tapi karena kita akhirnya menyentuh batas nyata teknologi saat ini.

Tulisan ini adalah catatan pengalaman pribadi ketika mencoba membangun voice assistant untuk konteks nyata—bukan demo, bukan presentasi, tapi lingkungan hidup: MAXsi POS sistem asisten toko, kasir, suara berisik, orang bicara dari jauh, dan sistem yang diharapkan langsung paham.


Awalnya Terlihat Mudah

Secara teori, semuanya tampak sederhana:

  1. Mic mendengar suara
  2. Speech-to-Text (STT) mengubahnya menjadi teks
  3. Sistem memahami maksudnya
  4. Text-to-Speech (TTS) menjawab dengan suara yang natural

Di atas kertas, alurnya rapi. Di tutorial YouTube, semuanya terlihat berjalan mulus. Bahkan dokumentasi resmi pun seolah memberi kesan: tinggal pasang, langsung jadi.

Kenyataannya jauh berbeda.


Ketika Sistem Selalu “Mendengar”

Masalah pertama muncul saat sistem dibuat selalu mendengarkan. Mic aktif terus. Tidak ada tombol. Tidak ada wake word. Harapannya sederhana: ketika orang bicara, sistem otomatis tahu.

Yang terjadi justru sebaliknya.

Sistem mendengar semuanya:

  • suara kipas
  • langkah kaki
  • orang lain berbicara
  • gema ruangan
  • jeda yang bagi manusia jelas, tapi bagi mesin tidak

Speech-to-Text pun bekerja sesuai tugasnya: menulis apa pun yang terdengar. Ketika suaranya tidak jelas, ia tidak diam. Ia mencoba menyelesaikan. Dan di situlah masalah bermula.


Dari Salah Dengar Menjadi Halusinasi

Awalnya hanya salah kata. Masih bisa dimaklumi.

Tapi ketika sistem dipaksa mendengar terus-menerus, hasilnya berubah menjadi sesuatu yang lebih aneh:

  • kata diulang-ulang
  • kalimat panjang yang terasa “masuk akal” tapi tidak relevan
  • bahkan kadang muncul bahasa lain

Ini bukan bug. Ini perilaku normal model AI ketika:

  • dianggap selalu ada ucapan
  • tidak diberi batas awal dan akhir kalimat
  • dipaksa menghasilkan teks tanpa konteks yang utuh

Dalam kondisi seperti ini, bukan hanya STT yang bermasalah. TTS pun ikut memperparah keadaan, karena ia dengan patuh membacakan teks apa pun yang diberikan kepadanya.


Mencari yang “Lebih Baik”, Tapi Tetap Sama

Lalu mulailah fase mencoba semuanya:

  • ganti model
  • naik dari small ke medium
  • pakai model khusus bahasa
  • ganti engine TTS
  • atur ulang parameter
  • tuning audio

Hasilnya? Tidak ada yang benar-benar menyelesaikan akar masalah.

Karena masalahnya bukan di kualitas model semata, tapi di ekspektasi:

berharap sistem selalu mendengarkan dan selalu menghasilkan kalimat bermakna.

Ekspektasi ini, sayangnya, belum bisa dipenuhi teknologi saat ini, baik open-source maupun komersial.


Kesadaran Paling Penting

Ada satu titik ketika akhirnya jelas:

Tidak ada TTS atau STT yang “sempurna” untuk kondisi dunia nyata yang bebas dan berisik.

Yang ada hanyalah sistem yang:

  • cukup baik jika dibatasi
  • cukup stabil jika tahu kapan harus diam
  • cukup aman jika tidak dipaksa selalu menjawab

Ini bukan kelemahan, tapi realitas desain sistem suara.


Diam Itu Fitur

Pelajaran terpenting dari seluruh proses ini justru sederhana:

Diam adalah fitur, bukan bug.

Sistem yang baik bukan yang paling sering bicara, tapi yang:

  • bicara hanya saat yakin
  • meminta ulang saat ragu
  • tidak memaksakan jawaban

Kalimat seperti:

“Maaf, bisa diulangi?”

ternyata jauh lebih profesional daripada jawaban panjang tapi salah.


Mengubah Definisi “Berhasil”

Awalnya, definisi sukses adalah:

sistem selalu aktif, selalu paham, selalu menjawab dengan natural.

Definisi ini hampir pasti berujung frustrasi.

Definisi yang lebih waras adalah:

sistem kadang diam, kadang bertanya ulang, tapi tidak pernah memalukan.

Dengan definisi ini, teknologi yang sama tiba-tiba terasa jauh lebih masuk akal.


Penutup

Menyerah bukan berarti gagal. Kadang, itu tanda bahwa kita sudah cukup paham untuk tahu batasnya.

Voice assistant bukan soal mencari TTS atau STT yang paling canggih, tapi soal:

  • kapan sistem harus mendengar
  • kapan harus menulis
  • dan kapan harus diam

Dan sampai hari ini, belum ada mesin yang bisa menggantikan intuisi manusia sepenuhnya dalam urusan itu.

Mungkin suatu hari nanti. Tapi hari ini, menerima kenyataan ini justru membuat kita membangun sistem yang lebih jujur, lebih stabil, dan lebih manusiawi.

Label: Pengalaman, Teknologi, AI, Voice Assistant, Refleksi