“Hai, Google. Kasih aku tebakan lucu, dong!”
“Halo Widya. Bacakan Al Quran surat Ar Rahman!”
“Alexa, play To The Bone by Pamungkas!”
Sadar atau tidak sadar, kita semakin sering berbicara dengan asisten virtual, seperti Google, Siri, Cortana, Widya Wicara atau Alexa. Berbicara dengan sistem digital sudah bukan hal yang baru bagi kita. Teknologi suara kini mulai menggantikan metode-metode lain yang mungkin lebih menguras energi, seperti mengetik, mengirim pesan, atau mengklik. Dengan teknologi suara, kita tidak lagi perlu menyentuh perangkat elektronik kita untuk memberikan perintah atau berkomunikasi.
Komunikasi yang terjadi antara manusia dengan perangkat elektronik tentu membutuhkan teknologi yang bisa mengonversi suara manusia sehingga bisa diterima oleh sistem komputer. Salah satu teknologinya yaitu teknologi Speech to Text (STT). Apa sih STT itu? Bagaimana cara kerjanya dan bagaimana STT bisa mempermudah kehidupan manusia sehari-hari?
Definisi speech to text (STT)
Sesuai dengan namanya, speech to text (STT) adalah sistem yang dapat mengubah suara menjadi tulisan atau teks. Sistem STT sudah dilatih untuk mengenali suara manusia, mengolahnya, menginterpretasikannya, dan akan mengonversi suara tersebut menjadi tulisan, sehingga memungkinkan berbagai perangkat seperti smartphone, tablet, komputer memahami kebutuhan manusia. Teknologi pengenalan suara manusia dan “membacanya” ini juga dikenal dengan istilah speech recognition atau voice recognition.
Cara kerja speech to text (STT)
Pada prinsipnya, sistem speech to text akan menerima input berupa suara manusia dan nantinya akan diubah menjadi teks. Meski terlihat simpel, kenyataannya cara kerja STT ini cukup tricky dan rumit, lho.
Kenapa rumit? Karena sistem ini digunakan oleh banyak sekali orang. Bayangkan betapa susahnya melatih kemampuan STT untuk memahami berbagai variasi bahasa, dialek, aksen, dan bahkan ungkapan yang digunakan user di seluruh dunia. Selain itu, sistem harus bisa membedakan antara suara manusia dan juga suara bising yang menjadi latar belakang rekaman, misalnya suara kendaraan atau suara teriakan orang, sehingga suara-suara bising itu bisa disaring dan tidak diterjemahkan oleh sistem.
Biar nggak ribet, Widya paparkan proses kerja speech to text secara sederhana ya:
- Terdapat dua elemen penting jika kita ingin menggunakan teknologi STT, yaitu mikrofon untuk menangkap dan merekam suara, serta koneksi internet. STT membutuhkan koneksi internet untuk terhubung pada server atau database.
- Ketika kita berbicara melalui mikrofon, device kita akan merekam suara yang kita sampaikan dan mengirimkannya ke server.
- Di server inilah sistem akan memecah audio rekaman ucapan menjadi bagian-bagian kecil yang disebut fonem. Urutan, kombinasi, dan konteks fonem inilah yang memungkinkan sistem menganalisis konteks dan sintaksis kata. Sistem akan menghubungkan pola dan mencocokkan kata-kata di database dengan kata yang kita ucapkan menggunakan algoritma dan data input sebelumnya.
- Selanjutnya, sistem akan membuat hipotesis tentang apa yang sebenarnya dikatakan pengguna. Setelah menentukan apa yang paling mungkin dikatakan pengguna, sistem akan mentranskripsikan percakapan menjadi teks. Begitulah sistem speech to text bekerja.
Proses yang rumit ini berlangsung hanya dalam sekejap mata saja. Semakin sering kita berkomunikasi dan menggunakan sistem speech to text, maka sistem akan semakin pintar, akurat, dan cepat dalam mengenali suara kita dan akan lebih jarang melakukan kesalahan dalam menangkap maksud kita. Ya, seperti anak kecil ketika pertama kali belajar untuk mengerti apa yang diucapkan oleh orang dewasa, sistem STT pun terus dilatih untuk memahami penggunaan bahasa dari para user. Bahkan bukan hanya bahasanya saja, melainkan juga dialek, aksen, dan konteks ucapan.
Penggunaan speech to text (STT)
Pada mulanya, speech to text hanya difungsikan untuk mempermudah aktivitas sederhana sehari-hari saja, seperti mengirim email atau pesan ke orang lain. Kini, STT sudah diaplikasikan hampir di semua bidang untuk membantu meningkatkan pelayanan dan efisiensi kerja. Misalnya di bidang pendidikan, bisnis, kesehatan, penyiaran, militer atau membantu disabilitas untuk belajar. Beberapa contoh penggunaan speech to text di antaranya:
- Notulensi. Fungsi notulensi atau dikte digital ini akan memungkinkan pengguna untuk mencatat suara dengan mudah dan langsung dikonversikan menjadi dokumen digital.
- Transkrip telepon customer service. Kemudahan transkrip otomatis akan membantu perusahaan untuk meningkatkan pelayanan. Perusahaan bisa mengetahui kebutuhan dan keluhan pelanggan secara cepat dengan mengubah audio menjadi teks.
- Subtitle video. STT juga kerap digunakan untuk mencantumkan caption pada video yang sedang terputar, sehingga informasi yang diterima oleh pengguna bukan hanya berupa gambar dan suara saja, tapi juga teks transkrip dari audio video tersbeut.
- Asisten virtual. Pengaplikasian STT pada asisten virtual akan meningkatkan produktivitas dan efisiensi dalam bisnis dan berbagai bidang lainnya, seperti pada penggunaan teknologi smart speaker.
Keuntungan menggunakan speech to text (STT)
- Mudah digunakan, hanya tinggal merekam suara atau mengunggah audio
- Teknologi speech to text atau speech recognition tersedia dalam berbagai bahasa
- Teks yang disalin akurat, sehingga bisa sangat memudahkan proses transkripsi data
- Menghemat waktu karena proses transkrip audio ke teks secara otomatis akan lebih cepat dibandingkan dengan metode manual
- Menghemat tenaga karena notulensi atau dokumen bisa langsung kita dapatkan tanpa mengetik menggunakan tangan
Kalau penasaran dengan speech to text, bisa langsung coba di laman demo STT Widya Wicara.
Referensi:
https://www.callrail.com/blog/speech-recognition-software/
https://scienceline.org/2014/08/ever-wondered-how-does-speech-to-text-software-work/
https://summalinguae.com/language-technology/how-does-speech-recognition-technology-work/
Sumber gambar: pexels.com/@george-milton