Teknologi serba berbasis kecerdasan buatan seperti smart speaker, chatbot, speech-to-text, dan lain sebagainya memang terdengar seperti teknologi yang baru ditemukan di masa sekarang. Tetapi sebenarnya teknologi-teknologi canggih tersebut ada yang sudah dikembangkan sejak 70 tahun yang lalu. Sudah dari 70 tahun pula, ternyata teknologi seperti speech-to-text sudah membantu banyak orang dari segala kalangan. Ingin tahu seperti apa perjalanan teknologi speech recognition yang akan menjadi cikal bakal teknologi speech-to-text? Mari kita simak bersama!
Sebelumnya, Apa itu Speed Recognition?
Speed recognition adalah mesin dengan teknologi berbasis kecerdasan buatan yang bekerja untuk mengidentifikasi ucapan manusia dan mengubahnya ke dalam bentuk tulisan. Speed recognition juga dikenal dengan nama ASR atau Automatic Speech Recognition. Teknologi inilah yang menjadi cikal bakal teknologi speech-to-text seperti yang kita kenal selama ini.
Sudah Ada Sejak 1952
Audrey yang dikembangkan oleh Bell Laboratories pada tahun 1952 menjadi sistem speech recognition pertama di dunia. Hanya saja Audrey difokuskan untuk mengenali angka-angka yang disebutkan oleh manusia. Akurasi Audrey dalam mengidentifikasi angka sebesar 97-99%
Meski Audrey dikatakan berhasil pada awal mula kemunculannya, tetapi tidak banyak mau ‘mengadopsi’ Audrey. Sebab untuk mendapatkan Audrey sendiri butuh biaya yang mahal dan sistemnya membutuhkan banyak energi substansial. Sehingga secara ekonomi Audrey tidak efisien dan hal tersebut tidak berhasil menarik perhatian investor juga pengembang. Selain itu Audrey juga kalah bersaing dengan sistem tombol angka manual yang telah banyak digunakan pada telepon di masa itu.
10 tahun kemudian…
Menyusul Bell Laboratories, IBM mengenalkan pada masyarakat teknologi speech recognition mereka yang diberi nama Shoebox. Shoebox secara resmi dikenalkan IBM pada tahun 1962, tepat 10 tahun sejak diluncurkannya Audrey.
Pada awal diluncurkannya, Shoebox dapat merespon hingga 16 kata dalam bahasa inggris yang terdiri dari angka 0 sampai 9 dan perintah perhitungan seperti tambah, kurang, dan sama dengan. Shoebox dioperasikan dengan cara berbicara melalui mikrofon yang terhubung dengan mesin, kemudian Shoebox akan mengubah perintah lisan ke dalam bentuk tulisan cetak. Mesin inilah yang menjadi awal dari pengembangan teknologi speech recognition secara global pada akhir tahun 60-an.
Kemudian pada awal tahun 70-an, Departemen Pertahanan dan Penelitian Negara Amerika Serikat melalui program SUR atau Speech Understand Research berhasil mengembangkan Carnegie Mellon’s Harpy’ Speech System yang dapat mengidentifikasi sampai dengan 1000 kata atau setara dengan jumlah kosakata yang dikuasai oleh anak berusia 3 tahun.
Kelahiran Era Voice Search dan Virtual Assistant
Hingga akhirnya di tahun 2001, akurasi dari teknologi speech recognition telah mendekati angka 80%. Sepuluh tahun berikutnya Apple.inc mulai mengembangkan dan mengaplikasikan teknologi ini untuk membentuk yang kita kenal dengan Siri. Sebelumnya Siri hanya digunakan untuk jadi mesin pencari berbasis suara dan seiring berjalannya waktu Siri menguasai banyak fitur yang dapat membantu penggunanya dalam berbagai macam hal layaknya seorang asisten.
Tidak mau kalah, pada tahun 2012, Google juga meluncurkan Google Voice Search yaitu mesin pencarian berbasis suara. Pada dekade 2010-an ini pengembangan teknologi speech recognition lebih masif dibandingkan pada tahun 1960-1970. Disebabkan oleh persaingan antar perusahaaan pengembang yang semakin kompetitif hingga muncul banyak teknologi Speech-To-Text dalam bentuk smart speaker, voice search, dan virtual assistant dari berbagai macam belahan dunia. Seperti Amazon Alexa, Google Home, dan Art Mi Smart Speaker.
Meski begitu teknologi ini masih jauh dari kata sempurna. Google Assistant sendiri hanya memiliki tingkat akurasi 83% persen dalam mode bahasa inggris. Belum saat kita berbicara tentang bahasa asing dari negara lain. Namun, melihat perkembangannya yang sangat pesat, Tidak menutup kemungkinan bahwa di masa depan segala teknologi akan didominasi oleh teknologi speech recognition.
Indonesia sendiri terdapat salah satu pengembang teknologi tersebut dan sudah mengaplikasikannya ke dalam teknologi yang kaya fitur. Widya Wicara dengan segenap hati serta membawa misi mulia mengembangkan teknologi Speech-To-Text bernama Speech-To-Text (STT) Widya Wicara yang dapat diaplikasikan ke dalam berbagai kebutuhan dan kepentingan.
STT Widya Wicara sendiri memiliki bahasa indonesia sebagai bahasa utama. Sehingga kamu tidak perlu khawatir dengan tingkat akurasi dari STT Widya Wicara. Teknologi satu ini pun telah terintegrasi ke dalam teknologi-teknologi lain yang juga dikembangkan oleh Widya Wicara seperti Smart Speaker Widya Wicara Prima dan Widya Notulensi. Dua teknologi tersebut masing-masing memiliki fitur-fitur pintar yang dapat memudahkan kehidupan sehari-hari kamu.
Jika kamu ingin mengetahui informasi lengkap tentang produk-produk Widya Wicara, kamu bisa langsung kunjungi www.widyawicara.com. Sekian tentang sejarah speech recognition, semoga informasi ini bermanfaat untuk Para Sahabat Widya. Sampai jumpa!
Sumber: https://unsplash.com/@possessedphotography