Ilmiah Populer : Speech Recognition Technology

 

Bayangkan, suatu pagi kita bangun tidur dan segera berkata, “Komputer, hidup”, dan seketika itu juga PC yang dilengkapi dengan mikrofon yang sensitif itu aktif dan siap menerima instruksi kita selanjutnya. “Buka MS-Word”, demikian perintah yang mungkin kita berikan, dan sebuah software pengolah kata pun segera tampil di layar monitor. Setelah kita berkata “Catat”, maka komputer akan siap mencatat apa-apa saja yang kita katakan… sampai kemudian kita berkata, “Berhenti mencatat!”

 

Sepuluh tahun yang lalu, ilustrasi diatas mungkin hanya sekedar fiksi ilmiah, namun kini hal itu semakin mendekati kenyataan. Teknologi pengenalan suara (speech recognition) sudah mulai berkembang sejak awal 1980-an, ketika teknologi komputer mulai berkembang dengan pesat. Para ahli terus mengembangkan komputer supaya lebih mudah digunakan (user-friendly). Graphical User Interface (GUI) dikembangkan  dengan tujuan untuk mempermudah penggunaan komputer melalui penggunaan simbol-simbol dan tampilan grafis yang intuitif dan mudah dimengerti. Sejalan dengan GUI, speech recognition diharapkan dapat mempermudah beberapa penggunaan komputer dalam pekerjaan sehari-hari, dimana perintah-perintah yang diberikan kepada komputer dapat disampaikan hanya dengan perintah lisan, tanpa perlu menggunakan keyboard atau mouse.

 

Fakta bahwa manusia lebih dahulu mengenal kata-kata, sebelum mengenal tulisan, menunjukkan bahwa kata-kata lisan jauh lebih “alami” dan universal dibandingkan dengan kata-kata dalam tulisan. Kata-kata lisan juga cukup efisien, dimana rata-rata orang mampu mengungkapkan suatu teks secara lisan 5 kali lebih cepat daripada mengetik, dan 10 kali lebih cepat daripada menulis tangan. Selain itu, untuk mengatakan sesuatu secara lisan, seseorang yang normal tidak memerlukan alat bantu khusus.

 

Sebuah sistem komputer yang mampu mengenali suara dan menerjemahkannya ke dalam kata-kata yang dapat dimengerti merupakan sebuah sistem yang cukup kompleks. Setidaknya ada tiga komponen penting, yaitu microphone, sound card, processor, dan software. Suara yang kita keluarkan dari mulut akan diubah menjadi sinyal-sinyal elektrik oleh microphone, kemudian sinyal elektrik dari microphone akan didigitasi ke dalam format digital oleh sound card. Software speech recognizer akan berusaha mengenali pola-pola fonetis dari gelombang suara yang telah terdigitasi tadi dan menyusun kata-kata dari pola-pola tersebut. Kata-kata yang berhasil dikenali dapat digunakan sebagai instruksi langsung kepada komputer (misalnya menghidupkan atau mematikan komputer, menjalankan software tertentu, dan lain-lain) maupun dicatat oleh komputer dan ditampilkan secara langsung di layar monitor sebagai teks yang siap diedit lebih lanjut.

 

Kendala utama yang harus dihadapi adalah adanya variasi dari perkataan tiap-tiap orang. Tiap orang mempunyai gaya bicara dan cara pengucapan yang berbeda-beda. Dialek dan aksen lokal juga mempengaruhi cara pengucapan suatu kata. Software yang bertugas mengenali pola-pola gelombang suara harus mampu melakukan proses pengenalan kata secara luwes, yang dapat mengakomodasi adanya variasi dalam pengucapan kata-kata. Disinilah peranan logika samar-samar (fuzzy logic) dalam dunia ilmu komputer menjadi sangat penting.

 

Ada tiga metode yang digunakan oleh para pembuat software yang berkaitan dengan speech recognition ini. Metode yang pertama adalah merancang sistem yang dapat mengenali sejumlah kecil kata yang diucapkan oleh sejumlah besar pengguna. Metode ini terbukti cukup akurat dan dapat diandalkan. Metode kedua adalah sistem yang dapat mengenali sejumlah besar kata yang diucapkan oleh seorang pengguna saja. Metode ini juga cukup akurat. Metode yang ketiga adalah sistem yang mampu “belajar” mengenali pola kata-kata si pembicara dan mencoba menerapkan hasil pengenalan pola kata-kata itu untuk mengenali kata-kata yang lain. Walaupun metode ini adalah metode yang cukup menjanjikan dalam pengembangannya di masa depan, namun saat ini, metode “pattern recognition and learning” ini masih dirasakan kurang akurat dibandingkan dengan dua metode yang lainnya.

 

Sejak tahun 1997, sejumlah produk software speech recognition beredar di pasaran, diantaranya adalah IBM ViaVoice, IBM VoiceType, Lernout & Hauspie, Dragon Naturally Speaking, dan Dragon Dictate. Kini Microsoft Corporation, market leader dalam sistem operasi komputer, memperkenalkan voice recognition dalam paket software terbarunya, Office XP. Seperti produk-produk pendahulunya, speech recognition engine dalam Office XP menawarkan fasilitas dictation, yaitu suatu fasilitas yang memungkinkan pengguna mendiktekan sebuah teks dan komputer mencatatnya, serta fasilitas voice command, dimana pengguna komputer dapat memberikan instruksi kepada komputer dengan mengatakannya secara lisan. Keakuratan dari sistem speech recognition sangat bergantung dari berbagai faktor, seperti kualitas microphone, kualitas soundcard, desain dari software,  kemampuan prosesor, dan tentu saja cara pengucapan kata-kata si pembicara. Fasilitas speech recognition dalam Office XP menawarkan keakuratan hingga 95%.

 

Bayangkan, betapa praktisnya menggunakan sebuah komputer palmtop dengan fasilitas voice recognition. Kita dapat menulis suatu artikel, mencari informasi di internet, mencatat jurnal harian, memeriksa kalender, mengirim email, semua itu hanya dengan berbekal kata-kata dalam bahasa kita sendiri…. Semua itu akan menjadi kenyataan dalam waktu dekat.

 

Setidaknya, saat ini teknologi “asisten pribadi” itu sudah ada dan dapat digunakan di komputer desktop kita, dengan syarat komputer kita cukup bertenaga untuk itu. Jadi jangan berharap kita dapat memanfaatkan fasilitas speech recognition dari Office XP secara optimal pada sebuah komputer dengan kecepatan prosesor dibawah 400 MHz dan memori kurang dari 128 MB!

 

Sayang sekali, semua perangkat voice recognition yang dikawinkan dengan sistem software perkantoran (office systems) yang beredar di pasaran, seperti Office XP, hanya dapat mengenali kata-kata dalam Bahasa Inggris, maupun bahasa-bahasa “populer” lainnya, seperti Bahasa Perancis dan Spanyol. Belum ada yang mendukung penggunaan Bahasa Indonesia secara penuh. Jadi, sepertinya kita perlu menunggu beberapa saat lagi untuk dapat menikmati teknologi pengenalan suara ini secara nyaman dalam bahasa kita sendiri. (Daniel ’99)

 

 

References:

Office XP help system

Encarta Encyclopedia

Encylopaedia Britannica

IBM ViaVoice help system