Ilmiah
Populer : Speech Recognition Technology
Bayangkan,
suatu pagi kita bangun tidur dan segera berkata, “Komputer, hidup”, dan
seketika itu juga PC yang dilengkapi dengan mikrofon yang sensitif itu aktif dan
siap menerima instruksi kita selanjutnya. “Buka MS-Word”, demikian perintah
yang mungkin kita berikan, dan sebuah software pengolah kata pun segera tampil
di layar monitor. Setelah kita berkata “Catat”, maka komputer akan siap
mencatat apa-apa saja yang kita katakan… sampai kemudian kita berkata,
“Berhenti mencatat!”
Sepuluh
tahun yang lalu, ilustrasi diatas mungkin hanya sekedar fiksi ilmiah, namun kini
hal itu semakin mendekati kenyataan. Teknologi pengenalan suara (speech
recognition) sudah mulai berkembang sejak awal 1980-an, ketika teknologi
komputer mulai berkembang dengan pesat. Para ahli terus mengembangkan komputer
supaya lebih mudah digunakan (user-friendly). Graphical User Interface (GUI)
dikembangkan dengan tujuan untuk
mempermudah penggunaan komputer melalui penggunaan simbol-simbol dan tampilan
grafis yang intuitif dan mudah dimengerti. Sejalan dengan GUI, speech
recognition diharapkan dapat mempermudah beberapa penggunaan komputer dalam
pekerjaan sehari-hari, dimana perintah-perintah yang diberikan kepada komputer
dapat disampaikan hanya dengan perintah lisan, tanpa perlu menggunakan keyboard
atau mouse.
Fakta
bahwa manusia lebih dahulu mengenal kata-kata, sebelum mengenal tulisan,
menunjukkan bahwa kata-kata lisan jauh lebih “alami” dan universal
dibandingkan dengan kata-kata dalam tulisan. Kata-kata lisan juga cukup efisien,
dimana rata-rata orang mampu mengungkapkan suatu teks secara lisan 5 kali lebih
cepat daripada mengetik, dan 10 kali lebih cepat daripada menulis tangan. Selain
itu, untuk mengatakan sesuatu secara lisan, seseorang yang normal tidak
memerlukan alat bantu khusus.
Sebuah
sistem komputer yang mampu mengenali suara dan menerjemahkannya ke dalam
kata-kata yang dapat dimengerti merupakan sebuah sistem yang cukup kompleks.
Setidaknya ada tiga komponen penting, yaitu microphone, sound card, processor,
dan software. Suara yang kita keluarkan dari mulut akan diubah menjadi
sinyal-sinyal elektrik oleh microphone, kemudian sinyal elektrik dari microphone
akan didigitasi ke dalam format digital oleh sound card. Software speech
recognizer akan berusaha mengenali pola-pola fonetis dari gelombang suara yang
telah terdigitasi tadi dan menyusun kata-kata dari pola-pola tersebut. Kata-kata
yang berhasil dikenali dapat digunakan sebagai instruksi langsung kepada
komputer (misalnya menghidupkan atau mematikan komputer, menjalankan software
tertentu, dan lain-lain) maupun dicatat oleh komputer dan ditampilkan secara
langsung di layar monitor sebagai teks yang siap diedit lebih lanjut.
Kendala
utama yang harus dihadapi adalah adanya variasi dari perkataan tiap-tiap orang.
Tiap orang mempunyai gaya bicara dan cara pengucapan yang berbeda-beda. Dialek
dan aksen lokal juga mempengaruhi cara pengucapan suatu kata. Software yang
bertugas mengenali pola-pola gelombang suara harus mampu melakukan proses
pengenalan kata secara luwes, yang dapat mengakomodasi adanya variasi dalam
pengucapan kata-kata. Disinilah peranan logika samar-samar (fuzzy logic) dalam
dunia ilmu komputer menjadi sangat penting.
Ada
tiga metode yang digunakan oleh para pembuat software yang berkaitan dengan
speech recognition ini. Metode yang pertama adalah merancang sistem yang dapat
mengenali sejumlah kecil kata yang diucapkan oleh sejumlah besar pengguna.
Metode ini terbukti cukup akurat dan dapat diandalkan. Metode kedua adalah
sistem yang dapat mengenali sejumlah besar kata yang diucapkan oleh seorang
pengguna saja. Metode ini juga cukup akurat. Metode yang ketiga adalah sistem
yang mampu “belajar” mengenali pola kata-kata si pembicara dan mencoba
menerapkan hasil pengenalan pola kata-kata itu untuk mengenali kata-kata yang
lain. Walaupun metode ini adalah metode yang cukup menjanjikan dalam
pengembangannya di masa depan, namun saat ini, metode “pattern recognition and
learning” ini masih dirasakan kurang akurat dibandingkan dengan dua metode
yang lainnya.
Sejak
tahun 1997, sejumlah produk software speech recognition beredar di pasaran,
diantaranya adalah IBM ViaVoice, IBM VoiceType, Lernout &
Hauspie, Dragon Naturally Speaking, dan Dragon Dictate. Kini
Microsoft Corporation, market leader dalam sistem operasi komputer,
memperkenalkan voice recognition dalam paket software terbarunya, Office XP.
Seperti produk-produk pendahulunya, speech recognition engine dalam Office XP
menawarkan fasilitas dictation, yaitu suatu fasilitas yang memungkinkan
pengguna mendiktekan sebuah teks dan komputer mencatatnya, serta fasilitas voice
command, dimana pengguna komputer dapat memberikan instruksi kepada komputer
dengan mengatakannya secara lisan. Keakuratan dari sistem speech recognition
sangat bergantung dari berbagai faktor, seperti kualitas microphone, kualitas
soundcard, desain dari software, kemampuan
prosesor, dan tentu saja cara pengucapan kata-kata si pembicara. Fasilitas
speech recognition dalam Office XP menawarkan keakuratan hingga 95%.
Bayangkan,
betapa praktisnya menggunakan sebuah komputer palmtop dengan fasilitas voice
recognition. Kita dapat menulis suatu artikel, mencari informasi di internet,
mencatat jurnal harian, memeriksa kalender, mengirim email, semua itu hanya
dengan berbekal kata-kata dalam bahasa kita sendiri…. Semua itu akan menjadi
kenyataan dalam waktu dekat.
Setidaknya,
saat ini teknologi “asisten pribadi” itu sudah ada dan dapat digunakan di
komputer desktop kita, dengan syarat komputer kita cukup bertenaga untuk itu.
Jadi jangan berharap kita dapat memanfaatkan fasilitas speech recognition dari
Office XP secara optimal pada sebuah komputer dengan kecepatan prosesor dibawah
400 MHz dan memori kurang dari 128 MB!
Sayang
sekali, semua perangkat voice recognition yang dikawinkan dengan sistem software
perkantoran (office systems) yang beredar di pasaran, seperti Office XP, hanya
dapat mengenali kata-kata dalam Bahasa Inggris, maupun bahasa-bahasa
“populer” lainnya, seperti Bahasa Perancis dan Spanyol. Belum ada yang
mendukung penggunaan Bahasa Indonesia secara penuh. Jadi, sepertinya kita perlu
menunggu beberapa saat lagi untuk dapat menikmati teknologi pengenalan suara ini
secara nyaman dalam bahasa kita sendiri. (Daniel ’99)
References:
Office XP help system
Encarta Encyclopedia
Encylopaedia Britannica
IBM ViaVoice help system