Pada artikel yang lalu, telah dijelaskan tentang bagaimana Optical Character Recognition (OCR) bekerja. Kali ini, kita akan membahas apa dan bagaimana Speech Recognition (SR). Jika OCR adalah teknologi yang memproses dokumen cetakan atau gerakan yang membentuk karakter tertentu menjadi teks digital, teknologi Speech Recognition menjadikan suara sebagai objeknya.

Contoh yang paling sederhana pemanfaatan teknologi Speech Recognition adalah voice dial yang sempat menjadi fitur andalan ponsel-ponsel high-end akhir dekade yang lalu. Sedangkan pengaplikasian mutakhir teknologi ini dapat dijumpai pada layanan call center, kemudian secara otomatis komputer akan memberikan solusinya.

Penerapan Speech Recognition juga dapat ditemukan pada beberapa aplikasi komputer yang memungkinkan Anda mengetik dokumen tanpa harus memencet tombol-tombol keyboard. Cukup dengan mendiktekan kalimat-kalimat, kemudian secara otomatis komputer akan mengetikkannya untuk Anda. Banyak software yang dirancang untuk mengetikkan apa yang Anda katakan melalui microphone, seperti iListen untuk komputer Mac, dan software ViaVoice keluaran IBM.

Teknologi Speech Recognition yang dikembangkan sejak sepuluh tahun lalu menghadapi dua pilihan, yakni menangkap percakapan terputus (kata per kata) atau percakapan tersambung (per kalimat). Komputer sebenarnya lebih mudah memahami suara untuk kata per kata, yang di antara masing-masing kata terdapat jeda, namun kebanyakan orang lebih menyukai jika teknologi ini mampu menangkap sebuah percakapan normal.

Dari Suara ke Data

Untuk mengubah percakapan menjadi teks on-screen atau perintah tertentu, komputer melakukan beberapa langkah yang kompleks. Ketika berbicara, Anda mengeluarkan getaran di udara. Kemudian, analog-to-digital converter (ADC) yang ada di soundcard menerjemahkan gelombang analog ini menjadi data digital yang dapat dimengerti oleh komputer.

Untuk melakukan hal tersebut, sistem Speech Recognition melakukan sampling atau digitizing suara dengan cara mengambil ukuran yang paling pas dari gelombang. Sistem menyaring suara yang telah didigitalkan tersebut dan membuang gangguan (noise), dan kadang-kadang memisahkannya ke dalam pita frekuensi yang berbeda. Frekuensi adalah panjang gelombang suara, yang terdengar oleh telinga manusia sebagai tinggi nada (pitch) yang berbeda.

Sistem ini juga menormalkan suara, atau mengaturnya ke dalam tingkat volume yang tetap, terkadang juga mendatarkan suara. Manusia tidak berbicara dalam kecepatan yang sama sehingga suara harus diatur dengan kecepatan yang sama dengan sampel-sampel template suara yang tersimpan dalam komputer.

Langkah selanjutnya adalah memecah sinyal menjadi bagian-bagian kecil, dengan durasi seperseratus detik, atau bahkan seperseribu pada kasus bunyi-bunyi konsonan atau mati. Konsonan memberhentikan produksi suara dengan menghalangi aliran gelombang pada bidang vokal, seperti “p” atau “t”.

Program di komputer kemudian mencocokkan bagian-bagian kecil ini dengan fonem yang dikenal dalam bahasa tertentu. Fonem adalah elemen terkecil dalam sebuah bahasa, merepresentasikan suara yang kita hasilkan, dan merangkainya ke dalam bentuk ujaran yang memiliki makna.

Tahap berikutnya kelihatan sederhana, tapi pada dasarnya merupakan proses yang paling susah diselesaikan, sekaligus merupakan inti dari sebagian besar penelitian di bidang Speech Recognition. Komputer memeriksa fonem-fonem dalam konteks (hubungan) dengan fonem-fonem lain yang menyertainya.

Komputer menjalankan alur (plot) melalui sebuah model statistika yang kompleks, dan membandingkannya dengan koleksi kata, frase, dan kalimat yang telah dikenal. Program Speech Recognition selanjutnya menentukan apa yang mungkin dikatakan oleh pengguna, dan juga mengetikkannya sebagai teks atau mengeluarkannya sebagai perintah pada komputer.

Permodelan Statistika

Program Speech Recognition pada generasi awal berusaha untuk menerapkan sebuah aturan gramatikal dan sintaktikal dari sebuah percakapan. Jika kata-kata yang diucapkan masuk ke dalam aturan yang baku, program dapat menentukan kata-kata tersebut.

Aksen, dialek, dan gaya berbahasa seseorang sangat mempengaruhi bagaimana sebuah kata atau frase diucapkan. Sistem berbasis aturan ini dianggap tidak berhasil, karena tidak mampu menangani variasi berbahasa. Hal ini juga menjelaskan mengapa program Speech Recognition generasi awal tidak dapat menangani percakapan bersambung, karena Anda harus berbicara kata perkata secara terpisah.

Sebagai jalan keluar dari permasalahan ini, program Speech Recognition mutakhir memakai sistem permodelan statistika yang lengkap dan rumit. Sistem ini menggunakan fungsi probabilitas (kemungkinan) dan matematika untuk memutuskan hasil yang paling mendekati.

Dua model yang paling banyak digunakan saat ini adalah Hidden Markov Model dan jaringan syaraf (neural networks). Kedua metode melibatkan fungsi matematika yang kompleks, mengambil informasi yang diketahui, memprosesnya di dalam sistem untuk menemukan informasi yang tersembunyi.

sumber: Tabloid PCMild

Togap Tartius

Freelance web developer. Mantan guru komputer. Suka membaca dan berpikir. Hobi mengutak-atik komputer baik software maupun hardware.

More PostsWebsite

Follow Me:
TwitterFacebookLinkedInGoogle Plus