Header

Pengenalan Ucapan (Speech Recognition)

Sebagai masyarakat yang hidup di zaman teknologi, tentu saja kita sudah tidak asing lagi dengan fitur Siri, Cortana, atau Google Now. Yap, semuanya merupakan sebuah aplikasi berbasis pengenalan ucapan yang diperkenalkan sebagai 'personal assistant' untuk mempermudah kita para pengguna smartphone. Sekarang, hanya dengan memberikan perintah suara, kita bisa langsung membuat panggilan, pesan, menulis memo, membuka aplikasi tertentu, atau bahkan browsing internet .

Pengenalan ucapan (speech recognition), merupakan salah satu bentuk dari kecerdasan buatan. Menurut Wikipedia, yang disebut kecerdasan buatan ialah kecerdasan yang ditambahkan kepada suatu sistem yang bisa diatur dalam konteks ilmiah. Jadi, dengan fitur pengenalan ucapan, sebuah sistem komputer dapat menerjemahkan perkataan yang diucapkan oleh manusia menjadi perintah program. Sangat menarik, bukan?

Ilustrasi pengenalaan ucapan. Image taken from www.walkthechat.com

Bagaimana cara kerja pengenalan ucapan?

Pengenalan ucapan atau Speech Recognition (SR), adalah suatu pengembangan teknik dan sistem yang memungkinkan komputer untuk menerima masukan berupa kata yang diucapkan.

Teknologi ini memungkinkan suatu perangkat untuk mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu yang tersimpan dalam suatu perangkat. Kata-kata yang diucapkan diubah bentuknya menjadi sinyal digital dengan cara mengubah gelombang suara menjadi sekumpulan angka yang kemudian disesuaikan dengan kode-kode tertentu untuk mengidentifikasikan kata-kata tersebut. Hasil dari identifikasi kata yang diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat teknologi sebagai sebuah komando untuk melakukan suatu pekerjaan, misalnya penekanan tombol pada telepon genggam yang dilakukan secara otomatis dengan komando suara.

Alat pengenal ucapan, yang sering disebut dengan speech recognizer, membutuhkan sampel kata sebenarnya yang diucapkan dari pengguna. Sampel kata akan didigitalisasi, disimpan dalam komputer, dan kemudian digunakan sebagai basis data dalam mencocokkan kata yang diucapkan selanjutnya.

Pengenalan ucapan dalam perkembangan teknologinya merupakan bagian dari pengenalan suara (proses identifikasi seseorang berdasarkan suaranya). Pengenalan suara sendiri terbagi menjadi dua, yaitu pengenalan pembicara (identifikasi suara berdasarkan orang yang berbicara) dan pengenalan ucapan (identifikasi suara berdasarkan kata yang diucapkan).

Jenis-jenis pengenalan ucapan

Berdasarkan kemampuan dalam mengenal kata yang diucapkan, terdapat 5 jenis pengenalan kata, yaitu:
  • Kata-kata yang terisolasi
Proses pengidentifikasian kata yang hanya dapat mengenal kata yang diucapkan jika kata tersebut memiliki jeda waktu pengucapan antar kata.
  • Kata-kata yang berhubungan
Proses pengidentifikasian kata yang mirip dengan kata-kata terisolasi, namun membutuhkan jeda waktu pengucapan antar kata yang lebih singkat.
  •  Kata-kata yang berkelanjutan
Proses pengidentifikasian kata yang sudah lebih maju karena dapat mengenal kata-kata yang diucapkan secara berkesinambungan dengan jeda waktu yang sangat sedikit, sehingga pengguna perangkat ini dapat mengucapkan kata-kata secara natural.
  • Kata-kata spontan
Proses pengidentifikasian kata yang dapat mengenal kata/kalimat yang diucapkan secara spontan.
  • Verifikasi atau identifikasi suara
Proses pengidentifikasian kata yang tidak hanya mampu mengenal kata, namun juga mengidentifikasi siapa yang berbicara.

Perangkat keras yang dibutuhkan

1.       Sound Card
2.       Microphone
3.       Computer/processor

Proses kerja alat pengenalan ucapan


Alat pengenal ucapan memiliki enam tahapan dalam prosesnya, yaitu:

1. Tahap penerimaan masukan: Masukan berupa kata-kata yang diucapkan lewat mikrofon.
2. Tahap Pre-filtering: pre-emphasis, normalization, banding, dsb.
3.  Framing and Windowing: Merubah data ke format yang dapat diproses, yaitu dari gelombang kontinu spektrum suara ke dalam bentuk diskrit.
4.  Filtering:  memfilter sinyal masukan dari setiap window/ frame/ frequency band
5. Comparison and Matching : Proses ini dilakukan berdasarkan metode Model Markov Tersembunyi atau Hidden Markov Model (HMM). Setiap elemen dari data yang terurut dikonversi ke dalam bentuk bilangan biner. Data biner tersebut nantinya akan dibandingkan dengan pola data suara dan kemudian diterjemahkan sebagai keluaran yang dapat berbentuk tulisan ataupun perintah pada perangkat.
6. Action: Alat pengenal ucapan yang sudah memiliki sistem verifikasi/identifikasi suara akan menerjemahkan suara tersebut menjadi tulisan atau komando.


Tahapan ekstraksi pengenalan ucapan berdasarkan Hidden Markov Model (HMM) :
a.    Tahap ekstraksi tampilan: Penyaringan sinyal suara dan pengubahan sinyal suara analog ke digital
b. Tahap pemodelan: Pembuatan suatu model HMM dari data-data yang berupa sampel ucapan sebuah kata yang sudah berupa data digital
c. Tahap sistem pengenalan HMM: Penemuan parameter-parameter yang dapat merepresentasikan sinyal suara untuk analisis lebih lanjut.
d.      Tahap pembandingan: Tahap ini merupakan tahap pencocokan data baru dengan data suara (pencocokan tata bahasa) pada pola. Tahap ini dimulai dengan proses konversi sinyal suara digital hasil dari proses ekstraksi ke dalam bentuk spektrum suara yang akan dianalisa dengan membandingkannya dengan pola suara pada basis data.

Aplikasi alat pengenalan ucapan

  •                Bidang komunikasi
a.     Komando Suara
Komando Suara adalah suatu program pada komputer yang melakukan perintah berdasarkan komando suara dari pengguna. Contohnya pada aplikasi Microsoft Voice yang berbasis bahasa Inggris.
b.    Pendiktean
Pendiktean adalah sebuah proses mendikte yang sekarang ini banyak dimanfaatkan dalam pembuatan laporan atau penelitian. Contohnya pada aplikasi Microsoft Dictation yang merupakan aplikasi yang dapat menuliskan apa yang diucapkan oleh pengguna secara otomatis.
c.     Telepon
Pada telepon, teknologi pengenal ucapan digunakan pada proses penekanan tombol otomatis yang dapat menelpon nomor tujuan dengan komando suara.
  •                Bidang kesehatan
Alat pengenal ucapan banyak digunakan dalam bidang kesehatan untuk membantu para penyandang cacat dalam beraktivitas. Contohnya pada aplikasi Antarmuka Suara Pengguna atau Voice User Interface (VUI) yang menggunakan teknologi pengenal ucapan.
  •                 Bidang militer 
a.       Pelatihan Penerbangan
Aplikasi alat pengenal ucapan dalam bidang militer adalah pada pengatur lalu-lintas udara atau yang dikenal dengan Air Traffic Controllers (ATC) yang dipakai oleh para pilot untuk mendapatkan keterangan mengenai keadaan lalu-lintas udara seperti radar, cuaca, dan navigasi. Alat pengenal ucapan digunakan sebagai pengganti operator yang memberikan informasi kepada pilot.
b.       Helikopter
Aplikasi alat pengenal ucapan pada helikopter digunakan untuk berkomunikasi lewat radio dan menyesuaikan sistem navigasi. 

Kelebihan dan kekurangan

Kelebihan:
 Cepat: Teknologi ini mempercepat transmisi informasi dan umpan balik dari transmisi tersebut.
  Mudah digunakan: Komando dapat dilakukan tanpa perangkat keras.

Kekurangan:
  Rawan terhadap gangguan: Karena proses ini masih berbasis frekuensi, sulit untuk memisahkan gangguan/noise dari sinyal suara
 Jumlah kata yang dapat dikenal terbatas: Hal ini disebabkan pengenal ucapan bekerja dengan cara mencari kemiripan dengan basis data yang dimiliki.



Daftar Pustaka:

Apolloni, Bruno, Harpri (2003). Neural Nets. Springer-Verlag. hlm. 3. ISBN 3540202277.
Baecker, Ronald M, Jonathan Grudin, William A. X. Buxton, Saul Greenberg (1995). Human-Computer Interaction : Toward the Year 2000 (Second Edition). Morgan Kauffman Publishers, Inc. hlm. 546. ISBN 1558602461.
Benesty, Jacob, M. Mohan Sondhi, dan Yiteng Huang (2008). Handbook of Speech Processing. Springer-Verlag. hlm. 6. ISBN 159904840X.
Jelinek, Frederick (1997). Statistical Methods For Speech Recognition. Massachusetts Institute of Technology. hlm. 17. ISBN 0262100665.
Waibel, Alex dan Kai-Fu Lee (1990). Readings in Speech Recognition. Morgan Kauffman Publishers, Inc. hlm. 1 & 267. ISBN 1558601244.

Posting Komentar

1 Komentar