Sebagai masyarakat yang hidup di zaman teknologi, tentu saja kita sudah tidak asing lagi dengan fitur Siri, Cortana, atau Google Now. Yap, semuanya merupakan sebuah aplikasi berbasis pengenalan ucapan yang diperkenalkan sebagai 'personal assistant' untuk mempermudah kita para pengguna smartphone. Sekarang, hanya dengan memberikan perintah suara, kita bisa langsung membuat panggilan, pesan, menulis memo, membuka aplikasi tertentu, atau bahkan browsing internet .
Pengenalan ucapan (speech recognition), merupakan salah satu bentuk dari kecerdasan buatan. Menurut Wikipedia, yang disebut kecerdasan buatan ialah kecerdasan yang ditambahkan kepada suatu sistem yang bisa diatur dalam konteks ilmiah. Jadi, dengan fitur pengenalan ucapan, sebuah sistem komputer dapat menerjemahkan perkataan yang diucapkan oleh manusia menjadi perintah program. Sangat menarik, bukan?
Ilustrasi pengenalaan ucapan. Image taken from www.walkthechat.com |
Bagaimana cara kerja pengenalan ucapan?
Pengenalan ucapan atau Speech Recognition
(SR), adalah suatu pengembangan teknik dan sistem yang memungkinkan komputer untuk
menerima masukan berupa kata yang diucapkan.
Teknologi ini memungkinkan suatu perangkat untuk
mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi
kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu
yang tersimpan dalam suatu perangkat. Kata-kata yang diucapkan diubah bentuknya
menjadi sinyal digital dengan cara mengubah gelombang suara
menjadi sekumpulan angka yang kemudian disesuaikan dengan kode-kode tertentu
untuk mengidentifikasikan kata-kata tersebut. Hasil dari identifikasi kata yang
diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh
perangkat teknologi sebagai sebuah komando untuk melakukan suatu pekerjaan,
misalnya penekanan tombol pada telepon genggam
yang dilakukan secara otomatis dengan komando suara.
Alat pengenal ucapan, yang sering disebut dengan speech
recognizer, membutuhkan sampel kata sebenarnya yang diucapkan dari pengguna.
Sampel kata akan didigitalisasi, disimpan dalam komputer, dan
kemudian digunakan sebagai basis data dalam mencocokkan kata yang diucapkan
selanjutnya.
Pengenalan ucapan dalam perkembangan teknologinya
merupakan bagian dari pengenalan suara (proses identifikasi seseorang
berdasarkan suaranya). Pengenalan suara sendiri terbagi menjadi dua, yaitu
pengenalan pembicara (identifikasi suara berdasarkan orang yang berbicara) dan
pengenalan ucapan (identifikasi suara berdasarkan kata yang diucapkan).
Jenis-jenis pengenalan ucapan
Berdasarkan kemampuan dalam mengenal kata yang diucapkan,
terdapat 5 jenis pengenalan kata, yaitu:
- Kata-kata yang terisolasi
- Kata-kata yang berhubungan
- Kata-kata yang berkelanjutan
- Kata-kata spontan
- Verifikasi atau identifikasi suara
Perangkat keras yang dibutuhkan
1.
Sound
Card
2.
Microphone
3.
Computer/processor
Proses kerja alat pengenalan ucapan
Alat pengenal ucapan memiliki enam tahapan dalam
prosesnya, yaitu:
1. Tahap
penerimaan masukan: Masukan berupa kata-kata yang diucapkan lewat mikrofon.
2. Tahap
Pre-filtering: pre-emphasis, normalization, banding, dsb.
3. Framing and Windowing: Merubah data ke format
yang dapat diproses, yaitu dari gelombang kontinu spektrum suara ke dalam bentuk diskrit.
4. Filtering:
memfilter sinyal masukan dari setiap window/ frame/ frequency band
6. Action:
Alat pengenal ucapan yang sudah memiliki sistem verifikasi/identifikasi suara
akan menerjemahkan suara tersebut menjadi tulisan atau komando.
Tahapan ekstraksi pengenalan ucapan
berdasarkan Hidden Markov Model (HMM) :
a.
Tahap
ekstraksi tampilan: Penyaringan sinyal suara dan
pengubahan sinyal suara analog ke digital
b. Tahap
pemodelan: Pembuatan
suatu model HMM dari data-data yang berupa sampel ucapan sebuah kata yang sudah
berupa data digital
c. Tahap
sistem pengenalan HMM: Penemuan
parameter-parameter yang dapat merepresentasikan sinyal suara untuk analisis
lebih lanjut.
d.
Tahap
pembandingan: Tahap
ini merupakan tahap pencocokan data baru dengan data suara (pencocokan tata
bahasa) pada pola. Tahap ini dimulai dengan proses konversi sinyal suara
digital hasil dari proses ekstraksi ke dalam bentuk spektrum suara yang akan dianalisa dengan membandingkannya dengan pola
suara pada basis data.
Aplikasi alat pengenalan ucapan
- Bidang komunikasi
a. Komando
Suara
Komando
Suara adalah suatu program pada komputer yang melakukan perintah berdasarkan
komando suara dari pengguna. Contohnya pada aplikasi Microsoft Voice yang
berbasis bahasa Inggris.
b. Pendiktean
Pendiktean adalah sebuah proses mendikte yang sekarang ini banyak dimanfaatkan dalam pembuatan laporan atau penelitian. Contohnya pada aplikasi Microsoft Dictation yang merupakan aplikasi yang dapat menuliskan apa yang diucapkan oleh pengguna secara otomatis.
Pendiktean adalah sebuah proses mendikte yang sekarang ini banyak dimanfaatkan dalam pembuatan laporan atau penelitian. Contohnya pada aplikasi Microsoft Dictation yang merupakan aplikasi yang dapat menuliskan apa yang diucapkan oleh pengguna secara otomatis.
c. Telepon
Pada telepon, teknologi pengenal ucapan digunakan pada proses penekanan tombol otomatis yang dapat menelpon nomor tujuan dengan komando suara.
Pada telepon, teknologi pengenal ucapan digunakan pada proses penekanan tombol otomatis yang dapat menelpon nomor tujuan dengan komando suara.
- Bidang kesehatan
Alat pengenal ucapan banyak digunakan
dalam bidang kesehatan untuk membantu para penyandang cacat dalam beraktivitas.
Contohnya pada aplikasi Antarmuka Suara Pengguna atau Voice User Interface
(VUI) yang menggunakan teknologi pengenal ucapan.
- Bidang militer
a. Pelatihan
Penerbangan
Aplikasi
alat pengenal ucapan dalam bidang militer adalah pada pengatur lalu-lintas udara atau yang dikenal dengan Air Traffic Controllers (ATC)
yang dipakai oleh para pilot untuk mendapatkan keterangan mengenai keadaan
lalu-lintas udara seperti radar, cuaca, dan navigasi. Alat pengenal
ucapan digunakan sebagai pengganti operator yang memberikan informasi kepada
pilot.
b. Helikopter
Aplikasi alat pengenal ucapan pada helikopter digunakan untuk berkomunikasi lewat radio dan menyesuaikan sistem navigasi.
Aplikasi alat pengenal ucapan pada helikopter digunakan untuk berkomunikasi lewat radio dan menyesuaikan sistem navigasi.
Kelebihan dan kekurangan
Kelebihan:
- Cepat: Teknologi ini mempercepat transmisi informasi dan umpan balik dari transmisi
tersebut.
- Mudah digunakan: Komando dapat dilakukan tanpa perangkat keras.
- Mudah digunakan: Komando dapat dilakukan tanpa perangkat keras.
Kekurangan:
- Rawan
terhadap gangguan: Karena proses ini masih berbasis
frekuensi, sulit untuk memisahkan gangguan/noise dari sinyal suara
- Jumlah
kata yang dapat dikenal terbatas: Hal ini disebabkan pengenal ucapan
bekerja dengan cara mencari kemiripan dengan basis data yang dimiliki.
Daftar Pustaka:
Apolloni, Bruno, Harpri (2003). Neural Nets. Springer-Verlag.
hlm. 3. ISBN 3540202277.
Baecker, Ronald M, Jonathan Grudin, William A. X. Buxton,
Saul Greenberg (1995). Human-Computer Interaction : Toward the Year 2000
(Second Edition). Morgan Kauffman Publishers, Inc. hlm. 546. ISBN 1558602461.
Benesty, Jacob, M. Mohan Sondhi, dan Yiteng Huang (2008).
Handbook of Speech Processing. Springer-Verlag.
hlm. 6. ISBN 159904840X.
Jelinek, Frederick (1997). Statistical Methods For Speech
Recognition. Massachusetts
Institute of Technology.
hlm. 17. ISBN 0262100665.
Waibel, Alex dan Kai-Fu Lee (1990). Readings in Speech
Recognition. Morgan Kauffman Publishers, Inc. hlm. 1 & 267. ISBN 1558601244.
1 Komentar
membantu banget makasih yah kak
BalasHapusiran