Java Speech API
Java Speech API (JSAPI) adalah antarmuka pemrograman aplikasi untuk dukungan lintas platform dari pengenal perintah dan kontrol, sistem dikte, dan penyintesis ucapan. Meskipun JSAPI mendefinisikan antarmuka hanya ada beberapa implementasi yatng dibuat oleh pihak ketiga, misalnya FreeTTS. Teknologi intiDua teknologi ucapan inti didukung melalui Java Speech API: sintesis ucapan dan pengenalan suara. Sintesis ucapanSintesis ucapan menyediakan proses kebalikan dari menghasilkan ucapan sintetis dari teks yang dihasilkan oleh aplikasi, applet, atau pengguna. Hal ini sering disebut sebagai teknologi text-to-speech. Langkah-langkah utama dalam memproduksi ucapan dari teks adalah sebagai berikut:
Hasil dari dua langkah pertama ini adalah bentuk lisan dari teks tertulis. Berikut adalah contoh perbedaan antara teks tertulis dan lisan: Rumah sakit St. Matthew ada di Main St. -> “Rumah sakit Saint Matthew ada di Main Street” Tambahkan $20 ke akun 55374. -> “Tambahkan dua puluh dolar ke akun lima lima, tiga tujuh empat.” Langkah selanjutnya mengubah teks lisan menjadi ucapan:
Penyintesis ucapan dapat membuat kesalahan dalam salah satu langkah pemrosesan yang dijelaskan di atas. Telinga manusia disetel dengan baik untuk mendeteksi kesalahan ini, tetapi ketelitian oleh pengembang dapat meminimalkan kesalahan dan meningkatkan kualitas keluaran suara. Sementara Java Speech API 1 mengandalkan Java Speech API Markup Language (JSML), rilis yang lebih baru menggunakan SSML untuk menyediakan banyak cara bagi Anda untuk meningkatkan kualitas output dari penyintesis ucapan. Pengenalan suaraPengenalan suara memberi komputer kemampuan untuk mendengarkan bahasa lisan dan menentukan apa yang telah dikatakan. Dengan kata lain, ia memproses input audio yang berisi ucapan dengan mengubahnya menjadi teks. Langkah-langkah utama dari pengenalan ucapan biasa adalah sebagai berikut:
Tata bahasa adalah objek di Java Speech API yang menunjukkan kata-kata apa yang diduga diucapkan oleh pengguna dan dalam pola apa kata-kata itu mungkin muncul. Tata bahasa penting bagi pengenal suara karena membatasi proses pengenalan. Pembatas ini membuat pengenalan lebih cepat dan lebih akurat karena pengenal tidak harus memeriksa kalimat aneh. Java Speech API 1 mendukung dua tipe tata bahasa dasar: tata bahasa aturan dan tata bahasa dikte. Jenis-jenis ini berbeda dalam berbagai cara, termasuk bagaimana aplikasi mengatur tata bahasa; jenis kalimat yang mereka izinkan; bagaimana hasil disediakan; jumlah sumber daya komputasi yang dibutuhkan; dan bagaimana mereka digunakan dalam desain aplikasi. Tata bahasa aturan ditentukan dalam JSAPI 1 oleh JSGF, Java Speech Grammar Format. JSAPI 2 yang lebih baru mendukung format SRGS yang lebih baru. JSAPI 2 tidak menawarkan dukungan untuk dikte. Kelas dan antarmuka Java Speech APIKelas dan antarmuka berbeda yang membentuk Java Speech API dikelompokkan ke dalam tiga paket berikut:
Kelas EngineManager seperti kelas pabrik yang digunakan oleh semua aplikasi Java Speech API. Kelas tersebut menyediakan metode statis untuk memungkinkan akses ke sintesis ucapan dan mesin pengenalan suara. Antarmuka Engine merangkum operasi umum yang harus disediakan oleh mesin ucapan yang sesuai dengan Java Speech API untuk aplikasi ucapan. Aplikasi ucapan utamanya dapat menggunakan metode untuk melakukan tindakan seperti mengambil properti dan status mesin ucapan dan mengalokasikan serta membatalkan alokasi sumber daya untuk mesin ucapan. Selain itu, antarmuka Engine memaparkan mekanisme untuk menjeda dan melanjutkan aliran audio yang dihasilkan atau diproses oleh mesin ucapan. AudioManager dapat memanipulasi aliran. Antarmuka Engine disubklasifikasikan oleh antarmuka Synthesizer dan Recognizer, yang menentukan fungsi sintesis ucapan dan pengenalan suara tambahan. Antarmuka Synthesizer merangkum operasi mesin sintesis ucapan yang sesuai dengan Java Speech API untuk aplikasi ucapan. Java Speech API didasarkan pada penanganan event. Event yang dihasilkan oleh mesin ucapan dapat diidentifikasi dan ditangani sesuai kebutuhan. Event ucapan dapat ditangani melalui antarmuka EngineListener, khususnya melalui RecognizerListener dan SynthesizerListener. Spesifikasi terkaitJava Speech API ditulis sebelum Java Community Process (JCP) dan menargetkan Java Platform, Standard Edition (Java SE). Selanjutnya, Java Speech API 2 (JSAPI2) dibuat sebagai JSR 113 di bawah JCP. API ini menargetkan Java Platform, Micro Edition (Java ME), tetapi juga sesuai dengan Java SE. Referensi
|