Bagian ini akan menjelaskan beberapa sifat sinyal suara atau sinyal ucapan dan bagaimana sinyal tersebut diproduksi. Sanneck (2000) menjelaskan bahwa sinyal suara bersifat tidak stasioner atau time invariant dan diasumsikan sebagai sinyal quasi-periodic di dalam perioda waktu yang singkat sehingga sulit untuk dapat diprediksikan secara tepat. Secara umum sinyal suara dibedakan ke dalam dua jenis yaitu i) suara voiced dan ii) suara unvoiced.
Fellbaum menjelaskan bahwa suara manusia dihasilkan oleh perpaduan antara paru-paru, katup tenggorokan (epiglottis) dengan pita suara (vocal cord), dan artikulasi yang diakibatkan oleh adanya rongga mulut (mouth cavity) dan rongga hidung (nose cavity).
Suara Voiced
Suara voiced dihasilkan dari udara yang dihembuskan oleh paru-paru melewati katup tenggorokan, sementara pita suara dalam keadaan tegang yang menjadikannya bergetar dan menginterupsi aliran udara sehingga menghasilkan pulsa-pulsa quasi-periodic yang akan mengeksitasi vocal tract. Oleh karena itu, suara voiced dapat dimodelkan dengan cara mengeksitasi sebuah model filter vocal tract menggunakan sinyal quasi-periodic yang mencerminkan pulsa-pulsa udara yang diproduksi oleh pita suara.
Laju getaran dari aktifitas membuka dan menutupnya pita suara didefinisikan sebagai frekuensi fundamental atau frekuensi pitch. Frekuensi suara didefinisikan sebagai seberapa sering pita suara bergetar ketika aliran udara melewatinya yang diukur dalam satuan Hertz (Hz), di mana 1 Hz = 1 getaran per detik. Seringkali frekuensi pitch direpresentasikan ke dalam besaran perioda pitch yaitu waktu yang diperlukan oleh pita suara untuk melakukan satu kali getaran.
Suara Unvoiced
Suara unvoiced dihasilkan dari udara yang dihembuskan oleh paru-paru melewati katup pernapasan, sementara pita suara dalam keadaan lemas dan menutup jalan pernapasan yang mengakibatkan ternjadinya turbulensi aliran udara. Suara unvoiced memiliki kemiripan dengan sinyal random yang memiliki spektrum lebar di domain frekuensi. Oleh karena itu, sinyal random atau white noise sering digunakan untuk memodelkan sinyal unvoiced.