UMĚLÁ INTELIGENCE V AUTOMOTIVE / David et al.
Řečový signál je digitalizován a je provedeno určité zpracování signálu, aby se vytvořila šablona pro hlasový vzor, který se uloží do paměti.
Obr. 8.11 Blokové schéma typického systému rozpoznávání řeči [8.17] Systém rozpozná mluvčího porovnáním promluvy s příslušnou šablonou ulože nou v paměti. Když dojde ke shodě, mluvčí je identifikován. Dvě důležité operace v identifikátoru jsou extrakce parametrů, kdy se z výpovědí každé osoby získávají odlišné vzory a používají se k vytvoření šablony, a porovnávání vzorů, kde jsou šablony porovnávány s těmi, které jsou uloženy v paměti. Obvykle se pro porovnávání vzorů používají korelační techniky. Z technického hlediska lze blokové schéma z obrázku 8.11 transformovat blo kové schéma znázorňující technickou instrumentaci potřebnou k rozpoznávání hlasu – obr. 8.12.
Obr. 8.12 Blokové schéma technické instrumentace systému rozpoznávání hlasu [8.17]
Extrakce charakteristických vlastností Extrakce příznaků hraje velmi důležitou roli v identifikaci mluvčího. Lidskou řeč lze rozumně interpretovat pomocí frekvenčně-časových interpretací, jako je spek trogram. K rozlišení hlasů lze použít frekvenčně-energetické interpretace a výkonové spektrální hustoty. Dalšími metodami, které lze pro tento účel použít, jsou lineární prediktivní kódování a kepstrální analýza. Základem zpracování je Fourierova transformace diskrétního vzorku, která je dána vztahem:
Na následujících obrázcích 8.13 jsou znázorněny grafické výstupy z procesu inter pretace hlasu pomocí různých frekvenčně-časových, frekvenčně-amplitudových charakte ristik různých mluvčích a různých hlasových obsahů.
126
Made with FlippingBook - Share PDF online