UMĚLÁ INTELIGENCE V AUTOMOTIVE / David et al.

zývá se to ověření nebo autentizace. Nadruhé straně je identifikace úkolem určit identitu neznámého mluvčího. V jistém smyslu je ověření mluvčího shoda 1:1, kdy je hlas jed noho mluvčího porovnán s konkrétní šablonou, zatímco identifikace mluvčího je shoda 1:N, kdy je hlas porovnán s více šablonami [8.15]. Z hlediska bezpečnosti se identifikace liší od ověření. Ověření mluvčího se ob vykle používá jako „strážce brány“ za účelem poskytnutí přístupu k zabezpečenému systému. Tyto systémy fungují se znalostmi uživatelů a obvykle vyžadují jejich spoluprá ci. Systémy identifikace mluvčího lze také implementovat skrytě bez vědomí uživatele, aby bylo možné identifikovat mluvčí v diskusi, upozorňovat automatizované systémy na změny mluvčích, kontrolovat, zda je uživatel již zaregistrován v systému atd. [8.15]. Úlohu identifikace a rozpoznání hlasu lze rozdělit na identifikační a verifikač ní. Identifikace zahrnuje identifikaci uživatele z databáze uživatelských charakteristik, zatímco ověření zahrnuje ověření identity uživatele pomocí vzoru v jeho databázi. Ze všech výše zmíněných lidských vlastností používaných v biometrii, kterou se lidé naučí rozpoznávat jako první, je právě hlasová charakteristika. Kromě toho je šířka pásma spo jená s řečí také mnohem menší než u jiných lidských vlastností založených na obrazu. To znamená rychlejší zpracování a menší úložný prostor. Systémy rozpoznávání mluv čích lze rozdělit na dva systémy: textově závislé a textově nezávislé systémy. V textově závislých systémech se očekává, že uživatel použije stejný text (klíčové slovo nebo větu) během učení i rozpoznávání. Systém nezávislý na textu nepoužívá cvičný text během re lace rozpoznávání. Oba systémy provádějí následující úkoly: extrakci příznaků, analýzu podobnosti a výběr. Jeden vzorek hlasu pak může být porovnán pro podobnost s jiným vzorkem výpočtem regrese mezi koeficienty – podobnostní analýza. Cílem této části dokumentu je prezentovat princip využití umělých neuronových sítí pro rozpoznávání hlasu. Zjednodušeně lze princip popsat následovně: Řečové sig nály odpovídající testovací frázi skupiny lidí jsou zaznamenány do hlasových souborů v počítači pomocí softwaru pro záznam zvuku. Informace v těchto souborech jsou pře vedeny z časové oblasti do frekvenční oblasti pomocí technik digitálního zpracování signálu. K trénování neuronové sítě se používá frekvenční spektra řečového signálu. Frekvenční rozsah lidského hlasu (0,2 až 3,2 kHz) je převeden na vektor. Tento vektor tvoří vstup do neuronové sítě. Výstupem neuronové sítě je identita uživatele. Po tréno vání neuronové sítě pomocí zaznamenaných hlasových vzorů je tato otestována v pro středí reálného času, aby se identifikovala jakákoli ze skupin trénovaných lidí. Je také testován s netrénovanými uživateli. Tento princip bude v dalším textu podrobněji popsán a budou vysvětleny dílčí fáze tohoto procesu – hlasové vzorce uživatelů, příslušné digitální zpracování signálu a podrobně popíše použitou architekturu neuronové sítě a způsob, jakým identifikuje uživatele a s jakou přesností. Rozpoznávací systém Na obrázku 8.11 je znázorněno blokové schéma typického systému rozpoznávání hlasu. Systém je koncipován tak, aby rozpoznával hlas osoby tím, že každá osoba prone se do mikrofonu konkrétní výrok.

125

Made with FlippingBook - Share PDF online