ŠAVŠ Studie 2022 (6)
Jak již bylo výše naznačeno, rozpoznávání řeči, stejně jako syntéza řeči, identi fikace mluvčího nebo ověření mluvčího, jsou některé z technik zpracování řeči. Tyto techniky umožňují zejména vyrábět rozhraní člověk-stroj (HMI), kde je část interakce prováděna hlasem označovaná jako „hlasová rozhraní “. Existují dvě hlavní aplikace technologií a metodologií rozpoznávání mluvčích. Pokud mluvčí tvrdí, že má určitou identitu, a k ověření tohoto tvrzení je použit hlas, na zývá se to ověření nebo autentizace. Na druhé straně je identifikace úkolem určit identi tu neznámého mluvčího. V jistém smyslu je ověření mluvčího shoda 1:1, kdy je hlas jednoho mluvčího porovnán s konkrétní šablonou, zatímco identifikace mluvčího je shoda 1:N, kdy je hlas porovnán s více šablonami (Rozpoznávání reproduktorů, 2022). Z hlediska bezpečnosti se identifikace liší od ověření. Ověření mluvčího se ob vykle používá jako „strážce brány“ za účelem poskytnutí přístupu k zabezpečenému systému. Tyto systémy fungují se znalostmi uživatelů a obvykle vyžadují jejich spolu práci. Systémy identifikace mluvčího lze také implementovat skrytě bez vědomí uživa tele, aby bylo možné identifikovat mluvčí v diskusi, upozorňovat automatizované sys témy na změny mluvčích, kontrolovat, zda je uživatel již zaregistrován v systému atd. (Rozpoznávání reproduktorů, 2022). Úlohu identifikace a rozpoznání hlasu lze rozdělit na identifikační a verifikač ní. Identifikace zahrnuje identifikaci uživatele z databáze uživatelských charakteristik, zatímco ověření zahrnuje ověření identity uživatele pomocí vzoru v jeho databázi. Ze všech výše zmíněných lidských vlastností používaných v biometrii, kterou se lidé naučí rozpoznávat jako první, je právě hlasová charakteristika. Kromě toho je šířka pásma spo jená s řečí také mnohem menší než u jiných lidských vlastností založených na obrazu. To znamená rychlejší zpracování a menší úložný prostor. Systémy rozpoznávání mluv čích lze rozdělit na dva systémy, textově závislé a textově nezávislé systémy. V textově závislých systémech se očekává, že uživatel použije stejný text (klíčové slovo nebo větu) během učení i rozpoznávání. Systém nezávislý na textu nepoužívá cvičný text během re lace rozpoznávání. Oba systémy provádějí následující úkoly: extrakci příznaků, analýzu podobnosti a výběr. Jeden vzorek hlasu pak může být porovnán pro podobnost s jiným vzorkem výpočtem regrese mezi koeficienty – podobnostní analýza. Cílem této části dokumentu je prezentovat princip využití umělých neuronových sítí pro rozpoznávání hlasu. Zjednodušeně lze princip popsat následovně: řečové signály odpoví dající testovací frázi skupiny lidí jsou zaznamenány do hlasových souborů v počítači pomocí softwaru pro záznam zvuku. Informace v těchto souborech jsou převedeny z časové oblasti do frekvenční oblasti pomocí technik digitálního zpracování signálu. K trénování neuronové sítě se používá frekvenční spektra řečového signálu. Frekvenční rozsah lidského hlasu (0,2 až 3,2 kHz) je převeden na vektor. Tento vektor tvoří vstup do neuronové sítě. Výstupem neuronové sítě je identita uživatele. Po trénování neuronové sítě pomocí zaznamenaných hlasových vzorů je tato otestována v prostředí reálného času, aby se identifikovala jakákoli ze skupin trénovaných lidí. Je také testován s netrénovanými uživateli. Tento princip bude v dalším textu podrobněji popsán a budou vysvětleny dílčí fáze tohoto procesu – hlasové vzorce uživatelů, příslušné digitální zpracování signálu a podrobně popíše použitou architekturu neuronové sítě a způsob, jakým identifikuje uživatele a s jakou přesností.
158
Made with FlippingBook - Share PDF online