V lednu obhajuje svou disertační práci Ladislav Mošner z Ústavu počítačové grafiky a multimédií

Zveme vás na obhajobu disertační práce Ing. Ladislava Mošnera z Ústavu počítačové grafiky a multimédií FIT VUT, která se bude konat ve středu 14. 1. 2026 od 9:00 v zasedací místnosti G108. Vedoucím disertační práce s titulem „Rozpoznávání mluvčího ze vzdáleného zdroje s vícekanálovým zpracováním audia“ je prof. Jan Černocký.

Obecným vědeckým problémem, jímž se Mošner dlouhodobě zabývá, je verifikace mluvčího v situaci, kdy máme k dispozici nahrávku pořízenou z vícero vzdálených mikrofonů. Představit si můžeme např. naši komunikaci s hlasovými asistenty (zařízením typu Google Home nebo Amazon Echo). Cílem Mošnerovy práce je nabídnout kroky vedoucí k přesnějšímu ověření totožnosti konkrétního mluvčího v podobné situaci, a to pomocí: a) řešení absence dat pro trénování modelů založených na neuronových sítích; b) nalezení specializovaných technik zpracování dat.

„Uživatel se v prvním kroku zaregistruje hlasem do systému, tedy poskytne nahrávku svého hlasu. A z této nahrávky se pomocí neuronových sítí extrahuje informace – embedding –, která jej identifikuje, charakterizuje,“ pouští se Mošner do popisu obecného kontextu verifikace mluvčího pokud možno laickými slovy. „Vedle toho máme k dispozici druhou skupinu nahrávek, které pochází z vícero kanálů, typicky jde o několik mikrofonů.“ Z těchto vícero nahrávek je potřeba extrahovat právě onen zmíněný embedding, tedy charakteristický vektor (typickou reprezentaci daného mluvčího), který je následně porovnáván s úvodním, registračním embeddingem. Výsledkem srovnání je skóre, které, opět laicky řečeno, sdělí, do jaké míry si systém myslí, že dva mluvčí jsou jedna a táž osoba. Specifikum verifikace ve výzkumu Ladislava Mošnera pak spočívá právě v existenci více kanálů, z nichž nahrávky pochází.

Výše vymezené výzkumné pole je poměrně úzce specifikovaná oblast, kterou ve světě mnoho odborníků neřeší. Publikací je obecně řečeno málo. A z toho také vyplývaly problémy, s nimiž se autor ve své disertaci potýkal. Konkrétně šlo například o nedostatek dat / datových sad, jež jsou základem strojového učení. Dosud se používaly datové sady, které byly připraveny pro konkrétní publikace. Mošner se proto snažil vytvořit novou datovou sadu pro trénování i pro následnou evaluaci, a to tak, aby tuto sadu mohli využívat i další uživatelé (tedy při zachování principu otevřenosti dat). Výsledkem jsou datové sady MultiSV a MultiSV2.

Dalším výstupem Mošnerovy disertace je řešení samotného problému multikanálové verifikace. Takto komplexní výzva vyžadovala rozdělení na podproblémy. Prvním podproblémem bylo multikanálové zpracování pomocí signálových metod s využitím neuronových sítí; druhým podproblémem pak extrakce embeddingů v situaci, kdy je vstupem už jen jednokanálová nahrávka, která je vyčištěnou (od dozvuku či šumu a se zvýrazněnou promluvou), tedy lepší verzí původního multikanálového vstupu. Jádro autorovy práce spočívalo v prvním kroku, tedy ve zlepšení multikanálového zpracování tak, aby poskytovalo lepší nahrávku řečníka, což následně vede k přesnější verifikaci. Vydání datové sady MultiSV2 poté umožnilo, že Mošner s kolegy byli schopni trénovat komplexní systém, který je schopen vzít multikanálovou nahrávku a přímo z ní extrahovat embedding.

Když má Ladislav Mošner odpovědět na otázku, co považuje za svůj největší výzkumný úspěch v rámci doktorátu, reaguje stoicky: „No, podařilo se právě to, co bylo zadáním projektu. Vznikl funkční komplexní systém, který nezávisí na předzpracování.“ Sám konstatuje, že by rád ve výzkumu multikanálového zpracování v dalších oblastech zpracování lidské řeči na fakultě pokračoval. Chtěl by se dále věnovat i tématu řečové biometrie (verifikace řečníků), kde je již zapojen do spolupráce s průmyslovým partnerem – řeckou firmou Omilia, významným světovým hráčem na poli konverzačních systémů a hlasové biometrie. Disertaci vnímá jako velký milník na své úspěšné výzkumné cestě. Cítí vděčnost vůči lidem, kteří ho na fakultě obklopovali. „Jsem rád, že jsem doktorát mohl dělat ve skupině profesora Černockého, kde je spousta skvělých lidí, skvělých odborníků.“ A zmínil i význam zahraničního výzkumného pobytu ve francouzském institutu Inria (Institut national de recherche en sciences et technologies du numérique), který absolvoval

Přejeme Ladislavu Mošnerovi úspěšnou obhajobu a splnění dalších vědeckých cílů, které si předsevzal.

Sdílet článek Tweetnout

Zpět na aktuality

Další