Tensorflow implementation of speaker recognition with x-vector topology

Název česky

Tensorflow implementace rozpoznávání mluvčího s x-vector topologií

Typ

software

Licence

Využití výsledku jiným subjektem je možné bez nabytí licence (výsledek není licencován)

Licenční poplatek

Poskytovatel licence na výsledek nepožaduje licenční poplatek

Autoři

Zeinali Hossein, Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Stafylakis Themos
Černocký Jan, prof. Dr. Ing. (UPGM)

Klíčová slova

rozpoznávání mluvčího, DNN, x-vector, trénování, přetrénování

Popis

Software je implementace rozpoznávače mluvčího (x-vector topologie), který pro předzpracování dat používá rozšířený Kaldi toolkit. Pomocí systému je možné natrénovat model nebo přetrénovat již existující pomocí Tensorflow k cílové doméně zákaznických dat. Dále je možné změnit topologii systému, trénovací schéma nebo přetrénovat systém s jinou objektivní funkcí. Vše toto může umožnit zlepšení výsledku rozpoznávání mluvčího pro cílovou doménu dat. Software je výsledkem projektu Ministerstva vnitra ČR "Dolování infoRmAcí z řeči Pořízené vzdÁlenými miKrofony - DRAPÁK", č. VI20152020025 (https://www.fit.vut.cz/research/project/1009/)

Umístění

https://github.com/BUTSpeechFIT/x-vector-kaldi-tf

Projekty

Dolování infoRmAcí z řeči Pořízené vzdÁlenými miKrofony, MV, Bezpečnostní výzkum České republiky 2015-2020, VI20152020025, 2015-2020, ukončen

Výzkumné skupiny

Výzkumná skupina dolování dat z řeči BUT Speech@FIT (VZ SPEECH)

Pracoviště

Ústav počítačové grafiky a multimédií (UPGM)