Software pro sekvenční selekci příznaků

Autoři

Ing. Zoltán Galáž, Ing. Jiří Mekyska, prof. Ing. Zdeněk Smékal, CSc.

Stažení

Software je možné stáhnout zde.

Publikace k citování

GALÁŽ, Z. Preliminary Acoustic Analysis of Noise Components in Patients In Parkinsons Disease. In Proceedings of the 21st Conference STUDENT EEICT 2015. Brno: 2015. p. 476-480. ISBN: 978-80-214-5148- 3.

Mekyska J., Galáž Z., Mžourek Z., Smékal Z., Rektorová I., et al. (2015) Assessing Progress of Parkinson’s Disease Using Acoustic Analysis of Phonation. International Work Conference on Bioinspired Intelligence (IWOBI 2015): 115-122.

Popis

V oblasti analýzy biomedicínských signálů (např. zpracování řeči, zpracování ručně psaného projevu, atd.) se často stává, že výsledkem parametrizačního procesu, kterého účelem je kvantifikace užitečné informace obsažené v datech pomocí parametrů (příznaků), je vysoce dimenzionální prostor, který je nazýván také parametrizačním prostorem. Tento prostor popisuje vypočtené parametry pro všechna pozorování a výsledkem parametrizace je tzv. matice parametrů. Následujícím krokem je ve většině případů analýza matice parametrů, která zahrnuje kupříkladu výběr nejvhodnějších parametrů pro další klasifikaci nebo regresi. Výběr množiny parametrů, které obsahují nejvíce užitečné informace a jsou tedy nejvhodnějšími kandidáty pro následnou klasifikaci nebo regresi je důležitým krokem analýzy parametrizačního prostoru. Problematice vysoké dimenze dat byl přiřazen termín „Curse of dimensionality“, který popisuje skutečnost, že použití velkého počtu parametrů (vysoké dimenze matice) může způsobit tzv. přetrénování a v konečném důsledku zhoršit následnou analýzu. Účelem výběru parametrů je tedy tuto množinu zredukovat na statisticky významné parametry, které jsou nejvhodnější pro uvažovanou aplikaci.

Software SFFS disponuje možností výběru parametrů na základě klasifikace, kde aktuální verze tohoto softwaru poskytuje 6 různých klasifikačních technik (metoda podpůrných vektorů, naivní Bayesovy sítě, diskriminační analýza, k-nejbližších sousedů, klasifikační stromy a Gaussovy smíšené modely), a také na základě regrese, kde je a aktuální verzi podporován algoritmus klasifikačních a regresních stromů. Software obsahuje také vícero metrik pro hodnocení kvality výběru: 18 metrik pro klasifikaci (klasifikační přesnost, senzitivita, specificita, atd.); 10 metrik pro regresi (gini index, absolutní chyba, střední kvadratická chyba, atd.). Balík navíc obsahuje i funkce potřebné pro cross-validaci (k-fold, leave-one-out) při procesu dopředné selekce. Tento software je celý naprogramován v programovém prostředí MATLAB. K otestování je možné použít přiložené skripty demo_cls.m a demo_reg.m, které načítají data ze souboru test_cls.mat a test_reg.mat (obsahují matici parametrů „feat_matrix“: sloupce popisují parametry; řádky popisují pozorování, a také vektor tzv. labelů „labels“ (pro klasifikaci jsou to skupiny, např. 0/1 – zdravý/nemocný a pro regresi to je spojitá škála hodnot)).

Projekty

Aplikace je výsledkem řešení projektů NT13499, VG20102014033 a FEKT-S-14-2335. Popsaný výzkum byl realizován v laboratořích podpořených z projektu SIX; registrační číslo CZ.1.05/2.1.00/03.0072, operační program Výzkum a vývoj pro inovace.

Licence

Pro jednání o licenčních podmínkách tohoto softwaru je za VUT pověřen pracovník Centra pro transfer technologií VUT v Brně Ing. Lukáš Novák, Kounicova 966/67a, Veveří, 60200, Brno, Česká republika, novak@ro.vutbr.cz.