BUT-CZAS: Databáze nahrávek české řeči z bezodrazové komory

Autoři
Vojtěch Hájek
Pavol Harár *administrátor
Jiří Schimmel
Radim Burget

Popis
BUT-CZAS (Brno University of Technology, Czech Anechoic Speech) je databáze nahrávek lidského hlasu, pořízených v bezodrazové komoře Vysokého učení technického v Brně. Databáze obsahuje celkem 405 mono nahrávek čteného českého textu s bitovou hloubkou 24 bitů a vzorkovací frekvencí 48 kHz. Nahráváno bylo celkem 18 různých řečníků (9 žen a 9 mužů) ve věku od 16 do 76 let. Celková délka všech nahrávek je 315 minut. V nahrávkách dohromady zaznělo více než 40 tisíc verzí 1 747 unikátních slov. Při nahrávání byl kladen důraz především na dodržení stejných podmínek nahrávání ve vysoké kvalitě a na vyváženost zástupců všech skupin pohlaví a věku. Ke všem nahrávkám je k dispozici textový přepis.

Jak citovat?
Citujte prosím následující článek:
BUT-CZAS Korpus kvalitních nahrávek české řeči pořízených v bezodrazové komoře

Bibtex:

@article
{hajek2018butczas,
title={BUT-CZAS: Korpus kvalitních nahrávek české řeči pořízených v bezodrazové komoře},
author={Hajek, Vojtech and Harar, Pavol and Schimmel, Jiri and Burget, Radim},
journal={Elektrorevue},
pages={48--52},
year={2018},
publisher={International Society for Science and Engineering, o.s.}}

Licence & Stažení
Databáze BUT-CZAS je k dispozici ke stažení zdarma ve formě zip archivu. Databáze se skládá ze dvou částí; 1. Audio nahrávky a metadata, 2. Textové předlohy. Audio nahrávky a metadata jsou publikovány pod licencí CC0 Public Domain. Textové předlohy uživatel může použít jedině k vědeckému nebo uměleckému účelu, tedy výlučně k nekomerčnímu užití; jakékoli jiné využití se zakazuje. Stažením této databáze projevujete souhlas s licenčními podmínkami.

Rozšíření
V případě, že vlastníte nahrávky podobného typu a přejete rozšířit tuto databázi, prosím kontaktujte administrátora této databáze, nebo někoho ze stránky kontakty. Předtím jse však ujistěte, že nahrávky splňují následující podmínky:

  • Nahrávky byly pořízeny ve stejné, nebo podobné bezodrazové komoře, případně v prostředí, které splňuje požadavky uvedené v ISO 3745:2012.
  • Nahrávky byly pořízeny za použití přístrojů stejných, nebo alespoň s parametry podobnými jako originální databáze.
  • Nahrávky jsou uloženy ve formátu .wav se vzorkovací frekvencí a bitovou hloubkou alespoň 48 kHz a 24 bitů.

Více technických informací je k nalezení ve výše uvedeném článku.

Reference autorů textových podkladů (ISO 690)
* číslování citací jak uvedeno v článku

[1] ADAMS, Douglas. Stopařův průvodce po Galaxii. Přeložil Jana HOLLANOVÁ. Praha: Hynek, 1998. Fascinace. ISBN 80-86202-14-3.
[2] HEMINGWAY, Ernest. Stařec a moře. Přeložil Šimon PELLAR. Praha: Odeon, 2015. ISBN 978-80-207-1621-7.
[4] JIROTKA, Zdeněk. Saturnin. Vyd. 19., V nakl. Šulc – Švarc 6. Praha: Šulc – Švarc, 2005. ISBN 80-7244-169-8.
[5] ORWELL, George. Farma zvířat: pohádkový příběh. Praha: Aurora, 2000. ISBN 80-7299-021-7.
[6] SAINT-EXUPÉRY, Antoine de. Malý princ. 9. vyd. v Albatrosu. Přeložil Zdeňka STAVINOHOVÁ. Praha: Albatros, 1998. ISBN 80-00-00586-7.
[7] STEINBECK, John. O myších a lidech. Praha: Československý spisovatel, 1960. Edice ilustrovaných novel.
[8] ŠEDIVÝ, Petr.: Anglie a Skotsko se vzepřely vrchnosti, za vlčí máky mohou dostat trest. iDNES.cz, 2016. URL https://fotbal.idnes.cz/fot_reprez.aspx? c=A161112_010559_fot_reprez_pes