Vyučující
|
-
Matlach Vladimír, Mgr. Ph.D.
|
Obsah předmětu
|
Budování korpusů zahrnuje kromě nutných filologických znalostí několik etap a oblastí technického rázu, jež budou v kurzu postupně probírány: (1) Formát: kódování znaků (ASCII, ANSI a Unicode) a formát dat (strukturovaný - XML vs. nestrukturovaný, tzv. plain text ".txt"). (2) Anotace (= metadata): externí vs. interní: strukturně-obsahová a lingvistická. (3) Nástroje: příprava a zpracování (zabudování do korpusového manažeru); korpus a vytěžování dat (dotazovací jazyk, anotace). Pro tvorbu korpusů jsou užívány volně dostupné softwarové nástroje (freeware, GNU GPL či OpenSource projekty). (4) Možnosti automatizace procesu zpracování dat (segmentace: tokenizace a vertikála; konverze formátů ad.). (5) Metodologické hledisko: jsou důsledně rozlišována data vs. metadata. (6) Možnosti a typy anotace (technická, strukturní, lingvistická). (7) Specifika dat - jejich sběr a zpracování (psaná vs. mluvená forma). Praktická cvičení (1) Sestavení vlastního korpusu: příprava dat: kódování, "čištění textu", konverze - formát .txt (prostý text) tokenizace a vertikalizace textu (využití softwarových aplikací) lingvistická anotace textu - lemmatizace, vytvoření tagsetu strukturace dat - značkování textu: jednoduchý XML formát finalizace korpusu a jeho uložení pod korpusový manažer Bonito (2) Práce s lingvistickými daty v různých korpusových aplikacích: GPL software (off-line) a webové rozhraní (on-line)
|
Studijní aktivity a metody výuky
|
Přednášení, Dialogická (diskuze, rozhovor, brainstorming), Metody práce s textem (učebnicí, knihou), Demonstrace
|
Výstupy z učení
|
Student bude schopen po absolvování kurzu sestavit a vyhodnotit vlastní malý korpus jazykových dat pro speciální účely. Kurz se zabývá problematikou tvorby malých korpusů pro jazykovědné a literárněvědné účely dle požadavků a kritérií definovaných sestavovatelem.
Schopnost sestavit malý korpus jazykových dat Schopnost interpretace korpusových dat
|
Předpoklady
|
nespecifikováno
|
Hodnoticí metody a kritéria
|
Rozbor produktů pracovní činnosti studenta (technické práce), Seminární práce
(1) Pravidelná účast a aktivní práce v semináři (včetně plnění zadaných úkolů) (2) Úspěšně realizovaný seminární projekt
|
Doporučená literatura
|
-
Antonín Vitovský. (2006). Moderní slovník softwaru : výkladový anglicko-český a česko-anglický. AV Software Praha.
-
Bradley, N. (2000). XML - kompletní průvodce. Praha.
-
Čermák - Klímová - Petkevič. Studie z korpusové lingvistiky. Praha 2000..
-
Čermák, F. - Blatná, R. Korpusová lingvistika: Stav a modelové přístupy. Praha 2006..
-
Kosek J. (2000). XML pro každého, podrobný průvodce. Grada Publishing, Praha.
-
Kosek, J. - Kopřivová, M. Manuál korpusového manažeru Bonito. Dostupné z http://www.korpus.cz/bonito/index.php.
-
Křen, M. Dotazovací jazyk korpusového manažeru Bonito. Dostupné z http://www.korpus.cz/bonito/regular.php.
|