Vyučující
|
-
Pořízka Petr, PhDr. Ph.D.
|
Obsah předmětu
|
Budování korpusů zahrnuje kromě nutných filologických znalostí několik etap a oblastí technického rázu, jež budou v kurzu postupně probírány: (1) Formát: kódování znaků (ASCII, ANSI a Unicode) a formát dat (strukturovaný - XML vs. nestrukturovaný, tzv. plain text ".txt"). (2) Anotace (= metadata): externí vs. interní: strukturně-obsahová a lingvistická. (3) Nástroje: příprava a zpracování (zabudování do korpusového manažeru); korpus a vytěžování dat (dotazovací jazyk, anotace). Pro tvorbu korpusů jsou užívány volně dostupné softwarové nástroje (AntConc aj.), příp. nástroje proprietární, ale se speciální EDU licencí (SketchEngine). Z metodologického hlediska jsou důsledně rozlišována data vs. metadata, dále jsou probírány možnosti a typy anotace (technická, strukturní, lingvistická). Součástí semináře budou tzv. seminární projekty. Student bude schopen po absolvování kurzu sestavit a vyhodnotit vlastní malý korpus pro speciální účely.
|
Studijní aktivity a metody výuky
|
Přednášení, Dialogická (diskuze, rozhovor, brainstorming), Metody práce s textem (učebnicí, knihou), Demonstrace
|
Výstupy z učení
|
Student bude schopen po absolvování kurzu sestavit a vyhodnotit vlastní malý korpus jazykových dat pro speciální účely. Kurz se zabývá problematikou tvorby malých korpusů pro jazykovědné a literárněvědné účely dle požadavků a kritérií definovaných sestavovatelem.
Schopnost sestavit korpus jazykových dat Schopnost interpretace korpusových dat Student bude schopen po absolvování kurzu sestavit a vyhodnotit vlastní malý korpus jazykových dat pro jazykovou analýzu. Kurz se zabývá problematikou tvorby malých korpusů pro jazykovědné a literárněvědné účely dle požadavků a kritérií definovaných sestavovatelem a s pomocí softwarových nástrojů k tomu určených.
|
Předpoklady
|
nespecifikováno
|
Hodnoticí metody a kritéria
|
Rozbor produktů pracovní činnosti studenta (technické práce), Seminární práce
(1) Pravidelná účast a aktivní práce v semináři (včetně plnění zadaných úkolů) (2) Úspěšně realizovaný seminární projekt - vzhledem k technickým nárokům disciplíny bude vycházet z výsledků a znalostí studentů získaných v průběhu semináře
|
Doporučená literatura
|
-
Sketch Engine User Guide.
-
Baker, P. - Hardie, A. - McEnery, T. (2006). A Glossary of Corpus Linguistics. Edinburgh.
-
Čermák - Klímová - Petkevič. Studie z korpusové lingvistiky. Praha 2000..
-
Čermák, F. - Blatná, R. Korpusová lingvistika: Stav a modelové přístupy. Praha 2006..
-
Kosek J. (2000). XML pro každého, podrobný průvodce. Grada Publishing, Praha.
-
Machálek, T. (2018). KonText - rozhraní pro vyhledávání v korpusech. FF UK, Praha. Dostupný z WWW: <http://kontext.korpus.cz/>. Praha.
-
Pořízka, P. (2014). Tvorba korpusů a vytěžování jazykových dat (metody, modely, nástroje). Olomouc.
-
Wynne Martin (ed.). Developing Linguistic Corpora: A Guide to Good Practice.
|