Předmět: Vytěžování jazykových dat a databází

» Seznam fakult » FIF » KBH
Název předmětu Vytěžování jazykových dat a databází
Kód předmětu KBH/EJAZD
Organizační forma výuky Seminář
Úroveň předmětu Magisterský
Rok studia nespecifikován
Semestr Zimní a letní
Počet ECTS kreditů 4
Vyučovací jazyk Čeština
Statut předmětu nespecifikováno
Způsob výuky Kontaktní
Studijní praxe Nejedná se o pracovní stáž
Doporučené volitelné součásti programu Není
Vyučující
  • Pořízka Petr, PhDr. Ph.D.
Obsah předmětu
Metody exaktně založené analýzu textu s využitím softwarových nástrojů a textových databází, tzv. korpusů. Hlavní okruhy a témata: I. práce s korpusovými (zejm. konkordančními) nástroji, konkrétně a. tvorba a následná analýza frekvenčního slovníku libovolného textu b. vytěžování dat: konkordance, n-gramy (klastry), kolokace/koligace, klíčová slova textu c. využití regulárních výrazů, lingvistické anotace (lemma, tag) a dotazovacího jazyka CQL (Corpus Query Language) k vytěžování dat filtrování dat II. prominentní jednotky a textu: tematické výrazy, klíčová slova, lexikální vazby a slovní profily III. možnosti komparace a detekce vzájemných shod či rozdílností mezi texty: klastrování a vícerozměrná analýza IV. tvorba vlastní databáze DATA - jazykové korpusy a databáze - texty různého charakteru (beletrie, odborná literatura, publicistika ad.) - webové texty

Studijní aktivity a metody výuky
Přednášení, Dialogická (diskuze, rozhovor, brainstorming), Metody práce s textem (učebnicí, knihou), Demonstrace
Výstupy z učení
Cílem kurzu je představit studentům možná využití kvalitativně-kvantitativních metod analýzy textu na základě metod tzv. korpusové lingvistiky; (do)vést je k tomu, aby tyto metody a postupy dokázali aplikovat a použít pro komplexní a přitom exaktní analýzu založenou na kvantifikaci. V kurzu budou k těmto účelům prezentovány vybrané softwarové nástroje (vč. tzv. dotazovacích jazyků) a korpusové databáze, které mohou sloužit jako rozsáhlý a přitom strukturovaný zdroj autentických jazykových dat. Studenti budou v průběhu semináře vedeni k tomu, aby si osvojili nejnutnější terminologii, teorii a metody k samostatné práci s textem (vč. extrakce z databází).
Student bude schopen po absolvování kurzu využít jazykové databáze (tzv. korpusy), zejm. z portálu Český národní korpus (ČNK), osvojí si nejdůležitější nástroje a postupy vytěžování dat a bude schopen sestavit a vyhodnotit vlastní malý korpus jazykových dat pro speciální účely.
Předpoklady
nespecifikováno

Hodnoticí metody a kritéria
Rozbor produktů pracovní činnosti studenta (technické práce), Seminární práce

(1) Účast na tutoriálech (kontaktní výuka) (2) Splnění korespondenčních úkolů (3) Seminární projekt
Doporučená literatura
  • Sketch Engine User Guide.
  • Baker, P. - Hardie, A. - McEnery, T. (2006). A Glossary of Corpus Linguistics. Edinburgh.
  • Machálek, T. (2018). KonText - rozhraní pro vyhledávání v korpusech. Praha.
  • Pořízka, P. (2014). Tvorba korpusů a vytěžování jazykových dat (metody, modely, nástroje). Olomouc.


Studijní plány, ve kterých se předmět nachází
Fakulta Studijní plán (Verze) Kategorie studijního oboru/specializace Doporučený ročník Doporučený semestr