Předmět: Lingvistický data-mining 2 - Korpusová lingvistika

» Seznam fakult » FIF » KOL
Název předmětu Lingvistický data-mining 2 - Korpusová lingvistika
Kód předmětu KOL/91PM2
Organizační forma výuky Seminář
Úroveň předmětu Doktorský
Rok studia nespecifikován
Semestr Zimní a letní
Počet ECTS kreditů 15
Vyučovací jazyk Čeština
Statut předmětu Povinně-volitelný
Způsob výuky Kontaktní
Studijní praxe Nejedná se o pracovní stáž
Doporučené volitelné součásti programu Není
Vyučující
  • Matlach Vladimír, Mgr. Ph.D.
Obsah předmětu
Podrobnější výklad o několika nejvýznamnějších přístupech moderní formální lingvistiky, a to chomskyanského GB a minimalismu, lexikální funkční gramatiky J. Bresnanové, teorie optimalismu, kategoriální gramatiky a různých přístupech gramatiky závislostní. V celém výkladu bude brán výrazný zřetel na strukturální lingvistiku Pražské školy a její výsledky.

Studijní aktivity a metody výuky
Přednášení
Výstupy z učení
Cílem předmětu je rozvést znalosti z prvních dvou kurzů a stavět na programovacím jazyku R, ve kterém budou řešeny praktické úlohy především vícerozměrné datové analýzy. V tomto kurzu je řešen způsob porovnávání podobnosti objektů popsaných více než jednou vlastností, jejich shlukování dle podobnosti, porozumění vztahů jednotlivých vlastností mezi sebou a jejich vliv na utváření skupin. Dále je brán zřetel na smysluplnou vizualizaci takových dat a jejich interpretaci klasickými metodami až po ty nejmodernější. Tyto znalosti jsou dále rozšířeny o teorii grafů, jejich vizualizaci, aplikacím na sociální sítě a jejich vytěžování z různých zdrojů. Tento předmět přináší hlubší praktické i teoretické dovednosti. Vícerozměrné analýzy - Využití více kvantifikovaných vlastností, úskalí - Vzdálenosti a podobnosti mezi objekty - Vizualizace a interpretace vícerozměrných dat, vztahy mezi vlastnostmi - Shlukovací metody, hledání vzorů a skupin, popis a interpretace dat - Aplikace metod v praxi Problematika získávání dat - Korpusy, online databáze, otevřené datasety - Získávání dat z internetových zdroj: přístup přes API, REST, formáty JSON, XML - Web-Scrapping Texty a vícerozměrná data - Užití kvantitativní lingvistiky při popisu textů, editační vzdálenosti, latentní sémantika - Klasické způsoby modelování textů, jejich úskalí a řešení - Aplikace explikovaných vícerozměrných metod od shlukování až po vizualizace - Aplikace metod v praxi na určování autorství, jazyka, podobnosti děl, užití v sociologii, antropologii ad. Teorie grafů a sociální sítě - Teorie grafů a aplikace na sociální a jiné sítě, analýza sociální sítí (SNA) - Způsoby vytěžování vztahů z textu: dopisy, knihy, rukopisy, ? - Sociální sítě na internetu: diskuzní fóra a další - získávání dat a vztahů - Časová osa a vývoj vztahů - Nástroje Gephi a Cytoscape - Aplikace v historiografii, sociologii, politologii Úvod do geoinformačních systémů - Analýza dat vztahujících se k oblastem - Způsoby vizualizace dat

Předpoklady
Předmět je určen pouze pro studenty doktorského studia.

Hodnoticí metody a kritéria
Ústní zkouška

(1) Vypracování a splnění zadaných úloh. (2) Přečtení zadaných materiálů.
Doporučená literatura
  • Hajičová, Panevová, Sgall. (2003). Úvod do teoretické a počítačové lingvistiky. Praha.
  • Sells, P. (1985). Lectures on Contemporary Syntactic Theories. Stanford.
  • Stockwell, R. M. (1977). Fundations of Syntactic Theory. New Persey.


Studijní plány, ve kterých se předmět nachází
Fakulta Studijní plán (Verze) Kategorie studijního oboru/specializace Doporučený ročník Doporučený semestr
Fakulta: Filozofická fakulta Studijní plán (Verze): Lingvistika a Digital Humanities (2020) Kategorie: Filologické vědy - Doporučený ročník:-, Doporučený semestr: -
Fakulta: Filozofická fakulta Studijní plán (Verze): Lingvistika a Digital Humanities (2020) Kategorie: Filologické vědy - Doporučený ročník:-, Doporučený semestr: -