Název předmětu | Lingvistický data-mining 2 - Korpusová lingvistika |
---|---|
Kód předmětu | KOL/91PM2 |
Organizační forma výuky | Seminář |
Úroveň předmětu | Doktorský |
Rok studia | nespecifikován |
Semestr | Zimní a letní |
Počet ECTS kreditů | 15 |
Vyučovací jazyk | Čeština |
Statut předmětu | Povinně-volitelný |
Způsob výuky | Kontaktní |
Studijní praxe | Nejedná se o pracovní stáž |
Doporučené volitelné součásti programu | Není |
Vyučující |
---|
|
Obsah předmětu |
Podrobnější výklad o několika nejvýznamnějších přístupech moderní formální lingvistiky, a to chomskyanského GB a minimalismu, lexikální funkční gramatiky J. Bresnanové, teorie optimalismu, kategoriální gramatiky a různých přístupech gramatiky závislostní. V celém výkladu bude brán výrazný zřetel na strukturální lingvistiku Pražské školy a její výsledky.
|
Studijní aktivity a metody výuky |
Přednášení |
Výstupy z učení |
Cílem předmětu je rozvést znalosti z prvních dvou kurzů a stavět na programovacím jazyku R, ve kterém budou řešeny praktické úlohy především vícerozměrné datové analýzy. V tomto kurzu je řešen způsob porovnávání podobnosti objektů popsaných více než jednou vlastností, jejich shlukování dle podobnosti, porozumění vztahů jednotlivých vlastností mezi sebou a jejich vliv na utváření skupin. Dále je brán zřetel na smysluplnou vizualizaci takových dat a jejich interpretaci klasickými metodami až po ty nejmodernější. Tyto znalosti jsou dále rozšířeny o teorii grafů, jejich vizualizaci, aplikacím na sociální sítě a jejich vytěžování z různých zdrojů. Tento předmět přináší hlubší praktické i teoretické dovednosti. Vícerozměrné analýzy - Využití více kvantifikovaných vlastností, úskalí - Vzdálenosti a podobnosti mezi objekty - Vizualizace a interpretace vícerozměrných dat, vztahy mezi vlastnostmi - Shlukovací metody, hledání vzorů a skupin, popis a interpretace dat - Aplikace metod v praxi Problematika získávání dat - Korpusy, online databáze, otevřené datasety - Získávání dat z internetových zdroj: přístup přes API, REST, formáty JSON, XML - Web-Scrapping Texty a vícerozměrná data - Užití kvantitativní lingvistiky při popisu textů, editační vzdálenosti, latentní sémantika - Klasické způsoby modelování textů, jejich úskalí a řešení - Aplikace explikovaných vícerozměrných metod od shlukování až po vizualizace - Aplikace metod v praxi na určování autorství, jazyka, podobnosti děl, užití v sociologii, antropologii ad. Teorie grafů a sociální sítě - Teorie grafů a aplikace na sociální a jiné sítě, analýza sociální sítí (SNA) - Způsoby vytěžování vztahů z textu: dopisy, knihy, rukopisy, ? - Sociální sítě na internetu: diskuzní fóra a další - získávání dat a vztahů - Časová osa a vývoj vztahů - Nástroje Gephi a Cytoscape - Aplikace v historiografii, sociologii, politologii Úvod do geoinformačních systémů - Analýza dat vztahujících se k oblastem - Způsoby vizualizace dat
|
Předpoklady |
Předmět je určen pouze pro studenty doktorského studia.
|
Hodnoticí metody a kritéria |
Ústní zkouška
(1) Vypracování a splnění zadaných úloh. (2) Přečtení zadaných materiálů. |
Doporučená literatura |
|
Studijní plány, ve kterých se předmět nachází |
Fakulta | Studijní plán (Verze) | Kategorie studijního oboru/specializace | Doporučený semestr | |
---|---|---|---|---|
Fakulta: Filozofická fakulta | Studijní plán (Verze): Lingvistika a Digital Humanities (2020) | Kategorie: Filologické vědy | - | Doporučený ročník:-, Doporučený semestr: - |
Fakulta: Filozofická fakulta | Studijní plán (Verze): Lingvistika a Digital Humanities (2020) | Kategorie: Filologické vědy | - | Doporučený ročník:-, Doporučený semestr: - |