Az alapozó kurzus bemutatja a szövegbányászat és a mesterséges intelligencia társadalomtudományi alkalmazásainak elméleti és gyakorlati alapjait.
A kurzushoz saját laptop szükséges, melyre az R és RStudio programok előzetesen telepítve vannak.
R program letöltése (legalább 4.0-ás verzió): https://www.r-project.org/
RStudio letöltése (legalább 1.4-es verzió):
https://www.rstudio.com/products/rstudio/download/#download
A kurzus során a résztvevők megismerkednek az alapvető szövegbányászati feladatokkal és ezek társadalomtudományi alkalmazásaival. Áttekintő képet kapnak az információ-visszakeresés és az információ-kinyerés eltéréseiről, valamint a szózsák és a vélemény- (szentiment-) elemzés kérdésköréről. A kurzus az elméleti és módszertani alapok tisztázása mellett néhány példa keretében betekintést nyújt az R/RStudió használatába.
Bemeneti követelmény nincs, ugyanakkor az alapvető statisztikai, kvantitatív módszertani, valamint programozási ismerek hasznosak az anyag feldolgozásához.
Az alapszintű kurzus tematikája:
- A kvantitatív szövegelemzés és szövegbányászat alapfogalmai
- Áttekintés a szövegbányászati módszerekről
- Az R és R Studio használata
- Adatimportálás, adatkezelés
- A korpuszépítés problémái és a szövegelőkészítés
- Leíró statisztika I: szózsák és szóeloszlások
- Leíró statisztika II: A szövegek reprezentálása a vektortérben. A dokumentum-kifejezés mátrix. TF-IDF
- Egyszerű szótár-alapú elemzések
- Egyszerűbb mesterséges intelligenciára épülő elemzések
A kurzus során használt tankönyv:
Sebők Miklós - Ring Orsolya – Máté Ákos (szerk.): Szövegbányászat és mesterséges intelligencia R-ben – Egy társadalomtudományi bevezetés. Budapest, 2021.
A könyv elérhető az alábbi linken: https://tankonyv.poltextlab.com/
A kurzus minimum létszáma: 6 fő