Szövegbányászat

"Szövegbányászat és Mesterséges Intelligencia" képzési program

A képzési program két kurzusból áll. Az első egy 2 napos alapozó kurzus, mely bemutatja a szövegbányászat és a mesterséges intelligencia társadalomtudományi alkalmazásainak elméleti és gyakorlati alapjait, valamit lehetőséget nyújt a résztvevők számára egy mini-projekt kivitelezésére. A második kurzus már haladó szinten nyújt bevezetést a fontosabb szövegbányászati és gépi tanulásra épülő technikákba (melynek így előfeltétele az első kurzus elvégzése). A képzési program két része együttesen megfelelő alapokat nyújt egyszerűbb önálló kutatási projektek kivitelezésére.

Az alapozó kurzus két részből áll

 1. Elméleti-gyakorlati rész (3 x 1,5 óra) során a résztvevők megismerkednek az alapvető szövegbányászati feladatokkal és ezek társadalomtudományi alkalmazásaival. Áttekintő képet kapnak az információ-visszakeresés és az információ-kinyerés eltéréseiről, valamint a szózsák, a névelem-felismerés, az osztályozás, a vélemény- (szentiment-) elemzés, illetve a csoportosítás kérdésköréről. A kurzus az elméleti és módszertani alapok tisztázása mellett néhány példa keretében betekintést nyújt az R/RStudió használatába. Bemeneti követelmény nincs, az alapvető statisztikai, kvantitatív módszertani, valamint programozási ismerek ugyanakkor hasznosak az anyag feldolgozásához.
 2. Projekt rész (3 x 1,5 óra) részeként segítséget adunk egy kisebb szövegbányászati kutatási projekt megtervezéséhez és megvalósításához. A kutatási tervek olyan alapvető kvantitatív szövegelemzési eljárásokhoz kapcsolódhatnak, mint a szózsák módszer, egyszerű szótár-alapú elemzések, valamint névelemfelismerés. A kurzus során a résztvevők az oktatóval egyeztetett kutatási tervekhez és korpuszokhoz illeszkedően dolgozzák ki a szükséges adatbázisokat és scripteket. A kurzuson a tárgyalt kutatási tervek számától függően az oktatók szimultán foglalkoznak az egyedi projektjeiken dolgozó résztvevőkkel. A részvétel feltétele a bevezető szakasz teljesítése vagy annak ismeretanyagának demonstrált ismerete. Szintén alapfeltétel az R programnyelv és szoftverkörnyezet kezdő szintű ismerete, illetve előzetes telepítése a résztvevők számítógépén (ehhez az oktatók segítséget nyújtanak).

 

Alapszintű kurzus tematika

 1. A kvantitatív szövegelemzés és szövegbányászat alapfogalmai
 2. Az R és R Studio használata
 3. Adatvizualizáció ggplottal
 4. Adatimportálás, adatkezelés
 5. A korpuszépítés problémái és a szövegelőkészítés
 6. Leíró statisztika I: szózsák és szóeloszlások
 7. Leíró statisztika II: A szövegek reprezentálása a vektortérben. A dokumentum-kifejezés mátrix. TF-IDF
 8. Áttekintés a szövegbányászati módszerekről
 9. Egyszerű szótár-alapú elemzések
 10. Természetes-nyelv feldolgozás (NLP). Névelem-felismerés

 

A haladó kurzus az alapozó kurzus résztvevői számára nyújt – konkrét kutatási feladatok kapcsán – bevezetést az olyan haladó szövegbányászati eljárásokba, mint a szótár-alapú, a felügyelet nélküli tanulási, valamint a felügyelt tanulási algoritmusok. Az intenzív kurzus másfél napos (4 x 1,5 óra). Bemeneti követelmény a bevezető és az alkalmazott alapszintű kurzus elvégzése vagy ezek ismeretanyagának demonstrált ismerete. Szintén alapfeltétel az R programnyelv és szoftverkörnyezet felhasználói szintű ismerete.

Haladó kurzus tematika

 1. Szótáralapú elemzések, érzelem-elemzés
 2. Klaszterelemzés és topic modellezés
 3. Szóbeágyazások
 4. Szövegösszehasonlítás
 5. Szövegskálázás: felügyelet nélküli (WordFish) és felügyelt megoldások (WordScore)
 6. Osztályozás és felügyelt tanulás

 

A kurzus során használt tankönyv:

Sebők Miklós - Ring Orsolya (szerk.) (2021) Szövegbányászat és mesterséges intelligencia R-ben – Egy társadalomtudományi bevezetés. Budapest: Typotext (megjelenés alatt).

 

A szövegbányászat korábbi sorozata az alábbi linken érhető el: 
https://youtube.com/playlist?list=PLQFQJMjMkBXcR1yLHW5T3yM69efEigO60