"Szövegbányászat és Mesterséges Intelligencia" képzési program
A képzési program két kurzusból áll. Az első egy 2 napos alapozó kurzus, mely bemutatja a szövegbányászat és a mesterséges intelligencia társadalomtudományi alkalmazásainak elméleti és gyakorlati alapjait, valamit lehetőséget nyújt a résztvevők számára egy mini-projekt kivitelezésére. A második kurzus már haladó szinten nyújt bevezetést a fontosabb szövegbányászati és gépi tanulásra épülő technikákba (melynek így előfeltétele az első kurzus elvégzése). A képzési program két része együttesen megfelelő alapokat nyújt egyszerűbb önálló kutatási projektek kivitelezésére.
Az alapozó kurzus két részből áll
- Elméleti-gyakorlati rész (3 x 1,5 óra) során a résztvevők megismerkednek az alapvető szövegbányászati feladatokkal és ezek társadalomtudományi alkalmazásaival. Áttekintő képet kapnak az információ-visszakeresés és az információ-kinyerés eltéréseiről, valamint a szózsák, a névelem-felismerés, az osztályozás, a vélemény- (szentiment-) elemzés, illetve a csoportosítás kérdésköréről. A kurzus az elméleti és módszertani alapok tisztázása mellett néhány példa keretében betekintést nyújt az R/RStudió használatába. Bemeneti követelmény nincs, az alapvető statisztikai, kvantitatív módszertani, valamint programozási ismerek ugyanakkor hasznosak az anyag feldolgozásához.
- Projekt rész (3 x 1,5 óra) részeként segítséget adunk egy kisebb szövegbányászati kutatási projekt megtervezéséhez és megvalósításához. A kutatási tervek olyan alapvető kvantitatív szövegelemzési eljárásokhoz kapcsolódhatnak, mint a szózsák módszer, egyszerű szótár-alapú elemzések, valamint névelemfelismerés. A kurzus során a résztvevők az oktatóval egyeztetett kutatási tervekhez és korpuszokhoz illeszkedően dolgozzák ki a szükséges adatbázisokat és scripteket. A kurzuson a tárgyalt kutatási tervek számától függően az oktatók szimultán foglalkoznak az egyedi projektjeiken dolgozó résztvevőkkel. A részvétel feltétele a bevezető szakasz teljesítése vagy annak ismeretanyagának demonstrált ismerete. Szintén alapfeltétel az R programnyelv és szoftverkörnyezet kezdő szintű ismerete, illetve előzetes telepítése a résztvevők számítógépén (ehhez az oktatók segítséget nyújtanak).
Alapszintű kurzus tematika
- A kvantitatív szövegelemzés és szövegbányászat alapfogalmai
- Az R és R Studio használata
- Adatvizualizáció ggplottal
- Adatimportálás, adatkezelés
- A korpuszépítés problémái és a szövegelőkészítés
- Leíró statisztika I: szózsák és szóeloszlások
- Leíró statisztika II: A szövegek reprezentálása a vektortérben. A dokumentum-kifejezés mátrix. TF-IDF
- Áttekintés a szövegbányászati módszerekről
- Egyszerű szótár-alapú elemzések
- Természetes-nyelv feldolgozás (NLP). Névelem-felismerés
A haladó kurzus az alapozó kurzus résztvevői számára nyújt – konkrét kutatási feladatok kapcsán – bevezetést az olyan haladó szövegbányászati eljárásokba, mint a szótár-alapú, a felügyelet nélküli tanulási, valamint a felügyelt tanulási algoritmusok. Az intenzív kurzus másfél napos (4 x 1,5 óra). Bemeneti követelmény a bevezető és az alkalmazott alapszintű kurzus elvégzése vagy ezek ismeretanyagának demonstrált ismerete. Szintén alapfeltétel az R programnyelv és szoftverkörnyezet felhasználói szintű ismerete.
Haladó kurzus tematika
- Szótáralapú elemzések, érzelem-elemzés
- Klaszterelemzés és topic modellezés
- Szóbeágyazások
- Szövegösszehasonlítás
- Szövegskálázás: felügyelet nélküli (WordFish) és felügyelt megoldások (WordScore)
- Osztályozás és felügyelt tanulás
A kurzus során használt tankönyv:
Sebők Miklós - Ring Orsolya (szerk.) (2021) Szövegbányászat és mesterséges intelligencia R-ben – Egy társadalomtudományi bevezetés. Budapest: Typotext (megjelenés alatt).
A szövegbányászat korábbi sorozata az alábbi linken érhető el:
https://youtube.com/playlist?list=PLQFQJMjMkBXcR1yLHW5T3yM69efEigO60