Szövegbányászat és Mesterséges Intelligencia képzési program – alapozó kurzus

Az alapozó kurzus, mely bemutatja a szövegbányászat és a mesterséges intelligencia társadalomtudományi alkalmazásainak elméleti és gyakorlati alapjait, valamit lehetőséget nyújt a résztvevők számára egy mini-projekt kivitelezésére.

A kurzushoz saját laptop szükséges, melyre az R és RStudio programok előzetesen telepítve vannak.

Az R program (legalább 4.0-ás verzió) letölthető: 
https://www.r-project.org/ 

Az RStudio (legalább 1.4-es verzió) letölthető: 
https://www.rstudio.com/products/rstudio/download/#download

Az alapszintű kurzus két részből áll

  1. Elméleti-gyakorlati rész (3 x 1,5 óra) során a résztvevők megismerkednek az alapvető szövegbányászati feladatokkal és ezek társadalomtudományi alkalmazásaival. Áttekintő képet kapnak az információ-visszakeresés és az információ-kinyerés eltéréseiről, valamint a szózsák, a névelem-felismerés, az osztályozás, a vélemény- (szentiment-) elemzés, illetve a csoportosítás kérdésköréről. A kurzus az elméleti és módszertani alapok tisztázása mellett néhány példa keretében betekintést nyújt az R/RStudió használatába. Bemeneti követelmény nincs, az alapvető statisztikai, kvantitatív módszertani, valamint programozási ismerek ugyanakkor hasznosak az anyag feldolgozásához.
  2. Projekt rész (3 x 1,5 óra) részeként segítséget adunk egy kisebb szövegbányászati kutatási projekt megtervezéséhez és megvalósításához. A kutatási tervek olyan alapvető kvantitatív szövegelemzési eljárásokhoz kapcsolódhatnak, mint a szózsák módszer, egyszerű szótár-alapú elemzések, valamint névelemfelismerés. A kurzus során a résztvevők az oktatóval egyeztetett kutatási tervekhez és korpuszokhoz illeszkedően dolgozzák ki a szükséges adatbázisokat és scripteket. A kurzuson a tárgyalt kutatási tervek számától függően az oktatók szimultán foglalkoznak az egyedi projektjeiken dolgozó résztvevőkkel. A részvétel feltétele a bevezető szakasz teljesítése vagy annak ismeretanyagának demonstrált ismerete. Szintén alapfeltétel az R programnyelv és szoftverkörnyezet kezdő szintű ismerete, illetve előzetes telepítése a résztvevők számítógépén (ehhez az oktatók segítséget nyújtanak).

 

Alapszintű kurzus tematika:

  1. A kvantitatív szövegelemzés és szövegbányászat alapfogalmai

  2. Az R és R Studio használata

  3. Adatvizualizáció ggplottal

  4. Adatimportálás, adatkezelés

  5. A korpuszépítés problémái és a szövegelőkészítés

  6. Leíró statisztika I: szózsák és szóeloszlások

  7. Leíró statisztika II: A szövegek reprezentálása a vektortérben. A dokumentum-kifejezés mátrix. TF-IDF

  8. Áttekintés a szövegbányászati módszerekről

  9. Egyszerű szótár-alapú elemzések

  10. Természetes-nyelv feldolgozás (NLP). Névelem-felismerés

 

A kurzus során használt tankönyv:

Sebők Miklós - Ring Orsolya – Máté Ákos: Szövegbányászat és mesterséges intelligencia R-ben. Budapest, Typotex, 2021. A könyv online elérhető: https://tankonyv.poltextlab.com/

"Szövegbányászat és Mesterséges Intelligencia" képzési program keretében később meghirdetésre kerülő Haladó kurzus magasabb szinten nyújt bevezetést a fontosabb szövegbányászati és gépi tanulásra épülő technikákba (ennek ezért előfeltétele az alapozó kurzus elvégzése). A képzési program két része együttesen megfelelő alapokat nyújt egyszerűbb önálló kutatási projektek kivitelezésére.

Előadók: Sebők Miklós, Máté Ákos, Ring Orsolya és Járay István Péter

 

Az esemény ide kattintva érhető el!