Tekstikaevega seotud termineid

Dokument (document) ei tähenda tekstikaeve ja andmetöötluse kontekstis ilmtingimata seda, mida üldkeeles. Dokument võib olla ka mingi lause, tekstiosa, fail vmt. Olenevalt sellest, kuidas algmaterjali oma ülesannete lahendamiseks töötleme. Enamasti mõistetakse selle all siiski ühte faili, näiteks meil võib olla kogu kirjandusteoseid, arhiividokumente, aga samamoodi võib meil olla ka hulk tekstifaile, mis on jaotatud näiteks kirjandusteoste põhjal peatükkideks ja iga fail sisaldabki ainult ühte peatükki (või ka veel väiksemat üksust). Sellisel juhul nimetame dokumendiks seda ühte eraldi failis olevat tekstiosa. Kui töötleme teksti automaatselt, siis võib juhtuda, et töö käigus jagame selle mingitel põhjustel väiksemateks osadeks ning ei pea neid osasid salvestama ilmtingimata eraldi failidesse, et saaksime neid tekstiosi dokumentideks nimetada. Näiteks jagame tekstid 1000-sõnalisteks juppideks ning arvutame sõnade arvu või teeme muid operatsioone nendel juppidel. Selliselgi juhul räägiksime tekstikaeve kontekstis dokumendist, olgugi et pole neid tekstiosi eraldi failidena salvestanud. Mõnedes käsitlustes nimetatakse dokumendiks ainult ühte lauset. Kokkuvõttes võib öelda, et dokumendiks nimetatakse enamasti mingit üksust, mille piires teksti töötleme või mingeid arvutusi teeme.

Sõne (token) inglise keeles mõeldakse selle all enamasti sõna. Eesti keele puhul peaks rangemalt rääkima sõnavormidest. Enamasti on tegemist mingi eraldiseisva tekstiüksusega, mis on teistest tekstiosadest eraldatud tühikutega.

Termin (term) võib olla sõna aga ka sõnaühend Tartu linn, alla käima ehk siis üks tähenduslik üksus.

Korpus (corpus): selle mõiste sisu on üsna lai. Tekstikaeve kontekstis räägime korpusest kui tekstikogust, mida töötleme, analüüsime, uurime. Näiteks kui me uurime mingi perioodi ilukirjandust, siis meie korpus ongi see tekstifailide kogu ilukirjanduslike tekstidega. Kui uurime mingi asutuse koosolekute protokolle, siis meie korpus on see failidekogu, mis neid protokolle sisaldab. Seega võib korpus oma sõnade mahult ja failide arvult olla üsna väike. Keeleteaduses on korpuse mõiste natuke spetsiifilisem, kus korpuseks nimetatakse mingit kindlal eesmärgil ja kindlate põhimõtete järgi koostatud tekstikogu. Eesti keele jaoks on olemas arvukalt korpusi, millega saad tutvuda näiteks Eesti Keeleressursside Keskuse kodulehel.

Stopp-sõnad (stopwords) on sõnad, mida soovime teksti analüüsimisel eemaldada. Sageli on need tekstis väga sagedased ja n-ö grammatilised sõnad. Enamasti kuuluvad selliste sõnade hulka sidesõnad (ja, kui), asesõnad (mingi, see, teie), sageli kasutatavad ja n-ö sisutühjad väga mitmetähenduslikud tegusõnad (olema, saama, pidama), inglise keeles ka artiklid jmt.

Dokumendi termini maatriks (document term matrix) on põhimõtteliselt korpuse dokumentide sõna(vormide) sagedustabel. Siin on oluline meeles pidada, et korpus on meie kasutatav tekstide ja/või failide kogu ning dokument võib olla fail, lõik, lause jne. Oletame praegu, et meie korpus koosneb dokumentidest ning dokumendiks peame ühte faili. Sellisel juhul näeks see maatriks skemaatiliselt välja selline, kus veergudes on kõik dokumentide sõnad ning ridades nende sagedused igas dokumendis.

tekstikaeve andmed eesti keel õppima esitama
Dokument 1 8 6 7 1 1
Dokument 2 0 15 0 0 9
Dokument 3 0 0 25 0 0
Dokument 4 0 0 0 1 2
Dokument 5 15 6 0 0 6

Siin on oluline tähele panna, et räägime terminitest, mitte sõnedest ja sõnadest. Seega võib termini veerus olla ka sõnaühend. Sellised maatriksid on aluseks ja sisendiks paljudele tekstikaeve meetoditele. Dokumendid on esitatud ridades ning terminid veergudes

Harva esinevad terminid (sparse terms) on terminid, mis esinevad meie korpuse üksikutes või väga vähestes dokumentides ning on enamasti madala esinemissagedusega.

Üksustamine ehk sõnapiiride tuvastamine (tokenization) on tehniline protsess, mille käigus struktureerimata andmestik ehk tekst jagatakse sõnadeks (eesti keele puhul enamasti sõnavormideks) ja sõnaühenditeks. Ingliskeelses kirjanduses kasutatakse sageli ka terminit stemming, mille all mõeldakse sõnatüvede tuvastamist. Eesti keeles võiks seda nimetada sufiksieemalduseks või muuteliidete eemalduseks. Selle protsessi käigus tuvastatakse sõnatüvi ning sõnad viiakse ühele kujule, et neid oleks võimalik analüüsida kui samasisulisi termineid. Näiteks sõnad sõbralik, sõbralikkus, sõber võiks teisendada kõik kujule sõber kui samasisulised terminid.

Lemmatiseerimine või algvormistamine (lemmatizing) on protsess, mille käigus sõnavormid viiakse nende algvormi (või sõnaraamatu) kujule. Eesti keele puhul ongi mõistlikum kasutada sufiksieemalduse asemel lemmatiseerimist kui täpsema ja informatiivsema tulemusega tehnikat. Lemmatiseerimise käigus saaks näiteks sõnavormidest loetud, lugesime, loeme, loetakse jne algvorm lugema.

Dokumendi sõnasagedused (bag-of-words, word frequencies) on sõna(vormide) sagedused ühes dokumendis või korpuses.

Sõnaliikide märgendamine (part of speech tagging) on protsess, mille käigus määratakse korpuse või tekstikogu igale sõnale tema sõnaliik (nimisõna, tegusõna, asesõna jne).

Morfoloogiline märgendamine (morphological tagging) on protsess, mille käigus, lisaks sõnaliikidele, lisatakse sõnale ka tema muu morfoloogiline info (nimisõna ainsuse omastav, tegusõna oleviku esimene pööre jne).

Tf-idf (Term Frequency - Inverse Document Frequency) on suurus, millega mõõdetakse sõna "olulisust" korpuses. Arvutamisel võetakse arvesse sõnasagedust (tf) ja dokumendi pööratud esinemissagedus (idf). Tf on lihtne terminisageduse ja kõigi terminite sageduste summa suhe. Idf näitab, kui oluline sõna korpuses on. Kui sõna esineb ühes dokumendis sageli, võib eeldada, et see on oluline. Kui sama sõna aga esineb sageli ka teistes dokumentides, võib eeldada, et tegemist pole väga informatiivse sõnaga ning sõna olulisust vähendatakse. Tf-idf suhet arvutatakse järgnevalt: tf-idf = tf*idf, kus tf(t) = termini(t)sagedus/kõigi terminite arv ja idf(t) = ln(kõigi dokumentide arv/dokumentide arv kus esineb termin t.

Näide

Oletame, et meil on korpus, mis koosneb 15 dokumendist ja sõna tekstikaeve esineb neist 4 dokumendis. Kokku kõigis dokumentides esineb sõna tekstikaeve 670 korda ja meie korpuse suurus on 45 000 sõna. Nende andme te põhjal tf = 670/45 000 = 0,0149 ning idf = ln(15/4) = 5,926926026 ja seega tf*idf = 0,088.

Tf-idf rakendatakse praktikas paljude tekstikaeveaga seotud ülesannete lahendamiseks näiteks:

  • Stopp-sõnade loendi tegemisel. Terminid, mille tf-idf väärtus on null või nulliähedane võib lisada stopp-sõnade loendisse. Need on terminid, mis esinevad (peaaegu) kõigis dokumentides.
  • Oluliste sõnade tuvastamine. Terminid, millel on kõrge tf-idf väärtus, on tõenäoliselt kõige olulisemad.
  • Dokumentide klassifitseerimine tf-idf väärtuste põhjal. Neist väärtustest saame luua kaugusmaatriksi, mida võime kasutada mõne klassifitseerimismeetodi (näiteks klasteranalüüs) sisendina. Analüüsi tulemusena moodustavad sarnasemad dokumendid eraldi rühmad.

n-grammid (n-grams). Sisuliselt on tegemist järjestikku koosesinevate sõna(vormide) loenditega. Olenevalt n-grammi pikkusest võib neid täpsemalt nimetada unigrammideks, bigrammideks, trigrammideks jne. Näiteks lause:

Teaduse üldine arengumudel on üha enam liikunud teooriakesksest lähenemisest andmekeskseks.

bigrammid on: teaduse üldine, üldine arengumudel, arengumudel on, on üha, üha enam, enam liikunud, liikunud teooriaesksest, teooriakesksest lähenemisest, lähenemisest andmekeskseks

Kokku 9 bigrammi

trigrammid on: teaduse üldine arengumudel, üldine arengumudel on, arengumudel on üha, on üha enam, üha enam liikunud, enam liikunud teooriakesksest, liikunud teooriakesksest lähenemisest, teooriakesksest lähenemisest andmekeskseks

Kokku 8 trigrammi.

Kui palju n-gramme ühes lauses on? Kui S on lause L sõnade arv, siis lause L n-grammide hulk on X - (N-1).

10 - (2-1); 10 - (3-1)

Meelestatuse analüüs (sentiment analysis, opinion mining, emotion AI) tekstikaeve ja keeletehnoloogia metoodika, millega püütakse tuvastada teksti subjektiivsust, emotsionaalsust, hinnangulisust. Sagedamini kasutatav valdkond on näiteks klientide tootearvustused ja tagasiside tekstid, kus püütakse automaatselt tuvastada, kas tegemist on positiivsete või negatiivsete arvustustega.

Polaarsus (polarity) meelestatuse analüüsi kontekstis tähendab see dokumendi hinnangulisust: kas tegemist on positiivse, negatiivse või neutraalse hinnanguga. Termin on üsna sageli kasutuses ka teistes valdkondades ning seetõttu võib segadust tekitada. Keeleteaduses mõeldakse polaarsuse all näiteks eitust ja jaatust.

results matching ""

    No results matching ""