Tekstikaeve

Tekstikaeve on olemasolevatest struktureerimata (teksti)andmetest kasuliku info eraldamine. Reeglina ei võeta arvesse teksti detailsemat tähendust, näiteks sõnavorme ja semantikat, vaid tegeletakse lihtsate sõnavormide analüüsimisega.

Tekstiandmed on enamasti üsna "mustad", mis tähendab, et andmete eeltöötluseks ja puhastamiseks tuleb varuda aega.Teksti eeltöötlus ongi tekstikaeve üks töömahukamaid osi. Erinevatel hinnangutel moodustab see kogu töö- ja ajakulust umbes 80%.

Teksti eeltöötlus koosneb reeglina järgnevatest sammudest:

  • huvipakkuvate sõnade või sõnakombinatsioonide tekstist eraldamine ning töötluse jaoks sobivale kujule viimine,

  • stopp-sõnade eemldamine,

  • lemmatiseerimine, kui selle jaoks on olemas vajalikud tööriistad.

Kõik allikad, mis sisaldavad teksti, võivad olla aluseks mõne tekstikaeve ülesande lahendamiseks. Milliseid tekste ja kuidas neid kasutada, oleneb konkreetse töö eesmärgist ja ülesandest.

results matching ""

    No results matching ""