Tekstikaeve ja loomuliku keele töötlus

Tekstikaevet ja loomuliku keele töötlust (edaspidi NLP natural language processing) peetakse enamasti kaheks erinevaks valdkonnaks. Praktikas on neil siiski suur ühisosa ja täpset piiri kahe tegevusala vahele on keeruline tõmmata. Tekstikaeve all mõeldakse üldiselt üsna pealiskaudset tekstianalüüsi, mis ei võta arvesse teksti grammatikat ja muid keelega seotud aspekte. Suur osa tekstikaeve meetoditest on üles ehitatud lihtsatele sõnasagedustele (bag-of-words, word frequencies) ja n-grammidele.

NLP on valdkond, mis tegeleb põhjalikuma ja sisulisema tekstianalüüsiga, võttes arvesse näiteks lausepiire, sõnaliike ja -vorme, lauseehitust, semantikat jne. NLP alla kuuluvad ka valdkonnad, mis pole tekstikaevega üldse seotud nagu näiteks kõnetuvastus ja -süntees.

Lihtsa lause Ma ei ole rõõmus. näitel võiks tekstikaeve ja NLP erinevusi selgitada järgnevalt. Tekstikaeve meetodeid rakendades analüüsiksime selle lause tõenäoliselt positiivseks, kuna lauses esineb sõna rõõmus, mis annab edasi suurema osa lause tähendusest ja mis reeglina on positiivne omadussõna. NLP meetodid võimaldavad aga analüüsida lause vormilist poolt, st et ära tuntakse grammatiline eitus ning seda arvesse võttes me lauset kindlasti täielikult positiivseks pidada ei saa.

Tänapäeval on nii NLP kui ka tekstikaeve meie igapäevases elus n-ö taustaprotsess, mida me ise ei märkagi. Neid tehnikaid kasutatakse erinevates veebiteenustes, tõlketarkvaras, spellerites jm.

results matching ""

    No results matching ""