Tekstin louhinta

Text Mining ( IAT , englanniksi  text mining ) on tekoälyn suunta , jonka tarkoituksena on saada tietoa tekstidokumenttien kokoelmista koneoppimisen ja luonnollisen kielen käsittelyn käytännön menetelmien käyttöön perustuen . Nimellä "tekstin louhinta" on jotain yhteistä käsitteen " data mining " kanssa ( IAD , eng.  data mining), joka ilmaisee niiden tavoitteiden, lähestymistapojen tiedonkäsittelyyn ja sovellusalueiden samankaltaisuuden; ero ilmenee vain lopullisissa menetelmissä ja myös siinä, että IAD käsittelee arkistoja ja tietokantoja , ei sähköisiä kirjastoja ja tekstikorjauksia .

IAT-tehtäväryhmät

IAT-tehtävien keskeiset ryhmät ovat: tekstin luokittelu, tiedon poiminta ja tiedonhaku , tekstikokoelmien muutosten käsittely sekä tiedon esittämisen keinojen kehittäminen käyttäjälle. [yksi]

Asiakirjojen luokittelu koostuu asiakirjojen kohdistamisesta kokoelmasta yhteen tai useampaan samankaltaisten tekstien ryhmään (luokkiin, ryhmiin) (esimerkiksi aiheen tai tyylin mukaan). Luokittelu voi tapahtua henkilön osallistuessa ja ilman häntä. Ensimmäisessä tapauksessa, jota kutsutaan asiakirjojen luokitukseksi , IAT-järjestelmän on määritettävä tekstit jo määriteltyihin (sille sopiviin) luokkiin. Koneoppimisen kannalta tämä edellyttää ohjattua oppimista , jota varten käyttäjän tulee toimittaa IAT-järjestelmälle sekä luokat että näihin luokkiin kuuluvien asiakirjojen näytteet.

Toista luokittelutapausta kutsutaan asiakirjaklusteriksi . Samalla IAT-järjestelmän on itse määriteltävä joukko klustereita, joille tekstit voidaan jakaa - koneoppimisessa vastaavaa tehtävää kutsutaan valvomattomaksi oppimiseksi . Tässä tapauksessa käyttäjän on ilmoitettava IAT-järjestelmälle klusterien lukumäärä, joihin hän haluaa jakaa käsiteltävän kokoelman (oletetaan, että ominaisuuksien valintamenettely sisältyy jo ohjelmaalgoritmiin ).

Sovellus

Tekstianalyysi on viime aikoina herättänyt yhä enemmän huomiota eri aloilla, kuten turvallisuudesta, kaupasta ja tieteestä.

Turvallinen

Monet tekstianalyysipaketit, kuten Aerotext ja Attensity , on suunnattu tietoturvasovellusmarkkinoille, erityisesti pelkkien tekstilähteiden, kuten uutissivustojen, analysointiin.

Ohjelmistossa

Suuryritysten, kuten IBM :n , Applen ja Microsoftin , tutkimus- ja kehitysosastot tutkivat tekstin analytiikkateknologioita tavoitteenaan tulevaisuuden tietojen analysointi- ja poimintaprosessien automatisointi.

Muistiinpanot

  1. Berry, 2003 , s. xi.

Kirjallisuus

Venäjäksi:

Englanniksi: