Tietojen yhdistäminen on prosessi, jossa tietolähteitä yhdistetään johdonmukaisemman, tarkemman ja hyödyllisemmän tiedon tuottamiseksi kuin yhdestä lähteestä [1] .
Tietojen yhdistämisprosessit ryhmitellään usein matalaan, keskitasoon tai korkeaan yhdistämiseen riippuen käsittelyvaiheesta, jossa yhdistäminen suoritetaan [2] . Matalan tason datafuusio yhdistää jotkin raakadatalähteet tuottamaan muuta raakadataa. Yhdistettyjen tietojen on oltava informatiivisempia ja synteettisempiä kuin alkuperäiset tiedot.
Esimerkiksi tietojen kerääminen ja yhteenveto antureista tunnetaan (multi-sensor) datafuusiona ja se on osajoukko tiedon fuusiota .
Ihmiset ovat suora esimerkki tiedon yhdistämisestä. Ihmisinä luotamme laajalti aisteihimme, kuten näkö-, haju- , maku-, ääni- ja fyysiseen liikkeeseen. Kaikkien näiden aistien yhdistelmä yhdistyy jatkuvasti auttamaan meitä suorittamaan useimmat, ellei kaikki, päivittäisen elämämme tehtävistä. Tämä on siis suora esimerkki tiedon yhdistämisestä. Luotamme ruoan tuoksun, maun ja kosketuksen yhdistelmään varmistaaksemme, että se on syötävä. Samoin luotamme näköomme ja kykyymme kuulla ja hallita kehomme liikkeitä kävellä tai ajaa autoa ja suorittaaksemme suurimman osan elämästämme. Kaikissa näissä tapauksissa aivot sulautuvat yhteen ja hallitsevat sitä, mitä meidän on tehtävä seuraavalla hetkellä. Aivomme luottavat yllä olevista aisteista kerättyjen tietojen fuusioon [3] .
Tutkimuksen geospatial-alueella ( GIS ) tietojen yhdistäminen on usein synonyymi tiedon integroinnille . Näissä sovelluksissa on usein tarve yhdistää eri tietojoukot yhdistetyksi tietojoukoksi, joka sisältää kaikki datapisteet. Yhdistetyt tietojoukot eroavat yksinkertaisesta liittämisestä siinä, että yhdistetyn tietojoukon pisteet sisältävät attribuutteja ja metatietoja , joita alkuperäisen tietojoukon pisteillä ei välttämättä ole.
Alla on yksinkertaistettu esimerkki tästä prosessista, jossa tietojoukko α yhdistetään tietojoukkoon β muodostaen yhdistetyn tietojoukon δ. Joukon α datapisteillä on X- ja Y-tilakoordinaatit sekä A1- ja A2-attribuutit. Tietopisteillä joukossa β on X- ja Y-tilakoordinaatit sekä B1- ja B2-attribuutit. Yhdistetty tietojoukko sisältää kaikki pisteet ja attribuutit.
Syötä tietojoukko α | Syötä tietojoukko β | Yhdistetty tietojoukko δ | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
|
|
Yksinkertaisessa tapauksessa, kun kaikki attribuutit ovat yhdenmukaisia koko alueella, attribuutit voidaan määrittää yksinkertaisesti: M?, N?, Q?, R? M, N, Q, R. Varsinaisissa sovelluksissa attribuutit eivät ole yhtenäisiä ja yleensä tarvitaan jonkinlainen interpolointi, jotta attribuutit voidaan määrittää oikein yhdistetyn joukon tietopisteille.
Paljon monimutkaisemmassa sovelluksessa merieläintutkijat ovat käyttäneet eläinten liiketietojen fuusiota syvyysmittaisten ja meteorologisten tietojen, merenpinnan lämpötilan eläinten elinympäristön kanssa nähdäkseen ja ymmärtääkseen eläinten käyttäytymistä vasteena ulkoisille vaikutuksille, kuten säälle ja veden lämpötilalle. Jokainen näistä tietojoukoista edustaa erilaista spatiaalista ruudukkoa ja näytteenottotaajuutta, joten yksinkertainen tietojen yhdistelmä antaisi todennäköisesti kohtuuttomia oletuksia ja sotkee analyysin. Yhdistämällä tiedot kuitenkin kootaan kaikki tiedot ja attribuutit yhdeksi kokonaisuudeksi, mikä luo täydellisemmän kuvan ympäristöstä. Tämä antaa tutkijoille mahdollisuuden paikantaa tärkeimmät paikat ja ajat ja antaa uusia näkemyksiä ympäristön ja eläinten käyttäytymisen välisestä vuorovaikutuksesta.
Oikealla olevassa kuvassa hummereita tutkitaan Tasmanmeren rannoilla. Hugh Pederson Tasmanyn yliopistosta käytti tietojen fuusio-ohjelmia yhdistääkseen eteläisen hummerin liikkeenseurantatiedot koodattu keltaisella ja mustalla päivällä ja yöllä kuvassa) syvyys- ja elinympäristötietojen kanssa yhdeksi 4-ulotteiseksi hummerien käyttäytymismalliksi.
Geospatiaalisten toimialueiden ulkopuolisissa sovelluksissa termien dataintegraatio ja tiedon yhdistäminen eroavat toisistaan. Esimerkiksi liiketoimintatiedon kaltaisilla aloilla termiä "datan integrointi" käytetään kuvaamaan tietojen yhdistelmää, kun taas termi "datafuusio" on integrointi, jota seuraa tiivistäminen ja tietojen korvaaminen. Tietojen integrointia voidaan pitää joukkoyhdistelmänä, jossa säilytetään suurempi joukko, kun taas fuusio on joukon vähentämistekniikka, jolla on parannettu luotettavuus.
1980-luvun puolivälissä Joint Directors of Laboratories (JDL) muodostivat Data Fusion -alikomitean (josta tuli myöhemmin nimellä Data Fusion Group , DFG) . World Wide Webin myötä datafuusio alkoi sisältää anturifuusiota ja tiedon fuusiota. JDL/DFIG-ryhmä on ottanut käyttöön datafuusiomallin, joka on jaettu eri prosesseihin. Data Fusion Information Group ( DFIG ) -mallissa on tällä hetkellä kuusi tasoa :
Taso 0: Lähteen esikäsittely / aiheen arviointi
Taso 1 : Kohteen arviointi _
Taso 2 : Tilannearviointi _ _
Taso 3 : Vaikutusten arviointi ( tai uhan tarkentaminen ) _
Taso 4 : Prosessin tarkentaminen _
Taso 5 : Käyttäjän tarkennus tai kognitiivinen tarkennus _ _ _
Vaikka JDL-malli (tasot 1–4) on edelleen käytössä, sitä kritisoidaan usein siitä, että tasot on toteutettava määritellyssä järjestyksessä ja että se ei edusta riittävästi ihmisen osallistumista. DFIG-malli (tasot 0–5) ottaa huomioon ympäristötietoisuuden, käyttäjien tehostamisen ja työnhallinnan vaikutukset [4] . Puutteistaan huolimatta JDL/DFIG-mallit ovat hyödyllisiä tietojen fuusion prosessin visualisoinnissa, mikä edistää keskustelua ja yhteisymmärrystä [5] ja ovat tärkeitä myös tietofuusion kehittämisessä järjestelmätasolla [4] .
Tietoa eri anturitekniikoista voidaan älykkäästi yhdistää liikenteen tarkan tilan määrittämiseksi. Tiestä johdettua akustista, kuva- ja anturidataa käyttävä datafuusiomenetelmä osoittaa erilaisten yksittäisten menetelmien yhdistämisen edut [6] .
Monissa tapauksissa maantieteellisesti hajallaan olevien antureiden tehonkulutus ja suoritusteho ovat erittäin rajallisia. Siksi tiettyyn ilmiöön liittyvä raakadata pienennetään usein useisiin bitteihin jokaista anturia kohti. Päätettäessä binääritapahtumaa (eli tai ), äärimmäisessä tapauksessa vain binääriratkaisu lähetetään anturista päätösvarauskeskukseen ja yhdistetään parannetun luokituksen saamiseksi [7] [8] [9] .
Suuri määrä sisäänrakennettuja antureita, mukaan lukien liikeanturit, ympäristöanturit ja sijaintianturit, modernit mobiililaitteet mahdollistavat tyypillisesti mobiilisovellusten pääsyn suureen määrään anturitietoja, joita voidaan käyttää kontekstuaalisen tietoisuuden parantamiseen. Signaalinkäsittely- ja datafuusiotekniikoiden, kuten ominaisuuksien luomisen, toteutettavuusarvioinnin ja pääkomponenttianalyysin käyttäminen tällaisten anturitietojen analysoinnissa parantaa merkittävästi liikkeen luokittelua ja laitteen kontekstuaalista tilaa [10] .
Data | |
---|---|
|