Klusterointiilluusio on kognitiivinen harha, taipumus virheellisesti olettaa, että väistämättömät arvojen "kaistat" tai "klusterit", joita esiintyy pienissä näytteissä satunnaisjakaumista, eivät ole satunnaisia. Tämä illuusio johtuu ihmisen taipumuksesta aliarvioida vaihtelun astetta, joka voi ilmetä pienessä otoksessa satunnaisia tai näennäissatunnaisia tietoja.
Klusteriilluusio on ihmisen taipumus odottaa satunnaisten tapahtumien näyttävän säännöllisemmiltä tai yhtenäisemmiltä kuin ne todellisuudessa ovat, mikä johtaa olettamukseen, että klusterit tai datamallit eivät voi johtua pelkästään satunnaisuudesta.
Tärkeä esimerkki klusteroinnista on, että yötaivaan tähdet näyttävät kirkkaammilta ja ruuhkaisemmilta joillakin alueilla, kun taas toisilla alueilla on "tyhjiä" kohtia. Klusteriilluusiossa yksinkertaisesti oletetaan, että sille on oltava jokin fyysinen selitys (esimerkiksi tähdet on ryhmitelty fyysisesti avaruuteen), koska ne "eivät näytä todella sattumanvaraisilta". Tähtien sijainti on kuitenkin satunnainen, ja käsityksemme järjestelmästä on virheellinen.
Aiheen varhainen tutkija Thomas Gilovich väitti, että klusteroitumisen illuusio esiintyy erityyppisillä satunnaisvaihteluilla, mukaan lukien kaksiulotteiset tiedot, kuten klusterit V-1- pommikohteissa Lontoon kartoilla toisen maailmansodan aikana ; tai kun arvioidaan osakemarkkinoiden hintojen vaihtelumalleja ajan kuluessa [1] .
Vaikka lontoolaiset kehittivät erityisiä teorioita Lontoon pommi-iskujen luonteesta, R. D. Clarken tilastollinen analyysi, joka julkaistiin ensimmäisen kerran vuonna 1946 , osoitti, että pommien jakautuminen oli lähellä matemaattista satunnaisuutta [2] [3] [4] [5] .
Ramseyn teoriana tunnetun matematiikan haaran mukaan täydellinen satunnaisuus ei ole mahdollista missään fysikaalisessa järjestelmässä. Olisi kuitenkin oikeampaa väittää, että klusteroituva illuusio viittaa ihmisen luonnolliseen taipumukseen liittää jokin arvo tiettyihin malleihin, joiden täytyy väistämättä esiintyä missä tahansa riittävän suuressa tietojoukossa.
Esimerkiksi useimmat ihmiset väittävät, että sekvenssi "OXXXOXXXOXXOOOXOOXXOO" ei ole satunnainen, vaikka sillä itse asiassa on monia ominaisuuksia, jotka voisivat olla myös "satunnaisessa" arvovirran ominaisuuksia, kuten yhtä monta arvoa. jokainen arvo ja että vierekkäisten klustereiden määrä, joilla on sama lopputulos, on yhtä suuri molemmille mahdollisille tuloksille. Tällaisten sekvenssien avulla ihmiset näyttävät odottavan enemmän muutoksia kuin tilastollisesti ennustettaisiin. Itse asiassa, pienessä määrässä kokeita, vaihtelu ja ei-satunnaisen näköiset "klusterit" ovat melko todennäköisiä.
Toinen esimerkki on yhdysvaltalaisen standardoidun monivalintatestin SAT:n vastaukset , joissa kysymykset on tarkoituksella asetettu erilleen siten, että ne eivät sisällä pitkiä sekvenssejä. Tämän seurauksena opiskelija voi tuntea painetta valita väärä vastaus.
Kaavojen olemassaolo ihmisen tietojoukon arvioinnissa voidaan usein määrittää käyttämällä tilastollista analyysiä tai jopa kryptausanalyysitekniikoita.
Harkitse sekvenssiä "XXOXOXOOOXOXOOOXOX"; onko hän satunnainen? Vastaus on ei; jos yhdistät paikan "X" merkkijonossa alkulukuihin ja "O" - yhdistelmänumeroihin, alkaen numerosta 2, kuvio on ilmeinen. Tietoa lukevat ja pakkaavat tietokoneohjelmat on tietyssä mielessä suunniteltu "etsimään kuvioita" tiedosta ja luomaan vaihtoehtoisia esityksiä, joista alkuperäiset tiedot voidaan rekonstruoida pakatusta muodosta. Suuret tietojoukot, jotka sisältävät luonteeltaan ei-satunnaisia "klustereita", voidaan odottaa pakkaavan hyvin oikealla koodausalgoritmilla. Toisaalta, jos tietyssä tietojoukossa ei ole todellista klusterointia tai kuviota, sen voidaan odottaa pakkaavan huonosti, jos ollenkaan.
Klusterien illuusio on ollut keskeinen Thomas Gilovichin, Robert Vallonen ja Amos Tverskyn paljon julkisuutta saaneessa tutkimuksessa . Heidän johtopäätöksensä kumosi koripallon "kuumien käsien" illuusion toteamalla, että tulosten jakautumista ei voida erottaa satunnaisuudesta [6] . Tunnetut kouluttajat, mukaan lukien Bobby Knight, ovat myös väitetysti pilkanneet ideaa.
Tämän kognitiivisen harhan käyttö syy-yhteyden tutkimuksessa voi johtaa virheisiin, myös tarkka-ampujien keskuudessa.
Yleisempiä hahmontunnistusvirheiden muotoja ovat pareidolia ja apotenia . Niihin liittyvät harhaluulot liittyvät illuusioon kontrollista, johon klusterointiilluusio voi vaikuttaa, ja otoskoon epäherkkyyteen, jossa ihmiset eivät odota suurempaa muutosta pienissä näytteissä. Toista kognitiivista harhaa, joka liittyy satunnaisten tietovirtojen väärinymmärrykseen, kutsutaan pelaajan virheeksi .
Daniel Kahneman ja Amos Tversky selvittivät tämän illuusion syitä ja havaitsivat, että klusterointiin perustuva virheellinen ennustus johtuu heuristisesta edustavuudesta (jonka he myös olivat edelläkävijöitä). Rivien tai sekvenssien ilmeinen läsnäolo datan jakelussa, jos niitä ei ole, voi olla ongelmallista sijoittajille. Syynä on se, että sijoittaja voi tulkita korkean tuoton ajanjakson trendiksi, vaikka se itse asiassa on vain murto-osa normaalista tuoton muutoksesta. Klusterien illuusio luo ansoja sijoittajille. Lyhyen aikavälin hintojen nousutiedot (useista kuukausista useisiin vuosiin) voivat vakuuttaa meidät tietyn sijoitusluokan, kuten osakkeiden, joukkovelkakirjojen tai kiinteistöjen, houkuttelevuudesta.
Tämä voi vaikuttaa sijoitustyyliin – esimerkiksi matala korko vs. high cap tai kasvu vs. arvosijoittaminen. Se voi jopa vakuuttaa sijoittajan siitä, että tietty rahanhoitaja on erehtymätön nero, kun hänen tuloksensa voidaan lukea vain puhtaan tuurin ansioksi.
Lisäksi klusteroitumisen illuusio on otettava huomioon arvioitaessa tieteellisessä tutkimuksessa saatua tilastotietoa. Se, kuinka relevantti ja tarkka näennäinen "otos" todella on, riippuu usein siitä, kuinka suuri alkuperäinen populaatiootoskoko oli.
Esimerkiksi, kun arvioidaan skitsofrenian esiintyvyyttä tietyssä etnisessä ryhmässä, olisi luotettavampaa tarkastella muutaman tuhannen ihmisen otosta kuin yhtä sadasta ihmisestä. Kun valitsee vain 100 ihmistä ja tarkkailee viittätoista skitsofreniaa sairastavaa henkilöä, tutkija voisi päätellä, että peräti 15 prosentilla väestöstä on skitsofrenia – tämä olisi toinen ilmentymä klusteroitumisesta illuusiosta. Tuhannen ihmisen valitseminen johtaisi todennäköisimmin todelliseen, tyypilliseen 1 %:n prosenttiosuuteen skitsofreniasta, mikä on useimpien etnisten ihmisten tilanne. Suuri populaatiootos helpottaa tarkkojen lukujen ekstrapoloimista ja klusteroitumisen illuusion välttämistä.