Data science ( englanniksi data science ; joskus datalogy - datalogy [1] ) on tietojenkäsittelytieteen osa , joka tutkii datan digitaalisessa muodossa analysoinnin , käsittelyn ja esittämisen ongelmia. Yhdistää menetelmät tietojen käsittelyyn suurten määrien ja korkean rinnakkaisuuden olosuhteissa, tilastolliset menetelmät , tiedon louhintamenetelmät ja tekoälysovellukset tiedon kanssa työskentelemiseen sekä menetelmät tietokantojen suunnitteluun ja kehittämiseen .
Sitä on pidetty akateemisena tieteenalana [2] ja 2010-luvun alusta lähtien suurelta osin " big datan " [3] käsitteen yleistymisen vuoksi - ja käytännöllisenä alojen välisenä toiminta-alana, lisäksi erikoistuminen. of a sciencedata [4] [5] .
Oman tieteenalan muodostumisen alkamisen katsotaan olevan vuotta 1966 , jolloin perustettiin tiede- ja teknologiatietojen komitea (CODATA) [6] , ja datatieteen käsitteen ensimmäinen käyttöönotto viittaa Peter Naurin kirjaan 1974, jossa hän nimenomaisesti määritteli datatieteen tieteenalaksi, joka tutkii digitaalisen datan elinkaarta - ulkonäöstä transformaatioon esitettäväksi muilla tiedon aloilla [7] (näkemyksen mukaan Naur käytti termiä "datatiede" 1960-luvun lopulla [8] ).
Kuitenkin vasta 1990-luvulla termi tieteenala tuli laajalti käyttöön [9] [6] ja vasta 2000-luvun alussa se tuli yleisesti hyväksytyksi, mikä johtui pääasiassa Bell Labsin tilastotieteilijän William Cleveland (vuodesta 2012). tilastotieteen professori Purduen yliopistossa ), jossa hän julkaisi suunnitelman tilastollisen tutkimuksen teknisten näkökohtien kehittämiseksi ja yksilöi datatieteen erilliseksi akateemiseksi tieteenalaksi, johon nämä tekniset näkökohdat tulisi keskittyä [10] [11] .
Vuonna 2002 tieteen ja teknologian datakomitea käynnisti CODATA Data Science Journal -julkaisun, jonka otsikossa on tieteenalan nimi, ja tammikuussa 2003 The Journal of Data Science of Columbia Universityn ensimmäinen numero ilmestyi. julkaistu .
Toinen laajan kiinnostuksen kasvu datatieteitä kohtaan viittaa " big data " -paradigman syntymiseen, joka keskittyy uusiin teknologisiin mahdollisuuksiin käsitellä suuria määriä ja monimuotoista dataa muun muassa soveltamalla tietotieteessä 2000-luvulla kehitettyjä menetelmiä. Vuodesta 2011 lähtien O'Reilly on järjestänyt useita suuria datatieteen konferensseja - Strata [12] , EMC on järjestänyt vuotuisen datatieteen huippukokouksen vuodesta 2011 [13] . McKinsey ennusti vuonna 2011, että Yhdysvalloissa on kysyntää 440–490 000 uudelle asiantuntijalle, joilla on "syvät analyyttiset taidot työskennellä big datan kanssa" vuoteen 2018 mennessä ja että tällaisista asiantuntijoista on pulaa 50–60 prosenttia, samalla kun koulutustrendit säilyvät [14] , vuonna Tämän ennusteen yhteydessä kiinnostus opetussuunnitelmien laatimista kohtaan nousi suurelta osin [15] .
Vuonna 2012 datatieteilijän ammatti on toistuvasti todettu yhdeksi houkuttelevimmista ( eng. seksikkäistä ) ja lupaavimmista nykymaailmassa, väitetään, että tällaisilla asiantuntijoilla tulee olemaan avainrooli organisaatioissa, koska heillä on mahdollisuus saada kilpailuetua analyysin, nopean käsittelyn ja datamallien poimimisen kautta, pääasiassa teknologiateollisuudessa [16] [5] .
Lukuvuodesta 2013 lähtien Dundeen yliopisto , Aucklandin yliopisto ja Etelä-Kalifornian yliopisto ovat käynnistäneet datatieteen maisteriohjelmia ja Imperial College Londonin kauppakorkeakoulu on käynnistänyt ohjelman "Masters of Science in Data Science and Management" ( MSc Data Science & Management ) [17] . Samana vuonna Washingtonin yliopisto , Kalifornian yliopisto Berkeleyssä ja New Yorkin yliopisto saivat 37,8 miljoonan dollarin apurahan datatieteen edistämiseen, mikä viiden vuoden aikana muun muassa rakentaa opetussuunnitelmia ja luo mahdollisuuksia akateemiselle ura alalla [18] .
Datatieteen ammatillisen toiminnan pääasiallinen käytännön tavoite on löytää tiedosta kuvioita [19] , poimimalla tietoa tiedosta yleistetyssä muodossa [20] . Tämän alan toiminnassa vaadittavien taitojen selittämiseen käytetään usein Venn-kaaviota [21] , jossa asiantuntijan vaatimat taidot heijastuvat yleisen ainekokemuksen ( englanniksi substantive expertise ), käytännön tiedon kokemuksen alueiden risteyksessä. teknologia ( hakkerointitaidot ) ja matemaattiset tilastotiedot [22] .
Tieteen epistemologisena piirteenä on esitetty tulosten käytännön sovellettavuuden eli ennusteiden onnistumisen tärkeysjärjestys niiden kausaalisuuden edelle, kun taas perinteisillä tutkimusalueilla on olennaista selittää ilmiön luonne [23] . . Verrattuna klassiseen tilastoon , jonka menetelmiin datatiede suurelta osin perustuu, se merkitsee supersuurien heterogeenisten digitaalisten tietojen ryhmien tutkimista ja erottamatonta yhteyttä tietoteknologioihin, jotka tarjoavat niiden käsittelyn [24] . Verrattuna suunnittelu- ja tietokantatyöskentelyyn, jossa oletetaan, että aihealueen suhdetta kuvaavan tietomallin alustava suunnittelu ja ladatun datan myöhempi tutkiminen suhteellisen yksinkertaisilla (aritmeettisilla) menetelmillä, Datatiede olettaa luottavan matemaattisten tilastojen, tekoälyn ja koneoppimisen laitteistoon, usein lataamatta ensin tietoja malliin. Verrattuna analyytikon ammattiin, jonka päätavoitteena on kuvata ilmiöitä kertyneen datan perusteella suhteellisen yksinkertaisilla käyttäjätyökaluilla (kuten taulukoilla tai Business Intelligence -luokkatyökaluilla ), datatieteilijän profiili vaatii vähemmän keskittymistä aihealueiden sisältöön. mutta vaatii syvempää tietämystä matemaattisista tilastotiedoista, koneoppimisesta, ohjelmoinnista ja yleensä korkeammasta koulutustasosta ( maisterit , kandidaatit , tohtori verrattuna kandidaatteihin ja asiantuntijoihin ) [25] .
Courserassa julkaistulla Washingtonin yliopiston Introduction to Data Science -kurssilla on seuraavat osiot [26] :
Imperial College Londonin tietotieteen ja hallinnan maisteriohjelman Data Science -lohko sisältää Advanced Statisticsin valmistelevan kurssin . Seuraavat tieteenalat sisältyvät suoraan datatieteen kurssiin:
Tietotieteen ja johtamisen perusteiden kurssien jälkeen ohjelma tarjoaa soveltavan kurssin, joka on jaettu kahteen virraan, riskienhallinta , omaisuudenhallinta ja johdannaiset rahoitusinstrumentit sisältyvät rahoitus- ja teknologiavirtaan ja suurten tietojoukkojen käsittely sisältyy konsultointiin . stream , verkkoanalyysi , ekonometrinen analyysi , sovellukset palveluissa ja konsultoinnissa , energia , terveydenhuolto , politiikka . [17]
Dundeen yliopiston ohjelmassa painotetaan " big dataa " ensisijaisesti "laskentataulukkokäsittelyn" sijaan ja keskitytään tiedon louhintaan , tietokanta- ja tallennusmallinnukseen , tilastoihin sekä kielillä SQL , MDX , R , Erlang , Java . ohjelma , Hadoop- ja NoSQL - työkalut [27] .