Datatiede

Data science ( englanniksi  data science ; joskus datalogy  - datalogy [1] ) on tietojenkäsittelytieteen osa , joka tutkii datan digitaalisessa muodossa analysoinnin , käsittelyn ja esittämisen ongelmia. Yhdistää menetelmät tietojen käsittelyyn suurten määrien ja korkean rinnakkaisuuden olosuhteissa, tilastolliset menetelmät , tiedon louhintamenetelmät ja tekoälysovellukset tiedon kanssa työskentelemiseen sekä menetelmät tietokantojen suunnitteluun ja kehittämiseen .

Sitä on pidetty akateemisena tieteenalana [2] ja 2010-luvun alusta lähtien suurelta osin " big datan " [3] käsitteen yleistymisen vuoksi - ja käytännöllisenä alojen välisenä toiminta-alana, lisäksi erikoistuminen. of  a sciencedata  [4] [5] .

Historia

Oman tieteenalan muodostumisen alkamisen katsotaan olevan vuotta 1966 , jolloin perustettiin tiede- ja teknologiatietojen komitea (CODATA) [6] , ja datatieteen käsitteen ensimmäinen käyttöönotto viittaa Peter Naurin kirjaan 1974, jossa hän nimenomaisesti määritteli datatieteen tieteenalaksi, joka tutkii digitaalisen datan elinkaarta - ulkonäöstä transformaatioon esitettäväksi muilla tiedon aloilla [7] (näkemyksen mukaan Naur käytti termiä "datatiede" 1960-luvun lopulla [8] ).

Kuitenkin vasta 1990-luvulla termi tieteenala tuli laajalti käyttöön [9] [6] ja vasta 2000-luvun alussa se tuli yleisesti hyväksytyksi, mikä johtui pääasiassa Bell Labsin tilastotieteilijän William Cleveland (vuodesta 2012). tilastotieteen professori Purduen yliopistossa ), jossa hän julkaisi suunnitelman tilastollisen tutkimuksen teknisten näkökohtien kehittämiseksi ja yksilöi datatieteen erilliseksi akateemiseksi tieteenalaksi, johon nämä tekniset näkökohdat tulisi keskittyä [10] [11] .

Vuonna 2002 tieteen ja teknologian datakomitea käynnisti CODATA Data Science Journal -julkaisun, jonka otsikossa on tieteenalan nimi, ja tammikuussa 2003 The Journal of Data Science of Columbia Universityn ensimmäinen numero ilmestyi. julkaistu .

Toinen laajan kiinnostuksen kasvu datatieteitä kohtaan viittaa " big data " -paradigman syntymiseen, joka keskittyy uusiin teknologisiin mahdollisuuksiin käsitellä suuria määriä ja monimuotoista dataa muun muassa soveltamalla tietotieteessä 2000-luvulla kehitettyjä menetelmiä. Vuodesta 2011 lähtien O'Reilly on järjestänyt useita suuria datatieteen konferensseja - Strata [12] , EMC on järjestänyt vuotuisen datatieteen huippukokouksen vuodesta 2011 [13] . McKinsey ennusti vuonna 2011, että Yhdysvalloissa on kysyntää 440–490 000 uudelle asiantuntijalle, joilla on "syvät analyyttiset taidot työskennellä big datan kanssa" vuoteen 2018 mennessä ja että tällaisista asiantuntijoista on pulaa 50–60 prosenttia, samalla kun koulutustrendit säilyvät [14] , vuonna Tämän ennusteen yhteydessä kiinnostus opetussuunnitelmien laatimista kohtaan nousi suurelta osin [15] .

Vuonna 2012 datatieteilijän ammatti on toistuvasti todettu yhdeksi houkuttelevimmista ( eng.  seksikkäistä ) ja lupaavimmista nykymaailmassa, väitetään, että tällaisilla asiantuntijoilla tulee olemaan avainrooli organisaatioissa, koska heillä on mahdollisuus saada kilpailuetua analyysin, nopean käsittelyn ja datamallien poimimisen kautta, pääasiassa teknologiateollisuudessa [16] [5] .

Lukuvuodesta 2013 lähtien Dundeen yliopisto , Aucklandin yliopisto ja Etelä-Kalifornian yliopisto ovat käynnistäneet datatieteen maisteriohjelmia ja Imperial College Londonin kauppakorkeakoulu on käynnistänyt ohjelman  "Masters of Science in Data Science and Management" ( MSc  Data Science & Management ) [17] . Samana vuonna Washingtonin yliopisto , Kalifornian yliopisto Berkeleyssä ja New Yorkin yliopisto saivat 37,8 miljoonan dollarin apurahan datatieteen edistämiseen, mikä viiden vuoden aikana muun muassa rakentaa opetussuunnitelmia ja luo mahdollisuuksia akateemiselle ura alalla [18] .

Sisältö

Datatieteen ammatillisen toiminnan pääasiallinen käytännön tavoite on löytää tiedosta kuvioita [19] , poimimalla tietoa tiedosta yleistetyssä muodossa [20] . Tämän alan toiminnassa vaadittavien taitojen selittämiseen käytetään usein Venn-kaaviota [21] , jossa asiantuntijan vaatimat taidot heijastuvat yleisen ainekokemuksen ( englanniksi  substantive expertise ), käytännön tiedon kokemuksen alueiden risteyksessä. teknologia ( hakkerointitaidot ) ja matemaattiset tilastotiedot [22] .

Tieteen epistemologisena piirteenä on esitetty tulosten käytännön sovellettavuuden eli ennusteiden onnistumisen tärkeysjärjestys niiden kausaalisuuden edelle, kun taas perinteisillä tutkimusalueilla on olennaista selittää ilmiön luonne [23] . . Verrattuna klassiseen tilastoon , jonka menetelmiin datatiede suurelta osin perustuu, se merkitsee supersuurien heterogeenisten digitaalisten tietojen ryhmien tutkimista ja erottamatonta yhteyttä tietoteknologioihin, jotka tarjoavat niiden käsittelyn [24] . Verrattuna suunnittelu- ja tietokantatyöskentelyyn, jossa oletetaan, että aihealueen suhdetta kuvaavan tietomallin alustava suunnittelu ja ladatun datan myöhempi tutkiminen suhteellisen yksinkertaisilla (aritmeettisilla) menetelmillä, Datatiede olettaa luottavan matemaattisten tilastojen, tekoälyn ja koneoppimisen laitteistoon, usein lataamatta ensin tietoja malliin. Verrattuna analyytikon ammattiin, jonka päätavoitteena on kuvata ilmiöitä kertyneen datan perusteella suhteellisen yksinkertaisilla käyttäjätyökaluilla (kuten taulukoilla tai Business Intelligence -luokkatyökaluilla ), datatieteilijän profiili vaatii vähemmän keskittymistä aihealueiden sisältöön. mutta vaatii syvempää tietämystä matemaattisista tilastotiedoista, koneoppimisesta, ohjelmoinnista ja yleensä korkeammasta koulutustasosta ( maisterit , kandidaatit , tohtori verrattuna kandidaatteihin ja asiantuntijoihin ) [25] .

Akateemiset ohjelmat

Courserassa julkaistulla Washingtonin yliopiston Introduction to Data Science -kurssilla on seuraavat osiot [26] :

Imperial College Londonin tietotieteen ja hallinnan maisteriohjelman Data Science -lohko sisältää Advanced Statisticsin valmistelevan kurssin .  Seuraavat tieteenalat sisältyvät suoraan datatieteen kurssiin:

Tietotieteen ja johtamisen perusteiden kurssien jälkeen ohjelma tarjoaa soveltavan kurssin, joka on jaettu kahteen virraan, riskienhallinta , omaisuudenhallinta ja johdannaiset rahoitusinstrumentit sisältyvät rahoitus- ja teknologiavirtaan ja suurten tietojoukkojen  käsittely sisältyy konsultointiin . stream , verkkoanalyysi , ekonometrinen analyysi , sovellukset palveluissa ja konsultoinnissa , energia , terveydenhuolto , politiikka . [17] 

Dundeen yliopiston ohjelmassa painotetaan " big dataa " ensisijaisesti "laskentataulukkokäsittelyn" sijaan ja keskitytään tiedon louhintaan , tietokanta- ja tallennusmallinnukseen , tilastoihin sekä kielillä SQL , MDX , R , Erlang , Java . ohjelma , Hadoop- ja NoSQL - työkalut [27] .

Muistiinpanot

  1. Lehdistö, 2012 , Termi "datatiede" (yhdessä "Datalogian" kanssa)….
  2. Smith, 2006 .
  3. Dhar, 2013 .
  4. Davenport, 2012 .
  5. 1 2 Lehdistö, 2012 .
  6. 12 Smith , 2006 , s. 164.
  7. Naur, 1974 , "Datatiede on tiedettä tietojen käsittelystä, kun se on vahvistettu, kun taas tietojen suhde siihen, mitä ne edustavat, on delegoitu muille aloille ja tieteille".
  8. Press, 2012 , Termiä "datatiede" (yhdessä "Datalogian" kanssa) ehdotti ensimmäisen kerran Peter Naur 1960-luvun lopulla.
  9. Zhuravleva, 2012 , "F. D. Smithin mukaan datatieteellä ei ollut nimeä vuoteen 1990 asti, mutta se alkoi kehittyä vuodesta 1966 lähtien, jolloin perustettiin Kansainvälisen tiedeneuvoston tieteidenvälinen tiede- ja teknologiakomitea."
  10. Cleveland, 2001 .
  11. Press, 2012 , termiä "datatiede" … ehdotti William S. Cleveland vuonna 2001 uudeksi akateemiseksi tieteenalaksi, joka laajentaa tilastotieteen alaa sisällyttämään "edistyksiin tietojenkäsittelyssä".
  12. Aiempien O'Reilly-konferenssien  arkisto . O'Reilly Media (2012). Haettu 2. tammikuuta 2013. Arkistoitu alkuperäisestä 26. tammikuuta 2013.
  13. Simon Piff. Huomautuksia Data Science Summitista: Making Sense of Big Data  (englanniksi)  (linkki ei saatavilla) . Asiakirja yhdellä silmäyksellä . IDC (1. heinäkuuta 2012). Käyttöpäivä: 8. joulukuuta 2012. Arkistoitu alkuperäisestä 26. tammikuuta 2013.
  14. Manyika, James et al. Big data: innovaation, kilpailun ja tuottavuuden seuraava raja  (englanniksi) (PDF). McKinsey Global Institute, kesäkuu 2011 . McKinsey (9. elokuuta 2011). Haettu 12. marraskuuta 2011. Arkistoitu alkuperäisestä 11. joulukuuta 2012.
  15. Steven Overly. Big datan analyytikoiden kysynnän kasvaessa koulut ryntäävät jatko-opiskelijoille, joilla on tarvittavat taidot  (englanniksi) . Washington Post (16. syyskuuta 2013). - "Tämä vaatimus esitettiin McKinsey Global Instituten kesäkuun 2011 raportissa." Haettu 31. joulukuuta 2013. Arkistoitu alkuperäisestä 13. maaliskuuta 2016.
  16. Davenport, 2012 , "Goldman on hyvä esimerkki uudesta avaintekijästä organisaatioissa: "datatutkija". Se on korkea-arvoinen ammattilainen, jolla on koulutus ja uteliaisuus tehdä löytöjä big datan maailmassa".
  17. 1 2 MSc Data Science & Management  . kauppakoulu . Imperial College (1. tammikuuta 2013). Käyttöpäivä: 18. tammikuuta 2013. Arkistoitu alkuperäisestä 29. tammikuuta 2013.
  18. ↑ UW, Berkeley, NYU tekevät yhteistyötä 37,8 miljoonan dollarin datatieteen aloitteessa  . Washingtonin yliopisto (12. marraskuuta 2013). Käyttöpäivä: 31. joulukuuta 2013. Arkistoitu alkuperäisestä 25. joulukuuta 2013.
  19. Žukov, 2013 , s. 5.
  20. Dhar, 2013 , Datatiede on tutkimuksen yleistettävissä oleva tiedon poimiminen tiedosta.
  21. Julkaisi ensimmäisen kerran Drew Conway vuonna 2010
  22. Žukov, 2013 .
  23. Dhar, 2013 , Yleinen episteeminen vaatimus arvioitaessa, onko uusi tieto käyttökelpoinen päätöksenteossa, on sen ennustusvoima, ei vain sen kyky selittää menneisyyttä.
  24. Dhar, 2013 , Lyhyt vastaus on, että datatiede eroaa tilastoista <…> usealla tärkeällä tavalla <…> Aluksi raaka-aine, "data", osa datatieteitä, on yhä heterogeenisempi ja jäsentämättömämpi - teksti, kuvat, videot - usein peräisin verkoista, joiden entiteettien välillä on monimutkaisia ​​suhteita <…> suurin osa ihmisten ja tietokoneiden tuottamasta tiedosta on tarkoitettu tietokoneiden kulutukseen; eli tietokoneet tekevät yhä enemmän taustatyötä toistensa puolesta ja tekevät päätökset automaattisesti. Tämä päätöksenteon skaalautuvuus on tullut mahdolliseksi uuden tiedon luomisen raaka-aineena toimivan big datan ansiosta.
  25. Žukov, 2013 , s. kahdeksan.
  26. Bill Howe. Johdatus tietotieteeseen . Coursera (8. joulukuuta 2012). Haettu 8. joulukuuta 2012. Arkistoitu alkuperäisestä 5. marraskuuta 2012.
  27. Tietojenkäsittelytieteen maisteri  (eng.)  (pääsemätön linkki) . Tietotekniikan koulu . Dundeen yliopisto (1. tammikuuta 2013). "Datatieteilijä on henkilö, joka on erinomainen käsittelemään ja analysoimaan dataa, erityisesti suuria tietojoukkoja, jotka eivät sovi helposti taulukkorakenteisiin (ns. "Big Data"). Käyttöpäivä: 18. tammikuuta 2013. Arkistoitu alkuperäisestä 22. tammikuuta 2013.

Kirjallisuus