FLOPS
Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 30. joulukuuta 2021 tarkistetusta
versiosta . tarkastukset vaativat
18 muokkausta .
FLOPS ( myös flops , flop / s , flops tai flop / s _ _ _ _ _ _ _ _ _ _ _ _ _ _ toimintoa sekunnissa suorittaa tämä tietokonejärjestelmä. Koska nykyaikaisten tietokoneiden suorituskyky on korkea, SI-etuliitteillä muodostetut floppeista johdetut suureet ovat yleisempiä .
FLOP tai FLOPS
On erimielisyyttä siitä, onko sallittua käyttää sanaa FLOP englannista . FL oating point OP eraatio yksikössä (ja muunnelmat, kuten flop tai flop ). Jotkut ihmiset ajattelevat, että FLOP (flop) ja FLOPS (flops tai flop / s) ovat synonyymejä, toiset uskovat, että FLOP on vain liukulukuoperaatioiden lukumäärä (esimerkiksi tietyn ohjelman suorittamiseen vaadittu määrä), ja FLOPS on suorituskyky, kyky suorittaa tietty määrä liukulukuoperaatioita sekunnissa.
Flopit suorituskyvyn mittana
Kuten useimmat muut suorituskykyindikaattorit, tämä arvo määritetään suorittamalla testitietokoneessa testiohjelma, joka ratkaisee ongelman tunnetulla määrällä toimintoja ja laskee ajan, jonka kuluessa se ratkesi. Suosituin vertailuindeksi nykyään ovat LINPACK-vertailuarvot , erityisesti TOP500 - supertietokoneiden rankingissa käytetty HPL .
Yksi floppien suorituskyvyn mittaamisen tärkeimmistä eduista on, että tämä yksikkö voidaan joissain rajoissa tulkita absoluuttiseksi arvoksi ja laskea teoreettisesti, kun taas useimmat muut suositut mittaukset ovat suhteellisia ja mahdollistavat testattavan järjestelmän arvioinnin vain vertailussa. useiden muiden kanssa. Tämä ominaisuus mahdollistaa erilaisten algoritmien käytön arvioimaan työn tuloksia sekä arvioimaan sellaisten laskentajärjestelmien suorituskykyä, joita ei vielä ole olemassa tai jotka ovat kehitteillä.
Soveltamisrajat
Näennäisestä yksiselitteisyydestä huolimatta flopit ovat todellisuudessa melko huono suorituskyvyn mitta, koska sen määritelmä on jo moniselitteinen. "liukulukuoperaation" alle voidaan piilottaa paljon erilaisia käsitteitä, puhumattakaan siitä, että operandien sanapituudella on näissä laskelmissa merkittävä rooli , jota ei myöskään ole määritelty missään. Lisäksi floppeihin vaikuttavat monet tekijät, jotka eivät liity suoraan laskentamoduulin suorituskykyyn, kuten prosessoriympäristön kanssa kulkevien tietoliikennekanavien kaistanleveys, päämuistin suorituskyky ja erilaisten välimuistin synkronointi. tasot.
Kaikki tämä johtaa viime kädessä siihen, että samalla tietokoneella eri ohjelmilla saadut tulokset voivat vaihdella merkittävästi; Lisäksi jokaisella uudella kokeella voidaan saada erilaisia tuloksia käyttämällä samaa algoritmia. Osittain tämä ongelma ratkeaa sopimuksella yhtenäisten testiohjelmien käytöstä (sama LINPACK) tulosten keskiarvon laskemisella, mutta ajan myötä tietokoneiden kyvyt "kasvavat" hyväksytyn testin puitteet ja se alkaa antaa keinotekoisesti huonot tulokset, koska se ei käytä tietokonelaitteiden uusimpia ominaisuuksia. Ja joissakin järjestelmissä yleisesti hyväksyttyjä testejä ei voida soveltaa ollenkaan, minkä seurauksena kysymys niiden toimivuudesta jää avoimeksi.
Joten 24. kesäkuuta 2006 yleisölle esiteltiin japanilaisessa tutkimuslaitoksessa RIKEN ( Yokohama ) kehitetty MDGrape-3- supertietokone , jonka teoreettinen suorituskyky oli ennätys 1 petaflops . Tämä tietokone ei kuitenkaan ole yleiskäyttöinen tietokone, ja se on mukautettu ratkaisemaan kapea valikoima erityistehtäviä, kun taas normaalia LINPACK-testiä ei voida suorittaa sille sen arkkitehtuurin erityispiirteiden vuoksi.
Myös nykyaikaisten näytönohjainten ja pelikonsolien grafiikkaprosessorit osoittavat korkean suorituskyvyn tietyissä tehtävissä . Esimerkiksi PlayStation 3 -pelikonsolin videoprosessorin ilmoitettu suorituskyky on 192 gigaflopsia [3] ja Xbox 360: n videokiihdytin 240 gigaflopsia [3] , mikä on verrattavissa kaksikymmentä vuotta vanhoihin supertietokoneisiin. Tällaiset korkeat luvut selittyvät sillä, että suorituskyky ilmaistaan 32-bittisillä numeroilla [4] [5] , kun taas supertietokoneissa suorituskyky ilmoitetaan yleensä 64-bittisellä datalla [6] [7] . Lisäksi nämä digisovittimet ja videoprosessorit on suunniteltu toimintoihin kolmiulotteisella grafiikalla, jotka sopivat hyvin rinnakkaiskäyttöön, mutta nämä prosessorit eivät kuitenkaan pysty suorittamaan monia yleiskäyttöisiä tehtäviä, ja niiden suorituskykyä on vaikea arvioida. klassinen LINPACK-testi [8] ja sitä on vaikea verrata muihin järjestelmiin.
Huippusuorituskyky
Prosessorin floppien maksimimäärän laskemiseksi on otettava huomioon, että nykyaikaiset prosessorit sisältävät jokaisessa ytimessä useita rinnakkain toimivia suoritusyksiköitä (mukaan lukien liukulukuoperaatioita varten) ja voivat suorittaa useamman kuin yhden käskyn. kelloa kohti. Tätä arkkitehtonista ominaisuutta kutsutaan superskalaariksi , ja se ilmestyi ensimmäisen kerran CDC 6600 -tietokoneessa vuonna 1964. Superskalaariarkkitehtuurilla varustettujen tietokoneiden massatuotanto alkoi Pentium-prosessorin julkaisulla vuonna 1993. 2000-luvun lopun prosessori, Intel Core 2 , on myös superskalaari ja sisältää 2 64-bittistä liukulukuyksikköä, jotka voivat suorittaa 2 toisiinsa liittyvää toimintoa (kerto- ja lisäys, MAC ) jokaisessa syklissä, mikä mahdollistaa teoriassa huippusuorituskyvyn saavuttamisen 4 operaatiota 1 jaksoa kohti kussakin ytimessä [9] [10] [11] . Näin ollen prosessorille, jossa on 4 ydintä (Core 2 Quad) ja joka toimii 3,5 GHz:n taajuudella, teoreettinen suorituskykyraja on 4x4x3,5 = 56 gigaflopsia, ja prosessorille, jossa on 2 ydintä (Core 2 Duo) ja joka toimii taajuudella 3 GHz - 2x4x3 = 24 gigaflopsia, mikä on hyvin sopusoinnussa LINPACK-testissä saatujen käytännön tulosten kanssa.
AMD Phenom 9500 sAM2+ 2,2 GHz: 2200 MHz × 4 ydintä × 4⋅10 -3 = 35,2 GFlops
Core 2 Quad Q6600:lle: 2400 MHz × 4 ydintä × 4⋅10 -3 = 38, 4 gigaflops.
Uudemmat prosessorit voivat suorittaa jopa 8 (esim. Sandy and Ivy Bridge , 2011-2012, AVX) tai jopa 16 ( Haswell ja Broadwell, 2013-2014, AVX2 ja FMA3) 64-bittistä liukulukuoperaatiota kelloa kohden (jossakin ytimessä) [11] . Tulevien prosessorien odotetaan suorittavan 32 toimintoa kelloa kohden (Intel Xeon Skylake, Xeon *v5, 2015, AVX512) [12]
Sandy and Ivy Bridge AVX:llä: 8 floppia/kello kaksinkertainen tarkkuus [13] , 16 floppia/kello yksittäinen tarkkuus
Intel Core i7 2700: / Intel Core i7 3770: 8*4*3900 MHz = 124,8 Gflops huippu-tuplatarkkuus, 16 *4 *3900 = 249,6 Gflopsin yksittäinen tarkkuushuippu.
Intel Haswell / Broadwell AVX2:lla ja FMA3:lla: 16 floppia/kello kaksinkertainen tarkkuus [13] ; 32 yhden tarkkuuden floppia/kello
Intel Core i7 4770: 16*4*3900 MHz = 249,6 Gflops- huippu kaksinkertainen tarkkuus, 32*4*3900 = 499,2 Gflopsin huippu yksittäinen tarkkuus.
Syitä laajaan käyttöön
Huolimatta lukuisista merkittävistä puutteista, floppeja käytetään edelleen menestyksekkäästi suorituskyvyn arvioinnissa LINPACK-testin tulosten perusteella. Syyt tällaiseen suosioon johtuvat ensinnäkin siitä, että floppi, kuten edellä mainittiin, on absoluuttinen arvo. Ja toiseksi, monet tekniikan ja tieteellisen käytännön tehtävät liittyvät lopulta lineaaristen algebrallisten yhtälöiden järjestelmien ratkaisemiseen , ja LINPACK-testi perustuu tällaisten järjestelmien ratkaisunopeuden mittaamiseen. Lisäksi valtaosa tietokoneista (mukaan lukien supertietokoneet) on rakennettu klassisen arkkitehtuurin mukaan standardiprosessoreilla, mikä mahdollistaa yleisesti hyväksyttyjen testien käytön erittäin luotettavasti.
Erilaisissa algoritmeissa sen lisäksi, että prosessoriytimessä voidaan suorittaa suuri määrä matemaattisia operaatioita, voi olla tarpeen siirtää suuria tietomääriä muistialijärjestelmän kautta ja niiden suorituskyky on tästä johtuen voimakkaasti rajoitettu, esim. , kuten BLAS-kirjastojen tasoilla 1 ja 2 [11] . Testeissä, kuten LINPACK (BLAS-taso 3), käytetyillä algoritmeilla on kuitenkin korkea tiedon uudelleenkäyttösuhde, ne vievät alle 1/10 kokonaisajasta tiedon siirtämiseen prosessorin ja muistin välillä, ja niillä saavutetaan yleensä tyypillinen suorituskyky jopa 80 -95% teoreettisesta maksimista.
Todellisten järjestelmien suorituskykykatsaus
LINPACK-testitulosten suuren hajonnan vuoksi likimääräiset arvot saadaan eri lähteistä saatujen tietojen perusteella laskemalla indikaattoreiden keskiarvo. Pelikonsolien ja hajautettujen järjestelmien (joilla on kapea erikoisala ja jotka eivät tue LINPACK-testiä) suorituskyky on annettu viitteeksi niiden kehittäjien ilmoittamien lukujen mukaisesti. Tarkempia tuloksia tietyillä järjestelmäparametreilla voi saada esimerkiksi The Performance Database Serverillä .
Supertietokoneet
Uno
Kilo
Mega
Giga
Tera
Peta
- Cray Jaguar ( 2008 ) - 1059 petaflopsia
- IBM Roadrunner ( 2008 ) - 1,042 petaflopsia [16]
- Lomonosov ( 2011 , NIVC MSU) - 1,3 petaflopsia
- Jaguar Cray XT5-HE ( 2009 ) - 1 759 petaflopsia
- T-Platform A-luokan klusteri (Lomonosov-2, marraskuu 2014, Moskovan valtionyliopiston tutkimus- ja kehityskeskus) - 1,85 petaflopsia (5 telineessä) [17] [18] [19] .
- Tianhe-1A ( 2010 ) - 2,57 petaflopsia
- Christofari (2019) - 6,7 petaflopsia ( 75 solmun NVIDIA DGX-2 -klusteri ) [20] [21] [22]
- Fujitsu K -tietokone ( 2011 ) - 8.16-10.51 petaflops [23]
- IBM Sequoia ( 2012 ) - 16,32 petaflopsia [24]
- Cray Titan (esim. Cray Jaguar ; 2012 ) - >17,59 petaflopsia [25]
- Chervonenkis (2021) - 21 530 petaflopsia
- Tianhe-2 ( 2013 ) - 33,86 petaflopsia [26]
- Sunway TaihuLight (2016) - 93 petaflopsia
- Summit (2018) - 122,3 petaflopsia
- Fugaku (2020) - 442,01 petaflopsia
Exa
Henkilökohtaisten tietokoneiden prosessorit
Double Precision Peak Performance [27]
- Zilog Z80 + AMD Am9512 matemaattinen apuprosessori , 3 MHz (1977-1980) ~ 1-2 kflops [28]
- Intel 80486DX/DX2 (1990-1992) - jopa 30-50 Mflop/s [29]
- Intel Pentium 75–200 MHz (1996) – jopa 75–200 Mflop/s [29] [30]
- Intel Pentium III 450–1133 MHz (1999–2000) – jopa 450–1113 Mflop/s [29] [30]
- Intel Pentium III-S (2001) 1 - 1,4 GHz - jopa 1 - 1,4 Gflop/s [30]
- MCST Elbrus 2000 300 MHz (2008) - 2,4 Gflop/s
- Intel Atom N270, D150 1,6 GHz (2008-2009) – jopa 3,2 Gflop/s [29]
- Intel Pentium 4 2,5–2,8 GHz (2004) – jopa 5–5,6 Gflop/s [29]
- MCST Elbrus-2C+ 500 MHz, 2 ydintä (2011) - 8 Gflop/s
- AMD Athlon 64 X2 4200+ 2,2 GHz, 2 ydintä ( 2006 ) - 8,8 Gflops/s
- Intel Core 2 Duo E6600 2,4 GHz 2 ydin (2006) - 19,2 Gflop/s
- MCST Elbrus-4S (1891VM8Ya, Elbrus v.3) 800 MHz, 4 ydintä (2014) – 25 Gflop/s [31]
- Intel Core i3 -2350M 2,3 GHz 2 ydin (2011) - 36,8 Gflop/s
- Intel Core 2 Quad Q8300 2,5 GHz 4 core (2008) - 40 Gflop/s
- AMD Athlon II X4 640 3,0 GHz 4 Core ( 2010 ) - 48 Gflop/s
- Intel Core i7-975 XE ( Nehalem ) 3,33 GHz 4 ydin (2009) - 53,3 Gflop/s
- AMD Phenom II X4 965 BE 3,4 GHz 4 ydin ( 2009 ) - 54,4 Gflop/s
- AMD Phenom II X6 1100T 3,3 GHz 6 Core (2010) - 79,2 Gflop/s
- Intel Core i5 -2500K ( Sandy Bridge ), 3,3 GHz, 4 ydintä (2011) - 105,6 Gflop/s
- MCST Elbrus-8S (Elbrus v.4) 1,3 GHz, 8 ydintä (2016) – 125 Gflop/s [32] [33]
- AMD FX-8350 4 GHz 8 ydintä (2012) – 128 Gflop/s [34]
- Intel Core i7 -4930K ( Ivy Bridge ) 3,4 GHz 6 ydintä (2013) - 163 GFlops/s
- Loongson-3B1500 ( MIPS64 ), 1,5 GHz, 8 ydintä (2016) - jopa 192 GFlop/s [35]
- AMD Ryzen 7 1700X ( Zen ) 3,4 GHz 8-ytiminen (2017) [36] - 217 GFlops [37]
- MCST Elbrus-8SV (Elbrus v.5) 1,5 GHz, 8 ydintä (2020 - suunnitelma) [38] - 288 Gflop/s [39] [40]
- IBM Power8 4,4 GHz, 12 ydintä (2013), 290 Gflop/s
- Intel Core i7-5960X (Extreme Edition Haswell -E), 3,0 GHz, 8 ydintä (2014) - 384 Gflop/s (jopa 350 Gflop/s käytännössä saavutettavissa [41] )
- Intel Core i9-9900k ( Coffee Lake ), 3,6 GHz, 8 ydintä (2018) [42] - 460 Gflops [43]
- AMD Ryzen 7 3700X ( Zen 2 ), 3,6 GHz, 8 ydintä (2019) [44] - 460 GFlops [43]
- MCST Elbrus-12S 2 GHz, 12 ydintä (2020 - suunnitelma) - 576 Gflop / s
- MCST Elbrus-16S 2 GHz, 16 ydintä (2021 - suunnitelma) - 768 Gflop / s [45] .
- AMD Ryzen 9 3950X ( Zen 2 ) 3,5 GHz 16 ydintä (2019) [46] - 896 GFlops/s [47]
- AMD EPYC 7H12 ( Zen 2 ), 3,3 GHz, 64 ydintä (2019) [48] - 4,2 teraflopsia [49]
FLOP:ien määrä kelloa kohden eri arkkitehtuureille
Useille prosessorimikroarkkitehtuureille tunnetaan maksimimäärä kelluvia operaatioita, jotka suoritetaan kelloa kohti yhdellä ytimellä. Alla oleva luettelo luettelee mikroarkkitehtuurien nimet, ei prosessoriperheitä.
(yksi) - yksittäinen tarkkuus; (kaksinkertainen) - kaksinkertainen tarkkuus [50]
- Intel P5 & P6 (ei ISE:itä) + Pentium Pro ja Pentium II = 1 (yksittäinen); 1 (kaksinkertainen)
- P6 (vain Pentium III) = 4 (yksittäinen); 1 (kaksinkertainen)
- Bonnell ( atomi ) = 4 ( yksittäinen ); 1 ( kaksinkertainen )
- NetBurst = 4 (yksittäinen); 2 (kaksinkertainen)
- Pentium M & Enhanced Pentium M = 4 (yksittäinen); 2 (kaksinkertainen)
- Core, Penryn, Nehalem & Westmere = 8 (yksittäinen); 4 (kaksinkertainen)
- Sandy Bridge & Ivy Bridge = 16 (yksittäinen); 8 (kaksinkertainen)
- Haswell, Broadwell, Skylake, Kaby Lake & Coffee Lake = 32 (yksittäinen); 16 (kaksinkertainen)
- Skylake-X, Skylake-SP, Cascade Lake-X (Xeon Gold & Platinum) = 64 (yksittäinen); 32 (kaksinkertainen) [51] [52]
- Bonnell, Saltwell, Silvermont & Airmont = 6 (yksittäinen); 1,5 (kaksinkertainen)
- MIC ("Knights Corner" Xeon Phi) = 32 (yksittäinen); 16 (kaksinkertainen)
- MIC ("Knights Landing" Xeon Phi) = 64 (yksittäinen); 32 (kaksinkertainen) [51]
- AMD K5 & K6 = 0,5 (yksittäinen); 0,5 (kaksinkertainen)
- K6-2 & K6-III = 4 (yksittäinen); 0,5 (kaksinkertainen)
- K7 = 4 (yksittäinen); ? (kaksinkertainen)
- K8 = 4 (yksittäinen); 2 (kaksinkertainen)
- K10/Tähdet = 8 (yksittäinen); 4 (kaksinkertainen)
- Husky = 8 (yksittäinen); 4 (kaksinkertainen)
- Puskutraktori, Piledriver, Steamroller & Kaivinkone (Yhteensä hylsyparia kohti - moduuli [53] ) = 16 (yksittäinen); 8 (kaksinkertainen)
- Bobcat = 4 (yksittäinen); 1,5 (kaksinkertainen)
- Jaguar, Puma ja Puma+ = 8 (yksittäinen); 3 (kaksinkertainen)
- Zen, Zen+ = 16 (yksittäinen); 8 (kaksinkertainen)
- Zen 2 = 32 (yksittäinen); 16 (kaksinkertainen)
- MCST Elbrus 2000 (E2K) = 16 (yksittäinen); 8 (kaksinkertainen) [54] [55]
- Elbrus-versio 3 = 16 (yksittäinen); 8 (kaksinkertainen)
- Elbrus-versio 4 = 24 (yksittäinen); 12 (kaksinkertainen) [56] [57]
- Elbrus-versio 5 = 48 (yksittäinen); 24 (kaksinkertainen) [58] [59]
Taskutietokoneen prosessorit
- PDA perustuu Samsung S3C2440 400 MHz - prosessoriin ( ARM9 - arkkitehtuuri ) - 1,3 megaflops
- Intel XScale PXA270 520 MHz - 1,6 megaflops
- Intel XScale PXA270 624 MHz - 2 megaflopsia
- Samsung Exynos 4210 2x1600 MHz - 84 megaflopsia
- Apple A6 - 645 megaflopsia (LINPACK-arvio)
- Apple A7 - 833 megaflopsia (LINPACK-arvio) [60]
- Apple A8 - 1,4 gigaflops [61]
- Apple A10 - 365 gigaflopsia (fp32), 91 gigaflopsia (fp64) [62]
- Apple A14 - 824 gigaflopsia (fp32), 206 gigaflopsia (fp64) [62]
Hajautetut järjestelmät
- Bitcoin - sisältää huomattavan määrän erikoistuneita laskentaresursseja, mutta ratkaisee vain kokonaislukuongelmia (laskemalla SHA256 hash summa ). Lähes kaikki laskimet on toteutettu erityisten mukautettujen mikropiirien (ASIC) muodossa, jotka eivät teknisesti pysty suorittamaan laskelmia liukulukujen perusteella. Siksi on tällä hetkellä väärin arvioida Bitcoin-verkkoa floppien avulla. [63] [64] [65] Aiemmin, vuoteen 2011 asti, verkossa käytettiin vain suorittimia ja GPU :ita , jotka pystyvät käsittelemään sekä kokonaisluku- että kelluvaa dataa, ja floppiestimaatti saatiin hash/s-metriikasta käyttämällä empiiristä kerrointa 12,7 tuhatta. [66] [67] Esimerkiksi huhtikuussa 2011 verkon tehoksi arvioitiin tällä menetelmällä noin 8 petaflopsia. [68]
- Folding@home on yli 2,6 exaflopsia 23. huhtikuuta 2020, joten se on maailman tehokkain ja suurin hajautettu laskentaprojekti.
- BOINC – yli 41,5 petaflopsia maaliskuussa 2020 [69]
- SETI@home - 0,66 petaflopsia (vuodelle 2013) [70]
- Einstein@Home – yli 5,2 petaflopsia maaliskuussa 2020 [71]
- Rosetta@home - yli 1,4 petaflopsia maaliskuussa 2020.
Pelikonsolit
Liukulukuoperaatiot 32-bittisille tiedoille määritetty
- Sega Dreamcast - 1,4 gigaflopsia
- Nintendo GameCube - 1,9 gigaflopsia ( CPU ), 8,6 gigaflopsia ( ATI-AMD "Flipper" GPU ) [72]
- Sony PlayStation Portable - 2,6 gigaflops [73]
- Nintendo Wii - 2,9 gigaflops (CPU) [74]
- Microsoft Xbox – 2,9 gigaflopsia (Intel Pentium III 733 Mhz CPU), 80,0 gigaflopsia (Nvidia XGPU 233 MHz GPU) [72]
- Sony PlayStation 2 - 6.2 gigaflops
- Microsoft Xbox 360 - 115,2 gigaflopsia (IBM Xenon CPU ), 240 gigaflopsia (ATI-AMD Xenos GPU )
- Sony PlayStation 3 - 230,4 gigaflopsin yksittäinen tarkkuus ja jopa +15 gigaflopsin kaksinkertainen tarkkuus (CPU Cell BE ) [75] [76]
- Nintendo Wii U - 352 gigaflops (GPU, oletettavasti) [77]
- Sony PlayStation 3 – 400,4 gigaflopsia (GFlops) RSX Nvidia G70 550 MHz [3]
- Microsoft Xbox One – 1,23 teraflopsia (GPU) [78]
- Sony PlayStation 4 (AMD Radeon GPU) - 1,84 teraflops [79]
- Sony PlayStation® 4 Pro – 4,20 TFLOPS (AMD Radeon GPU) [80]
- Microsoft Xbox One X - 6 teraflopsia (GPU)
- Sony PlayStation 5 ( Radeon Navi GPU , RDNA2- arkkitehtuuri) - 10,3 teraflopsia [81]
- Microsoft Xbox Series X - 12 teraflopsia (GPU) [82]
GPU:t
Teoreettinen suorituskyky (FMA; gigaflops):
Mies ja laskin
Ei ole sattumaa, että laskin kuuluu samaan kategoriaan ihmisen kanssa, sillä vaikka se on elektroninen laite, joka sisältää prosessorin, muistin ja syöttö- ja syöttölaitteet, sen toimintatapa poikkeaa olennaisesti tietokoneen toiminnasta. Laskin suorittaa toiminnot toisensa jälkeen käyttäjän pyytämällä nopeudella. Toimenpiteiden välillä kuluva aika määräytyy ihmisen kyvyn mukaan ja ylittää merkittävästi suoraan laskelmiin kuluvan ajan. Voidaan sanoa, että yksinkertaisimpien tavanomaisten taskulaskinten keskimääräinen suorituskyky on noin 10 floppia tai enemmän.
Jos ei oteta poikkeustapauksia (katso ilmiömäinen laskuri ), niin tavallinen ihminen käyttää vain kynää ja paperia, suorittaa liukulukuoperaatioita hyvin hitaasti ja usein suurella virheellä puhuen siten ihmisen suorituskyvystä laskentalaitteena. , täytyy käyttää sellaisia yksiköitä, kuten millifloppeja ja jopa mikroflopseja.
Katso myös
Muistiinpanot
- ↑ Uusi käänne arkistoitu 11. syyskuuta 2013 Wayback Machinessa Byrd Kiwi , PC World, nro 07, 2012: "Jos supertietokoneiden nykyinen kehitysvauhti jatkuu, niin seuraava suorituskyvyn virstanpylväs on 1 eksaflops tai kvintiljoona (10 ^18) operaatiota sekunnissa, odotetaan saavutettavan vuoteen 2019 mennessä ... uskotaan, että tietokone, jonka suorituskyky on yksi zettaflops (10^21 eli sekstilljoonaa operaatiota), voidaan rakentaa vuoden 2030 tienoilla. Lisäksi termit ovat jo varastossa seuraavaa laskentarajaa varten - yottaflops (10^ 24) ja xeraflops (10^27)."
- ↑ Peta, exa, zetta, yotta... Arkistoitu 3. joulukuuta 2013 Wayback Machinessa Byrd Kiwi , Computerra, Päivämäärä: 16. heinäkuuta 2008: "Tätä rajaa tulisi seurata zettaflops (10^21), yottaflops (10^) 24 ) ja xeraflops (10^27).
- ↑ 1 2 3 PLAYSTATION 3のグラフィックスエンジン RSX . Käyttöpäivä: 30. joulukuuta 2016. Arkistoitu alkuperäisestä 17. syyskuuta 2016. (määrätön)
- ↑ http://ixbtlabs.com/articles3/video/rv670-part1-page1.html Arkistoitu 13. tammikuuta 2010 Wayback Machinen liukulukujen ALU:issa .. tuki FP32-tarkkuudelle
- ↑ Arkistoitu kopio (linkki ei saatavilla) . Haettu 17. elokuuta 2009. Arkistoitu alkuperäisestä 5. heinäkuuta 2009. (määrätön) nämä ovat yksittäisiä tarkkoja GPU-huippuja
- ↑ Arkistoitu kopio (linkki ei saatavilla) . Haettu 17. elokuuta 2009. Arkistoitu alkuperäisestä 15. lokakuuta 2009. (määrätön) HPL on ohjelmistopaketti, joka ratkaisee tiheän lineaarisen järjestelmän kaksinkertaisella tarkkuudella (64 bittiä)
- ↑ [1] Arkistoitu 1. syyskuuta 2009 Wayback Machinessa [2] Arkistoitu 1. syyskuuta 2009 Wayback Machinessa HPL Faq -merkinnät tarkkuuden vuoksi
- ↑ 32-bittisen FP-aritmeettisen suorituskyvyn hyödyntäminen 64-bittisen tarkkuuden saavuttamisessa (Iterative Refinement for Linear Systems) Arkistoitu 4. joulukuuta 2008 Wayback Machinessa
- ↑ SSE, SSE2 & SSE3 maksimikapasiteetti: 4 floppi / sykli . Haettu 28. syyskuuta 2017. Arkistoitu alkuperäisestä 16. maaliskuuta 2012. (määrätön)
- ↑ Nettotulos on, että voit nyt käsitellä 2 DP-lisää ja 2 DP-kertoa kelloa kohti tai 4 FLOPSia per jakso. (DP) . Käyttöpäivä: 20. heinäkuuta 2010. Arkistoitu alkuperäisestä 24. toukokuuta 2010. (määrätön)
- ↑ 1 2 3 Jack Dongarra. Adaptive Linear Solvers and Eigensolvers (englanniksi) (linkki ei käytettävissä) . Argonnen koulutusohjelma äärimmäisen mittakaavan tietojenkäsittelyssä . Argonnen kansallinen laboratorio (13. elokuuta 2014). Haettu 13. huhtikuuta 2015. Arkistoitu alkuperäisestä 24. huhtikuuta 2016.
- ↑ Jack Dongarra, Peak Performance - Per Core Arkistoitu 22. joulukuuta 2015 Wayback Machinessa / A Look at High Performance Computing, 2015-10-15
- ↑ 1 2 http://sites.utexas.edu/jdm4372/2016/11/22/sc16-invited-talk-memory-bandwidth-and-system-balance-in-hpc-systems/ Arkistoitu 2. helmikuuta 2017 Waybackissa Kone http://sites.utexas.edu/jdm4372/files/2016/11/Slide20.png Arkistoitu 2. helmikuuta 2017 Wayback Machinessa
- ↑ Laskentateho: ensimmäisestä tietokoneesta moderniin supertietokoneeseen . Haettu 19. maaliskuuta 2020. Arkistoitu alkuperäisestä 19. maaliskuuta 2020. (määrätön)
- ↑ Numeerisen sääennusteen syntyminen: Richardsonilta ENIACiin Arkistoitu 2. joulukuuta 2013 Wayback Machinessa 2011
- ↑ IBM on luonut maailman tehokkaimman supertietokoneen _ _ _ _ _
- ↑ T-PLATFORM A-LUOKAN RYPPI, XEON E5-2697V3 14C 2,6 GHZ, INFINIBAND FDR, NVIDIA K40M Arkistoitu 29. marraskuuta 2014 Wayback Machinessa // Top 500, marraskuu 2014
- ↑ TOP500-supertietokoneiden uusi luokitus. Arkistokopio 21. marraskuuta 2014 Wayback Machinessa // Computerra, 18. marraskuuta 2014: "... A-luokan klusteri, jonka T-Platforms on luonut Moskovan valtionyliopiston tutkimuslaskentakeskukselle. "
- ↑ MSU:n uusi supertietokone tuli Top500-arkistokopioon , joka on päivätty 17. marraskuuta 2016 Wayback Machinessa // Data Center World, Open Systems, 19.11.2014: "Uudessa MSU-supertietokoneessa on vain viisi laskentatelinettä, joissa on 1280 solmua. 14-ytiminen Intel Xeon E5 -prosessorit -2697 v3 ja NVIDIA Tesla K40 -kiihdytin, joiden RAM-muistin kokonaiskapasiteetti on yli 80 Tt. … Jokainen supertietokoneen teline kuluttaa noin 130 kW.”
- ↑ Christofari - NVIDIA DGX-2, Xeon Platinum 8168 24C 2,7 GHz, Mellanox InfiniBand EDR, NVIDIA Tesla V100 Arkistoitu 3. tammikuuta 2020 Wayback Machinessa - top500, 2019-11
- ↑ Christofarin supertietokoneen videoesitys . Sbercloud. Haettu 27. joulukuuta 2019. Arkistoitu alkuperäisestä 17. joulukuuta 2019. (Venäjän kieli)
- ↑ Sberbank loi Venäjän tehokkaimman supertietokoneen . RIA Novosti (20191108T1123+0300Z). Käyttöpäivä: 8. marraskuuta 2019. Arkistoitu alkuperäisestä 8. marraskuuta 2019. (Venäjän kieli)
- ↑ Japanilainen supertietokone on parempi kuin kiinalainen arkistokopio , joka on päivätty 5. marraskuuta 2011 Wayback Machinessa (venäjäksi)
- ↑ Lawrence Livermoren Sequoia Supercomputer Towers on muiden yläpuolella uusimmassa TOP500-luettelossa Arkistoitu 11. syyskuuta 2017 Wayback Machinessa , TOP500-uutistiimi | 16. heinäkuuta 2012
- ↑ Agam Shah (IDG News), Titan-supertietokone saavuttaa 20 petaflopsia prosessointitehoa Arkistoitu 3. heinäkuuta 2017 Wayback Machinessa // PCWorld, Computers, 29. lokakuuta 2012
- ↑ Tianhe-2:n lupaavat ominaisuudet Arkistoitu 28. marraskuuta 2014 Wayback Machinessa // Open Systems, nro 08, 2013
- ↑ Useimpien prosessorien yksitarkkuussuorituskyky on tasan 2 kertaa ilmoitettuja arvoja korkeampi.
- ↑ 1200–4900 prosessorisykliä 1 kaksinkertaisen tarkkuuskäskyn suorittamiseen niiden tyypistä riippuen, yksittäiset tarkkuustoiminnot suoritettiin noin 10 kertaa nopeammin: https://datasheetspdf.com/pdf/1344616/AMD/Am9512/1 Arkistoitu kopio 26. joulukuuta , 2019 Wayback Machinessa (sivu 4)
- ↑ 1 2 3 4 5 Ryan Crierie. http://www.alternatewars.com/BBOW/Computing/Computing_Power.htm (englanniksi) . Alternate Wars (13. maaliskuuta 2014). Käyttöpäivä: 23. tammikuuta 2015. Arkistoitu alkuperäisestä 23. tammikuuta 2015.
- ↑ 1 2 3 Jack J. Dongarra. Eri tietokoneiden suorituskyky vakiolineaariyhtälöillä ( 15. kesäkuuta 2014). Haettu 23. tammikuuta 2015. Arkistoitu alkuperäisestä 17. huhtikuuta 2015.
- ↑ Elbrus-4C-mikroprosessori (linkki ei saavutettavissa) . MCST. Haettu 28. kesäkuuta 2015. Arkistoitu alkuperäisestä 4. kesäkuuta 2014. (määrätön)
- ↑ Keskusprosessori "Elbrus-8S" (TVGI.431281.016) . JSC "MCST" . Haettu 16. joulukuuta 2017. Arkistoitu alkuperäisestä 30. maaliskuuta 2018. (määrätön)
- ↑ Kuusi 64-bittistä FMAC - lohkoa ydintä kohden: 8 x 1,3 x 6 x 2 = 124,8 GFlops/s kaksinkertainen tarkkuushuipputeho
- ↑ Kaksi 128-bittistä FMAC - lohkoa kussakin moduulissa, joka yhdistää 4 GHz:n taajuudella toimivan ydinparin: 4x4x2x2x128/64 = 128 GFlops/s huippusuorituskyky kaksinkertaisen tarkkuuden laskelmissa
- ↑ Alex Voica. Uudet MIPS64-pohjaiset Loongson-prosessorit rikkovat suorituskyvyn esteen (englanniksi) (downlink) (3. syyskuuta 2015). Haettu 4. helmikuuta 2017. Arkistoitu alkuperäisestä 5. helmikuuta 2017.
- ↑ Arkistoitu kopio . Haettu 26. joulukuuta 2019. Arkistoitu alkuperäisestä 27. kesäkuuta 2019. (määrätön)
- ↑ Kaksi 128-bittistä FMAC - lohkoa ydintä kohden: 8 x 3,4 x 2 x 2 x 128/64 = 217,6 Gflops/s kaksinkertainen tarkkuushuipputeho
- ↑ Mikroprosessori "Elbrus-8SV" (TVGI.431281.023) . JSC "MCST" . Käyttöpäivä: 16. joulukuuta 2017. Arkistoitu alkuperäisestä 27. joulukuuta 2019. (määrätön)
- ↑ Ensimmäinen Elbrus-8SV . Haettu 23. syyskuuta 2017. Arkistoitu alkuperäisestä 23. syyskuuta 2017. (määrätön)
- ↑ Kuusi 128-bittistä FMAC - lohkoa ydintä kohden: 8 x 1,5 x 6 x 2 x 128/64 = 288 Gflopsia kaksinkertaisen tarkkuuden huippusuorituskykyä
- ↑ Linpack-suorituskyky Haswell E (Core i7 5960X ja 5930K) - Puget Custom Computers . Käyttöpäivä: 15. tammikuuta 2015. Arkistoitu alkuperäisestä 27. maaliskuuta 2015. (määrätön)
- ↑ Intel® Core™ i9-9900K -suoritin (16 Mt:n välimuisti, jopa 5,00 GHz) Tuotteen tekniset tiedot . Haettu 26. joulukuuta 2019. Arkistoitu alkuperäisestä 5. maaliskuuta 2021. (määrätön)
- ↑ 1 2 Kaksi 256-bittistä FMAC - lohkoa ydintä kohden: 8 x 3,6 x 2 x 2 x 256/64 = 460 GFlop/s
- ↑ Arkistoitu kopio . Haettu 26. joulukuuta 2019. Arkistoitu alkuperäisestä 27. kesäkuuta 2019. (määrätön)
- ↑ Elbrus 16C -mikroprosessori (ensimmäiset tekniset näytteet vastaanotettu) . Haettu 30. tammikuuta 2020. Arkistoitu alkuperäisestä 4. tammikuuta 2020. (määrätön)
- ↑ Arkistoitu kopio . Haettu 26. joulukuuta 2019. Arkistoitu alkuperäisestä 24. heinäkuuta 2019. (määrätön)
- ↑ Kaksi 256-bittistä FMAC - lohkoa ydintä kohden: 16 x 3,5 x 2 x 2 x 256/64 = 896 GFlops/s
- ↑ AMD EPYC 7H12:n tiedot . tekninen tehostaminen . Käyttöönottopäivä: 10.10.2021.
- ↑ AMD julkistaa tehokkaimman 64-ytimisen prosessorinsa . iXBT.com . Haettu 10. lokakuuta 2021. Arkistoitu alkuperäisestä 10. lokakuuta 2021. (Venäjän kieli)
- ↑ arkkitehtuuri – Intel(R) Core™ i7-3770 -suorittimen yhden tarkkuuden ja kaksinkertaisen tarkkuuden huippusuorituskyvyn laskeminen - Stack Overflow . Haettu 15. lokakuuta 2017. Arkistoitu alkuperäisestä 22. lokakuuta 2015. (määrätön)
- ↑ 1 2 Yleiskatsaus Intel® Advanced Vector Extensions 512:sta (Intel® AVX-512) . Haettu 24. joulukuuta 2019. Arkistoitu alkuperäisestä 24. joulukuuta 2019. (määrätön)
- ↑ Määritellyn määrän käskyjä sykliä kohden voivat suorittaa vain näiden arkkitehtuurien vanhemmat edustajat, joita myydään markkinointinimillä Xeon Platinum ja Xeon Gold alkaen 6xxx-sarjasta, joiden kummassakin ytimessä on kaksi 512-bittistä FMAC-lohkoa AVX:n suorittamista varten. -512 ohjeet. Kaikissa juniormalleissa: Xeon Bronze, Xeon Silver ja Xeon Gold 5ххх, yksi FMAC-lohkoista on poissa käytöstä, ja siksi liukulukukäskyjen enimmäissuoritusnopeus pienenee 2 kertaa.
- ↑ Liukulukuprosessointiyksikkö (FPU) on jaettu moduulia kohti – prosessoriytimien pari. Kun kelluvia operaatioita suoritetaan samanaikaisesti molemmissa ytimissä, se jaetaan niiden kesken.
- ↑ Lyhyt kuvaus Elbruksen / Elbruksen arkkitehtuurista . Haettu 26. joulukuuta 2019. Arkistoitu alkuperäisestä 11. kesäkuuta 2017. (määrätön)
- ↑ Tämä mikroarkkitehtuuri kuuluu VLIW -luokkaan ja siinä on 6 rinnakkaista kanavaa käskyjen suorittamiseen, joista 4 on varustettu 64-bittisillä FMAC -tyyppisillä liukulukuyksiköillä .
- ↑ Elbrus-8S (TVGI.431281.016) / Elbrus-8S1 (TVGI.431281.025) - keskusprosessori 1891VM10Ya / 1891VM028 / MCST . Haettu 16. joulukuuta 2017. Arkistoitu alkuperäisestä 30. maaliskuuta 2018. (määrätön)
- ↑ Arkkitehtuurin 4. sukupolvessa 64-bittiset FMAC-lohkot ovat jo saatavilla kaikilla 6 käskyn suorituskanavalla.
- ↑ Elbrus-8SV (TVGI.431281.023) - keskusprosessori 1891VM12YA / MCST . Käyttöpäivä: 16. joulukuuta 2017. Arkistoitu alkuperäisestä 27. joulukuuta 2019. (määrätön)
- ↑ Arkkitehtuurin 5. sukupolvessa kaikkien FMAC-lohkojen bittisyvyys nostettiin 64:stä 128:aan.
- ↑ Sergei Uvarov. Apple iPhone 5s:n yksityiskohtainen katsaus ja testaus . IXBT.com (23. syyskuuta 2013). Arkistoitu alkuperäisestä 2. lokakuuta 2013. (määrätön)
- ↑ Apple A8 SoC - NotebookCheck.net Tech . Haettu 15. tammikuuta 2015. Arkistoitu alkuperäisestä 20. joulukuuta 2014. (määrätön)
- ↑ 1 2 Apple A10 - Vertailevat tekniset tiedot ja suorittimen vertailuarvot . Haettu 22. tammikuuta 2022. Arkistoitu alkuperäisestä 22. tammikuuta 2022. (määrätön)
- ↑ [3] Arkistoitu 30. elokuuta 2017 Wayback Machinessa // Gizmodo, 13.5.2013: "Koska Bitcoinin kaivostyöntekijät tekevät itse asiassa yksinkertaisempaa matematiikkaa (kokonaislukuoperaatioita), sinun on suoritettava pieni (sotkuinen) muunnos saadaksesi FLOPSiin. .. uudet ASIC-kaivostyökoneet – koneet .. tee muuta kuin louhivat Bitcoineja – eivät voi edes tehdä muunlaisia toimintoja, ne jäävät kokonaan pois."
- ↑ [4] Arkistoitu 3. joulukuuta 2013 Wayback Machinessa // SlashGear, 13. toukokuuta 2013: "Bitcoinin louhinta ei teknisesti toimi käyttämällä FLOPSia, vaan pikemminkin kokonaislukulaskelmia, joten luvut muunnetaan FLOPSiksi muunnoksen saamiseksi, jota useimmat ihmiset ymmärtävät enemmän. Koska muunnosprosessi on hieman outo, se on johtanut siihen, että jotkut asiantuntijat pitävät loukkaavia kaivoslukuja."
- ↑ [5] Arkistoitu 27. marraskuuta 2013 Wayback Machinessa // ExtremeTech: "Koska Bitcoinin louhinta ei perustu liukulukuoperaatioihin, nämä arviot perustuvat vaihtoehtokustannuksiin. Nyt kun meillä on sovelluskohtaisilla integroiduilla piireillä (ASIC) varustettua laitteistoa, joka on suunniteltu alusta alkaen tekemään muuta kuin louhimaan Bitcoineja, nämä arviot muuttuvat entistä sumeammiksi.
- ↑ [6] Arkistoitu 3. joulukuuta 2013 Wayback Machinessa // CoinDesk : "Kaksi arviot, joita käytettiin tiivisteiden muuntamiseen flopeiksi (joiden tuloksena on noin 12 700 floppia hashia kohti), ovat peräisin vuodelta 2011, ennen kuin ASIC-laitteista tuli normi bitcoinin louhinnassa. ASIC:t eivät käsittele floppeja ollenkaan, joten nykyinen vertailu on erittäin karkea."
- ↑ [7] Arkistoitu 3. joulukuuta 2013 Wayback Machinelle // VR-Zone: "Verkon osuuden yleisen nopeuden määrittämiseen käytetään muunnoskurssia 1 hash = 12,7K FLOPS. Arvio luotiin vuonna 2011, ennen yksinomaan bitcoinin louhintaan suunnitellun ASIC-laitteiston luomista. ASIC ei käytä liukulukuoperaatioita ollenkaan,… Siten estimaatilla ei ole mitään todellista merkitystä sellaiselle laitteistolle.”
- ↑ Bitcoin Watch , arkistoitu 8.4.2011: "Network Hashrate TFLOP/s 8007"
- ↑ BOINC Arkistoitu 19. syyskuuta 2010.
- ↑ BOINCstats:SETI@home Arkistoitu alkuperäisestä 3. toukokuuta 2012.
- ↑ BOINCstats:Einstein@Home . Haettu 16. huhtikuuta 2012. Arkistoitu alkuperäisestä 21. helmikuuta 2012. (määrätön)
- ↑ 12 konsolin tekniset tiedot . Haettu 7. joulukuuta 2017. Arkistoitu alkuperäisestä 10. huhtikuuta 2021. (määrätön)
- ↑ PSP:n tekniset tiedot paljastettiin Prosessointinopeus, polygoninopeus ja paljon muuta. Arkistoitu 28. heinäkuuta 2009 Wayback Machinessa // IGN Entertainment, 2003. "PSP CPU CORE...FPU, VFPU (Vector Unit) @ 2.6GFlops"
- ↑ Päivitys: Kuinka monta FLOPSia on pelikonsoleissa? Arkistoitu 9. marraskuuta 2010 Wayback Machinessa // TG Daily, 26. toukokuuta 2008
- ↑ Cell Broadband Engine Architecture ja sen ensimmäinen toteutus . IBM developerWorks (29. marraskuuta 2005). Haettu 6. huhtikuuta 2006. Arkistoitu alkuperäisestä 24. tammikuuta 2009. (määrätön)
- ↑ 32-bittisen liukulukuaritmeettisen suorituskyvyn hyödyntäminen 64-bittisen tarkkuuden saavuttamisessa . Tennesseen yliopisto (31. heinäkuuta 2005). Haettu 11. helmikuuta 2011. Arkistoitu alkuperäisestä 18. maaliskuuta 2011. (määrätön)
- ↑ Philip Wong . Xbox One vs. PS4 vs. Wii U [päivitys ] (englanniksi) , CNET Asia, Games & Gear (22. toukokuuta 2013). Arkistoitu alkuperäisestä 3. joulukuuta 2013. Haettu 29. marraskuuta 2013.
- ↑ Anand Lal Shimpi. Xbox One: Laitteiston analyysi ja vertailu PlayStation 4:ään (englanniksi) . Anandtech (22. toukokuuta 2013). Arkistoitu alkuperäisestä 2. lokakuuta 2013.
- ↑ PS4-spesifikaatio (linkki ei saatavilla) . Haettu 22. kesäkuuta 2013. Arkistoitu alkuperäisestä 20. kesäkuuta 2013. (määrätön)
- ↑ Tekniset tiedot . Peli asema. Haettu 14. joulukuuta 2018. Arkistoitu alkuperäisestä 4. toukokuuta 2019. (Venäjän kieli)
- ↑ Sony paljastaa uudet PlayStationin tekniset tiedot . RIA Novosti (20200318T2333+0300). Haettu 20. maaliskuuta 2020. Arkistoitu alkuperäisestä 20. maaliskuuta 2020. (Venäjän kieli)
- ↑ Mitä voit odottaa seuraavan sukupolven pelaamiselta . Xbox Wire (24. helmikuuta 2020). Haettu 24. helmikuuta 2020. Arkistoitu alkuperäisestä 24. helmikuuta 2020.
- ↑ NVIDIA GeForce RTX 2080 Ti Tekniset tiedot | TechPowerUp GPU-tietokanta
- ↑ 1 2 3 4 AMD (ATI) Radeon -näytönohjainkorttien vertailutaulukot . Haettu 24. helmikuuta 2012. Arkistoitu alkuperäisestä 28. helmikuuta 2012. (määrätön)
Linkit