Taajuusanalyysi

Taajuusanalyysi , taajuuden kryptausanalyysi - yksi kryptausanalyysin menetelmistä , joka perustuu oletukseen yksittäisten merkkien ja niiden sekvenssien ei-triviaalista tilastollisesta jakaumasta sekä pelkkänä että salatekstinä, joka merkkien korvaamiseen asti , säilytetään salauksen ja salauksen purkamisen aikana.

Yksinkertaisesti sanottuna frekvenssianalyysi olettaa, että aakkosten tietyn kirjaimen esiintymistiheys riittävän pitkissä teksteissä on sama saman kielen eri teksteissä . Samanaikaisesti yksiaakkosisen salauksen tapauksessa , jos salatekstissä on merkki, jolla on samanlainen esiintymistodennäköisyys, voimme olettaa, että se on ilmoitettu salattu kirjain. Samanlainen päättely pätee monikirjaimissa salakirjoissa bigrammeihin (kaksikirjaimiin sarjoihin), trigrammiin jne .

Taajuusskriptianalyysimenetelmä on tunnettu 800 - luvulta lähtien ( Al-Kindin työ ), vaikkakin tunnetuin tapaus sen soveltamisesta tosielämässä on J.-F. Champollion vuonna 1822. Kauniissa kirjallisuudessa tunnetuimpia viittauksia ovat Edgar Allan Poen tarinat "The Gold-Bug " , Conan Doylen "The Dancing Men " ja Jules Vernen romaani " Kapteeni Grantin lapset " .

1900-luvun puolivälistä lähtien suurin osa käytetyistä salausalgoritmeista on kehitetty kestämään taajuuden kryptoanalyysiä, joten sitä käytetään pääasiassa tulevien kryptografien koulutusprosessissa.

Kuvaus

Se hyödyntää sitä tosiasiaa, että yksittäisten kirjainten ilmaantumisen todennäköisyys sekä niiden järjestys luonnollisen kielen sanoissa ja lauseissa on tilastollisten mallien alainen: esimerkiksi kirjainpari "sya" seisoo vierekkäin Venäjä on todennäköisempi kuin "tsy", ja " o " venäjän kielessä ei esiinny ollenkaan (mutta se löytyy usein esimerkiksi tšetšeenistä ). Analysoimalla riittävän pitkä korvausmenetelmällä salattu teksti on mahdollista tehdä käänteinen korvaus merkkien esiintymistiheyden perusteella ja palauttaa alkuperäinen teksti.

Kuten edellä mainittiin, tekstin tärkeitä ominaisuuksia ovat kirjainten toisto (eri kirjainten määrä kussakin kielessä on rajoitettu), kirjainparit eli m (m-grammaa), kirjainten yhteensopivuus keskenään , vokaalien ja konsonanttien vuorottelu ja joitain muita ominaisuuksia. On huomionarvoista, että nämä ominaisuudet ovat melko vakaat.

Ajatuksena on laskea jokaisen n m mahdollisen m-gramman esiintymismäärä riittävän pitkissä selväkielisissä teksteissä T=t 1 t 2 …t l , jotka koostuvat aakkosten {a 1 , a 2 , …, a n } kirjaimista . Samalla tarkastellaan tekstin peräkkäisiä m-grammeja:

t 1 t 2 …t m , t 2 t 3 … t m+1 , …, t i-m+1 t l-m+2 …t l .

Jos L (a i1 a i2 … a im ) on m-gramman a i1 a i2 … a im esiintymien lukumäärä tekstissä T ja L on laskettujen m-grammien kokonaismäärä, niin riittävän suurelle L taajuudet L (a i1 a i2 … a im )/ L , tietylle m-grammille eroavat vähän toisistaan.

Tästä johtuen suhteellista frekvenssiä pidetään likimääräisenä todennäköisyydelle P (a i1 a i2 …a im ) tietyn m-gramman esiintymiselle satunnaisesti valitussa tekstin kohdassa (tämä lähestymistapa on otettu käyttöön tilastollisessa määritelmässä todennäköisyydestä).

Yleisessä tapauksessa kirjainten tiheys prosentteina voidaan määrittää seuraavasti: lasketaan kuinka monta kertaa se esiintyy salatekstissä, sitten saatu luku jaetaan salatekstin merkkien kokonaismäärällä; prosentille tulos kerrotaan 100:lla.

Toistuvuus ei kuitenkaan oleellisesti riipu pelkästään tekstin pituudesta, vaan myös sen luonteesta. Esimerkiksi teknisessä tekstissä normaalisti harvinainen kirjain F voi esiintyä paljon useammin. Siksi kirjainten keskimääräisen tiheyden määrittämiseksi luotettavasti on toivottavaa, että sinulla on joukko erilaisia tekstejä.

Katso myös

Kirjallisuus

S. Coutinho. Johdatus lukuteoriaan. RSA-algoritmi. Moskova: Postmarket, 2001. - 328 s.

Linkit

Tekstianalyysi