Vyöruusu algoritmi

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 2.5.2021 tarkistetusta versiosta . vahvistus vaatii 1 muokkauksen .

Shingles- algoritmi ( englanninkielisestä  vyöruusu  - scales) on algoritmi , joka on suunniteltu etsimään kopioita ja kopioita kyseisestä tekstistä verkkodokumentista. Työkalu plagioinnin havaitsemiseen .

Udi Manber vuonna 1994 ilmaisi ensimmäisenä maailmassa ajatuksen kaksoiskappaleiden löytämisestä, ja vuonna 1997 Andrey Broderoptimoitu ja toi sen loogiseen päätelmäänsä antaen tälle järjestelmälle nimen - "vyöruusualgoritmi".

Vaiheet

Tekstin läpikäymiä vaiheita verrataan:

Tekstin kanonisointi

Tekstin kanonisointi tuo alkuperäisen tekstin yhteen normaalimuotoon. Tekstistä on poistettu prepositiot, konjunktiot, välimerkit, HTML - tunnisteet ja muut tarpeettomat "roskat", joita ei pitäisi sisällyttää vertailuun. Useimmissa tapauksissa ehdotetaan myös adjektiivien poistamista tekstistä, koska niillä ei ole semanttista kuormaa.

Myös tekstin kanonisointivaiheessa substantiivit voidaan pelkistää nominatiiviseen tapaukseen, yksikköön tai niistä voidaan jättää vain juuret.

Halkaisu vyöruusuiksi

Vyöruusu  ovat artikkelista poimittujen sanojen alajaksoja. Vertailevista teksteistä on valittava sanan osasekvenssit, jotka seuraavat toisiaan 10 kappaleessa (paanun pituus). Valinta on päällekkäinen, ei päästä päähän. Siten jakamalla tekstin osasarjoiksi saamme vyöruusujoukon, joka on yhtä suuri kuin sanojen määrä miinus paanun pituus plus yksi.

Paanujen tiivisteiden laskeminen

Paanualgoritmin periaate on verrata kahden tekstin vyöruusujen (alasekvenssien) tarkistussummien satunnaista otosta keskenään.

Algoritmin ongelmana on vertailujen määrä, koska se vaikuttaa suoraan suorituskykyyn. Vertailun vuoksi vyöruusujen määrän kasvulle on ominaista toiminnan eksponentiaalinen lisääntyminen, mikä vaikuttaa kriittisesti suorituskykyyn.

Muistiinpanot

Kirjallisuus

Linkit