Molekyylisen samankaltaisuuden käsite (tai kemiallinen samankaltaisuus , kemiallinen samankaltaisuus ) on yksi kemoinformatiikan avainkäsitteistä [1] [2] . Sillä on tärkeä rooli nykyaikaisissa lähestymistavoissa kemiallisten yhdisteiden ominaisuuksien ennustamisessa , uusien yhdisteiden suunnittelussa, joilla on ennalta määrätyt ominaisuudet, ja erityisesti uusien lääkkeiden etsimisessä seulomalla suuria tietokantoja saatavilla olevista (tai mahdollisesti saatavilla olevista) kemiallisista yhdisteistä. Tällainen haku perustuu Johnsonin ja Maggioran muotoilemaan ominaisuuksien samankaltaisuuden periaatteeseen : samanlaisilla kemiallisilla yhdisteillä on samanlaiset ominaisuudet [1] .
Molekyylisen samankaltaisuuden mittaa kuvataan usein etäisyyden käänteislukuna tai vakiona miinusetäisyydeksi kuvaajaavaruudessa .
Samankaltaisuuspohjainen virtuaaliseulonta (ligandipohjaisen virtuaaliseulonnan muunnelma) perustuu oletukseen, että kaikilla tietokannan yhdisteillä, jotka ovat samanlaisia kuin tietty yhdiste, on samanlainen biologinen aktiivisuus. Vaikka tämä hypoteesi ei aina pidä paikkaansa [3] , usein tällaisen seulonnan aikana valittujen kemiallisten rakenteiden joukko osoittautuu kuitenkin merkittävästi rikastuneeksi yhdisteillä, joilla on haluttu biologinen aktiivisuus [4] . Paremman tehokkuuden saavuttamiseksi samankaltaisuuteen perustuvassa virtuaaliseulonnassa kemiallisia rakenteita kuvataan yleensä käyttämällä molekyyliseuloja ( rakenneavaimet ) tai kiinteän tai vaihtelevan kokoisia molekyylisormenjälkiä . Vaikka molekyyliseuloja ja molekyylisormenjälkiä voidaan luoda sekä puhtaasti topologisista (2D) molekyyliliitettävyystiedoista että (3D) tiedoista molekyylien tilarakenteesta, topologiset sormenjäljet, jotka ovat eräänlainen binäärifragmenttikuvaus, hallitsevat tätä kenttää. Vaikka rakenteelliset avaimet, kuten MDL-avaimet [5] , sopivat varsin hyvin pienten ja keskikokoisten kemiallisten tietokantojen kanssa työskentelyyn , niin tehokkaaseen työskentelyyn suurten tietokantojen kanssa on parempi käyttää molekyylisormenjälkiä, joilla on suurempi tietotiheys. Esimerkkejä ovat fragmenttipohjaiset molekyylisormenjäljet Daylightista [6] , BCI: stä [7] ja Triposista [8] . Yleisin molekyylisormenjälkien edustamien rakenteiden samankaltaisuuden mitta on Tanimoto (Jakara) -kerroin T . Kahden kemiallisen rakenteen katsotaan yleensä olevan samanlaisia (Daylightin molekyylisormenjäljet).