Kemoinformatiikka ( kemiallinen informatiikka , molekyyliinformatiikka ) on tietojenkäsittelytieteen menetelmien soveltamista kemiallisten ongelmien ratkaisemiseen.
Kemoinformatiikan käyttöalueet: kemiallisten yhdisteiden fysikaalis-kemiallisten ominaisuuksien ennustaminen (erityisesti lipofiilisyys , vesiliukoisuus), materiaaliominaisuudet, toksikologinen ja biologinen aktiivisuus, ADME/T, ekotoksikologiset ominaisuudet, uusien lääkkeiden ja materiaalien kehittäminen.
Termi kemoinformatiikka loi F.C. Brown [1] [2] vuonna 1998:
Kemoinformatiikka tarkoittaa tietoresurssien jakamista tiedon muuntamiseksi tiedoksi ja tiedoksi tiedoksi, jotta parhaat päätökset voidaan tehdä nopeammin lääkekehityksen johtavien yhdisteiden etsinnässä ja niiden optimoinnissa.
Myöhemmin tätä määritelmää laajensi J. Gasteiger [3] [4] :
Kemoinformatiikka on tietojenkäsittelytieteen menetelmien soveltamista kemiallisten ongelmien ratkaisemiseen.
G. Paris Novartisista antoi seuraavan määritelmän kemoinformatiikasta [5] :
Kemoinformatiikka on tieteellinen tieteenala, joka kattaa kemiallisen tiedon suunnittelun, luomisen, organisoinnin, hallinnan, haun, analysoinnin, levittämisen, visualisoinnin ja käytön.
A. Warnekin ja I. Baskinin [6] [7] antaman määritelmän mukaan :
Kemoinformatiikka on omaan molekyylimalliinsa perustuva teoreettisen kemian haara; Toisin kuin kvanttikemia, jossa molekyylejä esitetään elektronien ja ytimien ryhminä, ja voimapohjaisessa molekyylimallinnusssa, joka käsittelee klassisia "atomeja" ja "sidoksia", kemoinformatiikka pitää molekyylejä esineinä kemiallisessa avaruudessa.
Täydellisin ja yksityiskohtaisin kemoinformatiikan määritelmä tieteenalana on Obernayn julistuksessa [8] :
Kemoinformatiikka on tieteenala, joka on noussut viimeisten 40 vuoden aikana kemian ja laskennallisen matematiikan raja-alueelle. Ymmärrettiin, että monilla kemian osa-alueilla kemiallisen tutkimuksen aikana kertynyt valtava tietomäärä voidaan käsitellä ja analysoida vain tietokoneiden avulla. Lisäksi monet kemian ongelmat ovat niin monimutkaisia, että niiden ratkaisemiseen tarvitaan uusia, tietojenkäsittelytieteen menetelmien soveltamiseen perustuvia lähestymistapoja. Tämän pohjalta on kehitetty menetelmiä kemiallisten yhdisteiden ja reaktioiden tietokantojen rakentamiseen, yhdisteiden ja materiaalien fysikaalisten, kemiallisten ja biologisten ominaisuuksien ennustamiseen, uusien lääkkeiden etsimiseen, spektritietojen analysointiin, kemiallisten reaktioiden kulun ennustamiseen ja suunnitteluun. orgaaninen synteesi.
Kemoinformatiikka on kemian ja tietojenkäsittelytieteen risteyksessä . Kemoinformatiikka perustuu ajatukseen kemiallisesta tilasta - kaikkien saatavilla olevien kemiallisten esineiden kokonaisuudesta (kemialliset yhdisteet, reaktiot, seokset, liuokset, katalyyttiset järjestelmät, materiaalit jne.). Kemoinformatiikan erottuva piirre on, että sen puitteissa kemiallisten esineiden ominaisuuksien ennustaminen suoritetaan siirtämällä (interpoloimalla) tunnettuja ominaisuuksien arvoja samanlaisista kemiallisista esineistä. Useimmissa tapauksissa kemialliset kohteet voidaan esittää molekyylikaavioina , ja siksi graafiteoriamenetelmiä käytetään laajalti kemoinformatiikassa. Perinteinen lähestymistapa kemiallisen tiedon käsittelyyn on kuitenkin kartoittaa kemiallinen avaruus kuvaaja-avaruuteen, joka muodostuu kullekin kemialliselle kohteelle lasketuista molekyylikuvaajista - numeerisista ominaisuuksista, jotka kuvaavat kemiallisia kohteita (erityisesti molekyylikaaviot ). Tämä mahdollistaa matemaattisten tilastojen ja koneoppimisen (mukaan lukien tiedon louhinta ) menetelmien soveltamisen kemiallisten objektien kanssa työskentelyyn.
Kemoinformatiikan perusteet on esitelty oppikirjoissa [3] [9] [10] [11] [12] [13] , monografioissa [4] [5] [14] [15] ja katsausartikkeleissa [1] [2] [ 7] .
Kemoinformatiikassa kemiallisten yhdisteiden rakenteiden sisäiseen esittämiseen käytetään yleensä molekyylikaavioita , joita voidaan tarvittaessa täydentää tiedolla atomien kolmiulotteisista koordinaateista sekä niiden muutoksen dynamiikasta ajan myötä. Kemiallisen tiedon pitkäaikainen varastointi ja sen vaihto sovellusten välillä toteutetaan tiedostoilla, jotka on järjestetty kemiallisen tiedon ulkoisen esitystavan mukaisesti.
Yksinkertaisin kemiallisten yhdisteiden rakenteiden ulkoinen esitystapa ovat lineaariset merkinnät merkkijonon muodossa. Historiallisesti Wieswesserin lineaarinen merkintätapa (WLN) oli ensimmäinen lineaarisen merkinnän tyyppi. SMILES - merkkijonot ovat tällä hetkellä yleisin lineaarinen merkintätapa . Lisäksi käytetään myös lineaarisia merkintöjä SLN ( Sybyl Line Notation , Tripos, Inc.; sisältää myös mahdollisuuden määrittää Markush-rakenteita), SMARTS (SMILES-laajennus kemiallisten tietokantojen hakukyselyille), ROSDAL. Kemiallisten rakenteiden koodaamiseksi IUPAC ehdotti universaalia lineaarista merkintää InChI.
Toinen kemiallisten yhdisteiden rakenteiden ja niiden välisten reaktioiden ulkoinen esitys perustuu molekyyligraafin vierekkäisyysmatriisin suoraan koodaukseen. Yleisiä muotoja, kuten MOL, SDF ja RDF, jotka ovat tällä hetkellä vakiona kemiallisen tiedon vaihdossa, voidaan pitää tavoina esittää molekyyligraafin vierekkäisyysmatriisia tekstitiedostossa. Samaa tarkoitusta palvelevat erityiset formaatit MOL2, HIN, PCM jne., jotka on suunniteltu toimimaan yleisten molekyylimallinnusohjelmien kanssa.
Lopuksi kolmas tyyppinen kemiallisten yhdisterakenteiden ulkoinen esitys perustuu XML -tekniikkaan . Yleisin näihin periaatteisiin perustuvan kemiallisen tiedon kuvailukieli on CML.
Kemiallisen tiedon tietokoneesittelyä käsitellään yksityiskohtaisesti oppikirjassa [10] .
Kemian tietokannan hallinnan ominaisuus on se, että se tarjoaa seuraavan tyyppiset haut, jotka ovat tyypillisiä kemiallisille tiedoille> [10] :
Ohjelmisto työskentelyyn kemiallisten rakenteiden tietokantojen kanssa (tallennus, haku):
Julkiset tietokannat, jotka sisältävät kemiallisia tietoja:
Kemian tietokantoja käsitellään yksityiskohtaisesti oppikirjassa [11] .
Kemiallisten yhdisteiden ominaisuuksien ennustaminen kemoinformatiikassa perustuu matemaattisten tilastojen ja koneoppimismenetelmien käyttöön rakentamaan malleja, jotka mahdollistavat niiden ominaisuuksien (fysikaalisen, kemiallisen, biologisen aktiivisuuden) ennustamisen kemiallisten yhdisteiden rakenteiden kuvauksen perusteella. Malleille, jotka mahdollistavat biologisen aktiivisuuden kvantitatiivisten ominaisuuksien ennustamisen, on historiallisesti annettu englanninkielinen nimi Quantitative Structure-Activity Relationship (QSAR). Lyhenne QSAR tulkitaan usein laajasti viittaamaan mihin tahansa rakenne-ominaisuusmalleihin.
Farmakofori on joukko spatiaalisia ja elektronisia ominaisuuksia, jotka ovat välttämättömiä optimaalisen supramolekulaarisen vuorovaikutuksen varmistamiseksi tietyn biologisen kohteen kanssa, joka voi aiheuttaa (tai estää) sen biologisen vasteen. Farmakoforihaku etsii vastaavuutta farmakoforin kuvauksen ja hyväksyttävissä olevissa konformaatioissa olevien molekyylien ominaisuuksien välillä tietokannasta.
Molekyylien samankaltaisuus (tai kemiallinen samankaltaisuus, kemiallinen samankaltaisuus ) on kemiallisten yhdisteiden rakenteiden läheisyys, samankaltaisuus, samankaltaisuus. Molekyylien samankaltaisuuden kvantitatiivisena mittana pidetään usein arvoa, joka kasvaa kemiallisten yhdisteiden välisen etäisyyden pienentyessä kuvaajaavaruudessa. Kemiallisen samankaltaisuuden haku perustuu oletukseen, että samankaltaisilla yhdisteillä on samanlainen biologinen tai katalyyttinen aktiivisuus.
Virtuaalinen seulonta on laskennallinen toimenpide, joka sisältää kemiallisten yhdisteiden tietokannan automaattisen selaamisen ja sellaisten yhdisteiden valitsemisen, joilla ennustetaan olevan halutut ominaisuudet. Useimmiten virtuaaliseulontaa käytetään uusien lääkkeiden kehittämisessä etsimään kemiallisia yhdisteitä, joilla on haluttu biologinen aktiivisuus.
Tietokonesynteesi on kemoinformatiikan ala, joka kattaa menetelmät, algoritmit ja niitä toteuttavat tietokoneohjelmat, jotka auttavat kemistiä orgaanisten yhdisteiden synteesin suunnittelussa, tulosten ennustamisessa ja uudentyyppisten orgaanisten reaktioiden suunnittelussa tunnettujen synteettisten muunnosten tietojen yleistyksen perusteella.
Yksi kemoinformatiikan keskeisistä tehtävistä on kemiallisen tilan visualisointi ja kartoitus, navigointi ja tutkimattomien vyöhykkeiden tunnistaminen siinä [7] . Kemiallisen avaruuden analyysi perustuu yleensä joko kemiallisten esineiden (rakenteiden ja reaktioiden) esittämiseen kiinteän kokoisten kuvaajien vektoreina tai kemiallisten objektien kuvaamiseen molekyyligraafien avulla. Jälkimmäisessä tapauksessa molekyylirunkopuita käytetään usein edustamaan kemiallista tilaa.
Yksi kemoinformatiikan tärkeimmistä tehtävistä on haluttujen ominaisuuksien omaavien kemiallisten yhdisteiden molekyylisuunnittelu. Tällä tarkoitetaan kemiallisten yhdisteiden rakenteiden (molekyyligraafien) suunnattua generointia, joilla on tiettyjen mallien mukaan oltava yksi tai joukko ennalta määrättyjä ominaisuuksia. Käytettäessä tähän tarkoitukseen QSAR- ja QSPR-malleja, jotka on saatu kvantitatiivisten rakenne-ominaisuussuhteiden etsimisen tuloksena, puhutaan "käänteisestä QSAR:sta", "käänteisestä QSPR:stä" tai käänteisen ongelman ratkaisemisesta rakenne-ominaisuus -ongelmassa [ 16] . Nämä lähestymistavat perustuvat molekyyligraafigeneraattoreiden käyttöön. Käytettäessä ligandi-proteiini-vuorovaikutusta kuvaavaa fysikaalista mallia puhutaan de novo -kemiallisen rakenteen suunnittelumenetelmistä.
Laskennallisen kemian osat | |
---|---|