Haulikkosekvensointi on tekniikka , jota käytetään pitkien DNA -osien sekvensointiin . Menetelmän ydin on saada tietyn organismin kloonatuista DNA-fragmenteista satunnainen massiivinen näyte, jonka perusteella voidaan palauttaa alkuperäinen DNA-sekvenssi [1] .
Edellytyksenä haulikkomenetelmän syntymiselle oli se, että ensimmäisillä sekvensointimenetelmillä pystyttiin palauttamaan vain pieniä, noin 1000 nukleotidin DNA-sekvenssejä [2] , joten pitkien sekvenssien sekvensointiin tarvittiin uusi lähestymistapa. Haulikkosekvensoinnissa DNA fragmentoidaan satunnaisesti pieniin osiin, jotka sitten sekvensoidaan millä tahansa käytettävissä olevalla menetelmällä, kuten Sanger-sekvensoinnilla . Saadut päällekkäiset satunnaiset DNA-fragmentit kootaan sitten erityisohjelmistolla yhdeksi kokonaiseksi sekvenssiksi [1] .
Haulikkomenetelmää käytettiin organismien ensimmäisten täydellisten genomien saamiseksi [1] .
Oletetaan esimerkiksi, että meillä on kaksi satunnaista haulikkopalaa:
Ketju | Jakso |
---|---|
Alkukirjain | AGCATGCTGCAGTCATGCTTAGGCTA |
Ensimmäinen fragmentti | AGCATGCTGCAGTCATGCT------- -------------------TAGGCTA |
Toinen fragmentti | AGCATG-------------------- ------CTGCAGTCATGCTTAGGCTA |
Palautettu sekvenssi | AGCATGCTGCAGTCATGCTTAGGCTA |
Tämä esimerkki on erittäin yksinkertaistettu. Se heijastaa kuitenkin yhtä haulikkosekvenssiprosessin tärkeimmistä piirteistä. Mikään taulukossa esitetyistä neljästä lukemasta ei nimittäin kata kokonaan koko alkuperäistä sarjaa. Alkuperäinen sekvenssi voidaan kuitenkin palauttaa sen perusteella, että kukin alkuperäisen sekvenssin nukleotidi esiintyy vähintään yhdessä lukukerrassa ja lukujen osittaisen päällekkäisyyden vuoksi useammassa kuin yhdessä. [1] .
Todellisten DNA-molekyylien haulikkosekvensointi tuottaa miljoonia lukuja [3] , joista osa voi sisältää virheitä, jotka on sitten yhdistettävä alkuperäiseen sekvenssiin. Tämän suuruista työtä ei tietenkään voida tehdä manuaalisesti, joten DNA-sekvenssin kokoamiseen lukemista käytetään erityisiä ohjelmistoja . Tehtävää mutkistaa se, että DNA sisältää usein toistuvia sekvenssejä , mikä tarkoittaa, että samanlaisia lukemia voidaan saada toisistaan kaukana olevista DNA:n osista [4] .
Tämän ongelman ratkaisemiseksi sekvensointi suoritetaan yleensä siten, että jokainen alkuperäisen sekvenssin nukleotidi ei esiinny yhdessä, vaan useissa lukukerroissa kerralla. Esimerkiksi ihmisen genomia sekvensoitaessa käytettiin 12-kertaista peittoa, eli jokainen nukleotidi löydettiin keskimäärin 12 lukemasta [5] .
Ajatus haulikkomenetelmän käytöstä pienten genomien (4000–7000 kb) sekvensointiin esitettiin vuonna 1979 [1] . Ja kaksi vuotta myöhemmin, vuonna 1981, haulikkomenetelmää käytettiin ensimmäisen kerran käytännössä sekvensoimaan kukkakaalin mosaiikkiviruksen koko genomi [6] [7] .
Haulikon sekvensointiprosessi koostuu useista vaiheista. Ensin sekvensoitava DNA monistetaan . Tuloksena saadut DNA-kopiot leikataan fragmenteiksi käyttämällä ei-spesifisiä nukleaaseja. Paikan epäspesifisyys on tärkeää päällekkäisten fragmenttien saamiseksi [8] [9] . Genomikirjasto rakennetaan saaduista fragmenteista upottamalla fragmentit johonkin vektoriin . Tietty osajoukko fragmentteja valitaan satunnaisesti tuloksena olevasta genomisesta kirjastosta, joista jokainen sekvensoidaan esimerkiksi Sangerin menetelmällä . Sitten erityisohjelmiston avulla alkuperäisen DNA:n nukleotidisekvenssi kootaan saaduista fragmenttien nukleotidisekvensseistä, joita kutsutaan lukuteksteiksi [1] .
Alkuperäisen DNA-sekvenssin kokoamisprosessin aikana päällekkäiset lukemat kootaan suuremmiksi sekvensseiksi, joita kutsutaan jatkuviksi. Jatkoviivat ovat rekonstruoitavan DNA-sekvenssin vierekkäisiä osia. Jatkut puolestaan yhdistetään vielä suuremmiksi sekvensseiksi - telineiksi - jotka eivät enää välttämättä ole alkuperäisen DNA:n jatkuvia osia ja voivat sisältää aukkoja. Jos sekvensointi suoritettiin parillisten lukujen menetelmällä , niin telineen jatkuvien etäisyys voidaan johtaa parillisten lukujen sijaintitietojen perusteella [10] . Riippuen jatkeiden välisestä etäisyydestä voidaan käyttää erilaisia menetelmiä telineen aukkojen täyttämiseen. Jos aukko on pieni (5–20 kb), alue monistetaan PCR :llä ja sitten sekvensoidaan. Jos aukko on suuri (> 20 kb), puuttuva fragmentti kloonataan erityisiin vektoreihin, kuten bakteerin keinotekoiseen kromosomiin , minkä jälkeen suoritetaan vektorin sekvensointi [11] .
Kun yhä pidempiä DNA-sekvenssejä alettiin sekvensoida, kävi selväksi, että oli hyödyllistä sekvensoida molemmat DNA-juosteet. Ensinnäkin on tapauksia, joissa DNA-konformaation erityispiirteistä johtuen nukleotidin määrittäminen tietyssä kohdassa toisessa ketjussa on erittäin vaikeaa, kun taas toisessa juosteessa samassa kohdassa oleva nukleotidi voidaan määrittää helposti. Toiseksi tietoa parillisten lukujen suhteellisesta sijainnista voidaan käyttää määrittämään rakennustelineen jatkuvien etäisyyksien välinen etäisyys. Haulikkomenetelmän modifikaatiota, joka sekvensoi molemmat DNA-juosteet, kutsutaan paritukselliseksi lukusekvenssiksi tai "kaksipiippuiseksi" haulikkomenetelmäksi. Tämä menetelmä on yleistynyt ja sitä on käytetty erityisesti ihmisen genomin sekvensoinnissa [5] .
Pareittain luetussa sekvensoinnissa DNA leikataan satunnaisiksi fragmenteiksi, jotka sitten ryhmitellään painon mukaan (tyypillisesti 2, 10, 50 ja 150 kb) ja kloonataan vektoreihin . Kloonit sekvensoidaan molemmista päistä käyttämällä ketjun lopetusmenetelmää , mikä johtaa kahteen lyhyeen sekvenssiin. Jokaista sekvenssiä kutsutaan lopulliseksi lukuksi tai yksinkertaisesti lukuksi, ja kaksi lukusekvenssiä samasta kloonista ovat parillisia päätteitä. Koska lukujen pituus ketjun lopetusmenetelmää käytettäessä ei yleensä ylitä 1000 emäsparia, kaikissa paitsi pienimmässä klooneissa paritetut päät menevät harvoin päällekkäin [12] .
Ensimmäinen julkaistu kuvaus paired-end-sekvensointimenetelmän käytöstä on vuodelta 1990 [13] . Tämä työ keskittyi ihmisen hypoksantiini-guaniinifosforibosyylitransferaasigeenin sekvensointiin , mutta parillisia päitä käytettiin vain sekvenssin aukkojen korjaamiseen klassisen haulikkomenetelmän soveltamisen jälkeen. Vuonna 1991 julkaistiin ensimmäinen teoreettinen kuvaus paripään sekvensoinnista täydessä muodossaan [14] , jossa käytettiin vakiopituisia fragmentteja. Tuolloin uskottiin, että parillisia päitä sekvensoitaessa on optimaalista käyttää fragmentteja, joiden pituus on kolme kertaa lukujen pituus. Vuonna 1995 osoitettiin [12] , että on mahdollista käyttää erikokoisia fragmentteja sekvensoitaessa parillisia päitä, mikä osoittaa, että tätä lähestymistapaa voidaan käyttää pitkien DNA-sekvenssien sekvensoimiseen. Myöhemmin tätä lähestymistapaa käytettiin aktiivisesti eri organismien genomien sekvensoinnissa: Haemophilus influenzaen genomin vuonna 1995 [15] , Drosophilan ( hedelmäkärpäsen ) genomin vuonna 2000 [16] ja lopuksi ihmisen genomin [5] vuonna 2001.
Kattavuus on keskimääräinen lukujen lukumäärä, jotka kattavat yhden kohdan rekonstruoidussa sekvenssissä. Se voidaan laskea alkuperäisestä genomin pituudesta ( ), lukujen lukumäärästä ( ) ja keskimääräisestä lukupituudesta ( ), kuten: . Kattavuutta kutsutaan joskus myös lukujen peittämien genomiasemien osuukseksi. Haulikkomenetelmän korkea kattavuus on välttämätöntä, koska sen avulla voit päästä eroon kokoonpanovirheistä, jotka liittyvät toistuvien sekvenssien esiintymiseen DNA:ssa [17] .
Teoriassa haulikkomenetelmää voidaan soveltaa kaikenkokoisiin genomeihin, mutta alun perin sen todellisen soveltamisen mahdollisuus koko genomin sekvensointiin kyseenalaistettiin sekä suurten tietomäärien käsittelyssä syntyvien teknisten vaikeuksien vuoksi että lisävaikeuksien vuoksi syntyvät, koska suurissa genomeissa on valtava määrä toistuvia alueita [18] . Hierarkkisen sekvensoinnin tulo mahdollisti haulikkomenetelmän soveltamisen suuriin genomeihin käytännössä.
Monistettu genomi leikataan ensin suuriksi paloiksi (50–200 kb) ja kloonataan bakteeri-isäntään käyttämällä keinotekoista bakteerikromosomia . Koska genomista leikattiin satunnaisesti useita kopioita, näiden kloonien sisältämillä fragmenteilla, joita kutsutaan myös BAC-kontigeiksi, on erilaiset päät, mikä tarkoittaa, että voidaan löytää teline, jolla on tyydyttävä peitto ja joka kattaa koko genomin. Tällaista telinettä kutsutaan peitepoluksi [19] .
Kun peittävä polku on löydetty, tämän polun muodostavat BAC-jatkokset leikataan satunnaisesti pienemmiksi fragmenteiksi, jotka sitten sekvensoidaan haulikkomenetelmällä. Vaikka BAC-kontigtien nukleotidisekvenssit ovat tuntemattomia, niiden suhteellinen asema voidaan määrittää, ja tätä tietoa voidaan sitten käyttää peittävän reitin rakentamiseen [19] .
Päällekkäiset kloonit voidaan tunnistaa useilla tavoilla. Yksi tapa on käyttää pientä radioaktiivisesti tai kemiallisesti leimattua DNA-sekvenssiä (STS). Tällainen sekvenssi hybridisoituu mikrosirulle , jossa klooneja tuotetaan [19] . Siten kaikki leimatun sekvenssin sisältävät kloonit tunnistetaan. Yhden näistä klooneista pää sekvensoidaan ja sitä käytetään uutena STS-sekvenssinä. Tätä iteratiivista prosessia kutsutaan kromosomikävelyksi [20] .
Toinen tapa tunnistaa risteäviä klooneja on käyttää restriktioentsyymejä . Tietty osa genomista käsitellään joukolla restriktionukleaaseja, minkä jälkeen tuloksena olevien DNA-fragmenttien kokoa verrataan. Tämän avulla voit rakentaa rajoituskartan, joka osoittaa kunkin rajoituskohdan sijainnin suhteessa muihin paikkoihin [19] . Tätä genomisen kartoitusmenetelmää kutsutaan restriktiokartoitukseksi, koska se tunnistaa jokaisen kloonin sisältämät restriktiokohdat [21] .
Tarve rakentaa laaja BAC-kirjasto ja valita peittävä polku tekee hierarkkisesta sekvensoinnista paljon hitaampaa ja työläämpää kuin haulikkogenomin sekvensointi. Ja nyt, kun tekniikat mahdollistavat tarvittavien laskumäärien suorittamisen riittävän nopeasti ja tiedoista on tullut varsin luotettavaa, haulikkolaajuinen genomin sekvensointi on korvaamassa hierarkkisen sekvensoinnin, koska se on tehokkaampaa sekä nopeuden että kustannusten kannalta [18] .
Klassinen haulikkomenetelmä perustui Sangerin menetelmään ja oli edistynein genomin sekvensointimenetelmä noin vuoteen 2005 asti. Haulikkomenetelmää käytetään edelleen, mutta se on korvattu uusilla sekvensointitekniikoilla, joita kutsutaan usein yhteisesti seuraavan sukupolven sekvensointiteknologiaksi . Nämä tekniikat tuottavat lyhyempiä lukuja (suuruusluokkaa 25-500 bp), mutta erittäin suurella nopeudella (noin miljoona lukua päivässä) [3] . Tämän seurauksena kattavuus kasvaa , mutta genomin kokoamisesta lukemista tulee laskennallisesti aikaa vievämpää. Kaiken kaikkiaan seuraavan sukupolven sekvensointimenetelmät vaativat haulikkomenetelmään verrattuna suuria laskentaresursseja, mutta niiden avulla voidaan saada täydellinen genomisekvenssi lyhyemmässä ajassa [22] .