genomika.pdf

(555 KB) Pobierz
untitled
PRACE PRZEGL¥DOWE
Genomika – dziedzina wiedzy
XXI wieku
Pawe³ Mackiewicz 1 , Jolanta Zakrzewska-Czerwiñska 2 ,
Stanis³aw Cebrat 1
1 Zak³ad Genomiki, Instytut Genetyki i Mikrobiologii,
Uniwersytet Wroc³awski, Wroc³aw
2 Zak³ad Mikrobiologii, Instytut Immunologii i Terapii Doœwiadczalnej
im. L. Hirszfelda, Polska Akademia Nauk, Wroc³aw
Genomics – science of the 21 st century
Summary
Genomics is a new field of biology. Its fast development is caused mainly by
quick progress in large-scale genome sequencing and in computer technology.
In spite of a huge number of sequenced microbial genomes available in data-
bases, their taxonomical diversity is biased and reflects the interests of re-
searches and facility of microorganisms’ isolation and culture in laboratory con-
ditions. More than 80% of genome sequencing projects are focused on the mem-
bers of Proteobacteria, Firmicutes and Actinobacteria. Environmental genome
shotgun sequencing reveals that microbial diversity is much greater than we ex-
pected. Particular levels of genomic analysis, the problems and subjects of
genomics are specified and described here.
Key words:
genomics, bioinformatics, microbial genomes, microbial diversity.
Adres do korespondencji
Pawe³ Mackiewicz,
Zak³ad Genomiki,
Instytut Genetyki
i Mikrobiologii,
Uniwersytet Wroc³awski,
ul. Przybyszewskiego 63/77,
51-148 Wroc³aw;
e-mail:
pamac@microb.uni.wroc.pl
1. Postêpy w sekwencjonowaniu genomów
Genomika, czyli nauka o genomach jest stosunkowo now¹,
ale dynamicznie rozwijaj¹c¹ siê dziedzin¹ biologii. Do powstania
genomiki przyczyni³ siê intensywny rozwój technik biologii mo-
lekularnej, który umo¿liwi³ podjêcie i zrealizowanie projektów
sekwencjonowania ca³ych genomów. Pierwszym zsekwencjono-
wanym genomem by³ genom bakteriofaga MS2, zbudowany
z RNA o d³ugoœci 3569 nukleotydów (1). Prze³omem sta³o siê
3 (70) 7–21 2005
108837425.014.png 108837425.015.png
Pawe³ Mackiewicz, Jolanta Zakrzewska-Czerwiñska, Stanis³aw Cebrat
wprowadzenie w 1977 r. technik sekwencjonowania DNA przez Sangera i wsp. (2)
oraz Maxama i Gilberta (3). Szczególnie popularna sta³a siê metoda z u¿yciem dide-
oksynukleotydów Sangera zwana metod¹ terminacji ³añcucha. Pozwoli³a ona na po-
znanie sekwencji ca³ego genomu faga X174 o d³ugoœci 5,4 tys. nukleotydów, opu-
blikowanej w 1977 r. (4). Kolejnymi zsekwencjonowanymi genomami by³ genom mi-
tochondrialny cz³owieka o d³ugoœci 16,6 tys. pz (5) oraz faga o d³ugoœci 48,5 tys.
pz (6) – bardzo popularnego modelowego obiektu wielu badañ molekularnych
i genetycznych.
W latach osiemdziesi¹tych XX w. sekwencjonowanie ma³ych genomów sta³o siê
ju¿ stosunkowo proste i ma³o kosztowne, co doprowadzi³o do opublikowania se-
kwencji genomów wielu wirusów i organelli komórkowych. Jednak analiza sekwen-
cji du¿ych genomów wci¹¿ by³a poza zasiêgiem ówczesnych mo¿liwoœci. Dlatego za
wa¿ne wydarzenie uznano poznanie pe³nej sekwencji (315 tys. pz) – chromoso-
mu III dro¿d¿y Saccharomyces cerevisiae (7). Sekwencja ca³ego genomu dro¿d¿y
o d³ugoœci ponad 12 milionów pz zosta³a opublikowana na pocz¹tku 1996 r. (8).
Krokiem milowym w genomice sta³o siê wprowadzenie nowych technik sekwencjo-
nowania du¿ych genomów, tak zwan¹ metod¹ shotgun („strza³u na œlepo”) pole-
gaj¹cej na sekwencjonowaniu du¿ej liczby sekwencji generowanych przez losowe
fragmentowanie genomu, które nastêpnie s¹ sk³adane komputerowo (9). To w³aœnie
wprowadzenie metod obliczeniowych sk³adaj¹cych setki tysiêcy losowo uzyskanych
sekwencji DNA (pocz¹tkowo o d³ugoœci 300-500 pz, a obecnie do 1500 pz) w d³u¿-
sze fragmenty zmniejszy³o znacznie koszty i skróci³o czas sekwencjonowania, elimi-
nuj¹c tradycyjne metody polegaj¹ce na ¿mudnym i czasoch³onnym mapowaniu oraz
sk³adaniu kolejno u³o¿onych kosmidów lub subklonów (10). Dziêki metodzie shot-
gun , jeszcze przed og³oszeniem kompletnej sekwencji genomu dro¿d¿y, opubliko-
wano sekwencjê genomu bakterii Haemophilus influenzae – 1,8 mln pz (11), a tu¿ po
nim genomu Mycoplasma genitalium – 0,6 mln pz (12).
Od tego czasu mo¿na obserwowaæ w przybli¿eniu wyk³adniczy wzrost liczby
kompletnie zsekwencjonowanych genomów i intensywny rozwój genomiki (rys. 1).
Na pocz¹tku 2005 r. liczba zsekwencjonowanych genomów wynosi³a 244 (wg bazy
danych GOLD, www.genomesonline.org; 13, 14), w tym z królestwa Archaea – 20,
Bacteria – 193, Eukaryota – 31. Znaczny udzia³, jak widaæ, stanowi¹ genomy
Prokaryota . Licz¹c od 1999 r. liczba poznawanych genomów podwaja siê œrednio co
15 miesiêcy, a od 2000 r. co miesi¹c publikowane s¹ œrednio sekwencje czterech ge-
nomów. Wed³ug bazy danych GOLD na pocz¹tku 2005 r. rozpoczêtych by³o 1000
projektów sekwencjonowania ró¿nych genomów (w tym: Archaea – 27, Bacteria
509, Eukaryota – 464). Zak³adaj¹c, ¿e dotychczasowe tempo przyrostu liczby
zsekwencjonowanych genomów prokariotycznych bêdzie siê utrzymywaæ, to do
2030 r. poznamy ponad 5400 genomów. Dla porównania liczba znanych gatunków
Prokaryota wynosi obecnie 5536 (wed³ug DSMZ Bacterial Nomenclature Up-to-date,
www.dsmz.de/bactnom/bactname.htm).
8
PRACE PRZEGL¥DOWE
108837425.016.png
Genomika – dziedzina wiedzy XXI wieku
Rys. 1. Skumulowana liczba kompletnie zsekwencjonowanych genomów z podzia³em na trzy króle-
stwa (wed³ug danych z bazy GOLD). Pionowymi liniami zaznaczono czas opublikowania sekwencji nie-
których organizmów istotnych z punktu widzenia: poznawczego, biotechnologicznego lub medycznego
Hi – Haemophilus influenzae KW20 (pierwszy zsekwencjonowany organizm komórkowy, patogen), S –
Synechocystis sp. PCC6803 (sinica), Mj – Methanococcus jannaschii DSM 2661 (archeon), Sc – Saccharomyces
cerevisiae S288C ( Eukaryota , dro¿dze, organizm modelowy, znaczenie biotechnologiczne), Ec – Escherichia
coli K12 (organizm modelowy, fakultatywny patogen), Bs – Bacillus subtilis 168 (organizm modelowy),
Mt – Mycobacterium tuberculosis H37Rv (patogen), Ce – Caenorhabditis elegans ( Eukaryota , nicieñ, orga-
nizm modelowy), Hp – Helicobacter pylori J99 (patogen), Cp – Chlamydophila pneumoniae CWL029 (pato-
gen), Dm – Drosophila melanogaster (muszka owocowa, organizm modelowy), Vc – Vibrio cholerae
N16961 (patogen), At – Arabidopsis thaliana (roœlina, rzodkiewnik pospolity organizm modelowy), Hs –
Homo sapiens ,Sa – Staphylococcus aureus N315 (MRSA) (patogen), St – Salmonella typhi CT18 (patogen),
Os – Oryza sativa japonica (ry¿, znaczenie gospodarcze), So – Streptomyces coelicolor A3(2) (wytwarzanie
antybiotyków), Pf – Plasmodium falciparum 3D7 (pierwotniak, zarodziec sierpowaty, patogen), Mm – Mus
musculus (ssak, mysz, organizm modelowy), Sf – Shigella flexneri 2a 2457T (patogen), Pm – Prochlorococcus
marinus CCMP1375 (SS120) (sinica, znaczenie ekologiczne), Ne – Nanoarchaeum equitans Kin4-M (przedsta-
wiciel nowej grupy Archaea ), Bm – Bombyx mori p50T (jedwabnik morwowy, znaczenie przemys³owe).
W wyk³adniczy sposób roœnie równie¿ wielkoœæ sekwencjonowanych chromoso-
mów i genomów (rys. 2). Zsekwencjonowane dotychczas chromosomy organizmów
prokariotycznych charakteryzuj¹ siê du¿ym zró¿nicowaniem wielkoœci: Archaea od
0,5 mln pz ( Nanoarchaeum equitans ) do 5,8 mln pz ( Methanosarcina acetivorans) , Bacteria
od 0,58 mln pz ( Mycoplasma genitalium ) do 9,1 mln pz ( Bradyrhizobium japonicum ).
BIOTECHNOLOGIA 3 (70) 7-21 2005
9
108837425.017.png 108837425.001.png 108837425.002.png 108837425.003.png 108837425.004.png
Pawe³ Mackiewicz, Jolanta Zakrzewska-Czerwiñska, Stanis³aw Cebrat
Rys. 2. Wzrost wielkoœci kolejno sekwencjonowanych chromosomów lub genomów. Oœ Y przedsta-
wiono w skali logarytmicznej.
Wœród Eukaryota najmniejszym kompletnie zsekwencjonowanym genomem jest ge-
nom paso¿ytniczego grzyba Encephalitozoon cuniculi o wielkoœci 2,5 mln pz, a najwiê-
kszym – genom cz³owieka o wielkoœci 3,1 mld pz. Najwiêkszym znanym genomem
eukariotycznym czekaj¹cym na zsekwencjonowanie jest genom ameby Amoeba dubia
o wielkoœci a¿ 670 mld pz.
Ogromnym przyœpieszeniem sekwencjonowania, obni¿enia kosztów i zwiêksze-
nia dok³adnoœci odczytów by³o wprowadzenie elektroforezy kapilarnej i znakowa-
nie nukleotydów fluorochromami, co pozwoli³o na zautomatyzowanie ca³ego proce-
su. Koszty sekwencjonowania w przeliczeniu na zasadê zmniejszaj¹ siê dwukrotnie
co 18 miesiêcy, co daje 10-krotny spadek kosztów co 5 lat (15). W 1995 r. sekwen-
cjonowanie kosztowa³o 100-300 centów amerykañskich za zasadê, a w 2000 r. ju¿
tylko 10-30 centów amerykañskich. Zak³adaj¹c, ¿e w roku 2020 koszty te bêd¹ wy-
nosiæ 0,001-0,003 centów amerykañskich za zasadê, a na sekwencjonowanie bêdzie
siê przeznaczaæ rocznie 1 miliard USD, to za 15 lat bêdzie siê uzyskiwaæ sekwencje
odpowiadaj¹ce prawie 17 tysi¹com genomów cz³owieka (5 × 10 13 par zasad na
rok). Sugeruje to, ¿e tempo przyrostu danych sekwencyjnych bêdzie jeszcze bar-
dziej rosn¹æ. Jest to wariant optymistyczny, poniewa¿ w koñcu i tak dojdzie siê do
granic mo¿liwoœci stosowanych technologii, wynikaj¹cych po prostu z ograniczeñ
praw przyrody.
10
PRACE PRZEGL¥DOWE
108837425.005.png 108837425.006.png 108837425.007.png 108837425.008.png 108837425.009.png
Genomika – dziedzina wiedzy XXI wieku
Rys. 3. Zale¿noœæ miêdzy kosztem sekwencjonowania a liczb¹ zasad w sekwencjach deponowanych
w bazie GenBank (www.ncbi.nlm.nih.gov/Entrez). Lini¹ przerywan¹ zaznaczono przewidywany wzrost
liczby zasad w przysz³oœci wed³ug (15). Obie osie Y przedstawiono w skali logarytmicznej.
Rola komputerów sprowadza siê nie tylko do sk³adania zsekwencjonowanych
fragmentów oraz gromadzenia danych w postaci skomputeryzowanej, ale równie¿
do analiz sekwencji, np. rozpoznawania sekwencji koduj¹cych, poszukiwania se-
kwencji podobnych, porównywania genomów, czy przewidywania struktur bia³ek.
Nieocenion¹ rolê odgrywa tak¿e internet, który umo¿liwia szybki dostêp do groma-
dzonych danych oraz ich przesy³anie miêdzy badaczami, centrami sekwencjo-
nuj¹cymi genomy oraz bazami danych. Widaæ wyraŸny zwi¹zek miêdzy liczb¹ gro-
madzonych sekwencji a rozwojem technologii komputerowych – mierzonych szyb-
koœci¹ procesorów lub pojemnoœci¹ twardych dysków, opisywanego najczêœciej pra-
wem Moore’a mówi¹cego, ¿e wydajnoœæ komputerów ulega podwojeniu co oko³o
18 miesiêcy (rys. 4). W podobnym tempie podwaja siê liczba danych w GenBank-u
(co 14 miesiêcy). Znaczna czêœæ analiz genomicznych jest przeprowadzana za po-
moc¹ ró¿norodnych metod obliczeniowych, zaawansowanych algorytmów i skom-
puteryzowanego sprzêtu, dlatego genomika jest œciœle powi¹zana z bioinformatyk¹
– równie¿ intensywnie rozwijaj¹c¹ siê dziedzin¹ interdyscyplinarn¹ ³¹cz¹c¹ biolo-
giê z naukami i technikami informatycznymi oraz obliczeniowymi.
BIOTECHNOLOGIA 3 (70) 7-21 2005
11
108837425.010.png 108837425.011.png 108837425.012.png 108837425.013.png
Zgłoś jeśli naruszono regulamin