Informacija

Poliploidinių organizmų genomų sekos nustatymas

Poliploidinių organizmų genomų sekos nustatymas


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Anksčiau esu atlikęs transkriptomikos darbą su poliploidiniu organizmu, ir tai sukėlė keletą unikalių duomenų apdorojimo ir analizės iššūkių. Nuo tada aš galvojau apie techninius iššūkius, su kuriais gali susidurti sekos nustatymo ir surinkimo metu poliploidinio organizmo genomai. Kiek man žinoma, nėra poliploidų, kurių genomai būtų sekvenuoti.

Jei norėtųsi sekvenuoti, pavyzdžiui, tetraploidinį organizmą, vienas būdas būtų paruošti ir sekvenuoti visą DNR, o tada pasikliauti po sekos nustatymo analize, kad būtų atskirti du kartu gyvenantys genomai. Tačiau taikant šį metodą būtų sunku, jei ne neįmanoma, atskirti genų variacijas nuo genomo viduje.

Alternatyvus būdas būtų išskirti DNR iš abiejų kartu gyvenančių genomų atskirai, o paskui sekti ir surinkti genomus atskirai, kad nereikėtų atsižvelgti į genomų variacijas ir homologiją. Tačiau aš mąstau labai aukštu lygiu ir turiu menką intuiciją dėl šio požiūrio techninio pagrįstumo. Kai yra du ar daugiau kartu gyvenančių genomų, ar įmanoma išskirti DNR tik iš vieno iš tų genomų? Kuo tai būtų pagrįsta (pavyzdžiui, ar padėtų išsamus citogenetinis / citogenominis apibūdinimas)? Jei šios užduoties atlikti neįmanoma, kokius apribojimus reikia įveikti, kad ji būtų įmanoma?


Pažvelkite į strategijas, naudojamas sekvenuoti kviečių genomą. Kviečiai yra heksaploidiniai. Projektas aprašytas http://www.wheatgenome.org/.

Ankstyvam kukurūzų genomo darbui mes panaudojome metilo filtravimą, kad sumažintume genomo sudėtingumą ir dydį - transpozonai yra filtruojami, o genai ir promotoriai išlieka. Genų sekos skiriasi nuo dviejų genomų, todėl sako teorija, ir jas galima atskirti. Žiūrėkite http://www.ncbi.nlm.nih.gov/pubmed/10545948.


Naujos kartos biologija: sekos nustatymo ir duomenų analizės metodai nemodiniams organizmams

Kadangi sekos nustatymo technologijos tampa labiau prieinamos, dabar realu pasiūlyti ištirti beveik bet kurio organizmo evoliucinę istoriją genomo mastu. Tačiau dirbant su nemodeliniais organizmais ne visada lengva pasirinkti geriausią metodą, atsižvelgiant į konkretų biologinį klausimą, ribotą biudžetą ir sudėtingą mėginių medžiagą. Be to, nors naujausi technologijų pažanga suteikia precedento neturinčias galimybes tirti nemodelių organizmus, jie taip pat reikalauja precedento neturinčio tyrėjo supratimo apie kiekvieno metodo prielaidas ir apribojimus.

Šioje apžvalgoje pateikiame dabartinių sekos nustatymo technologijų ir metodų, naudojamų tipiniuose didelio našumo duomenų analizės vamzdynuose, apžvalgą. Vėliau mes kontekstualizuojame didelio našumo DNR sekos nustatymo technologijas, pritaikydami jas ne modelių organizmų biologijoje. Pateikiame patarimų, kaip valdyti netradicinę mėginių medžiagą, lyginamuosius ir populiacijos genetinius metodus, kuriems nereikia visiškai surinktų genomų, ir patarimus, kaip elgtis su mažo gylio sekos nustatymo duomenimis.


Didžiausias pasaulyje sekos genomas yra tik pradžia

Šiandien buvo paskelbtas loblolly pušies genomas Genomo biologija - didžiausias iki šiol sekos. Šis dokumentas yra labai svarbus, nes autoriai iš tikrųjų patobulino procesą, kurį mokslininkai naudoja dideliems ir sudėtingiems genomams, tokiems kaip loblolly pušies, sekti. Kadangi pripažinkime, jie greičiausiai rekordo ilgai neišlaikys. Genomo sekos nustatymo technologijos sparčiai juda ir vyksta šimtai sekos nustatymo iniciatyvų.

Taigi, šiek tiek apibrėžiant terminus. Sekos nustatymas yra tada, kai sukuriate tikslų genomo A, C, G ir T DNR bazių kodą. Bet jūs galite įvertinti bazių skaičių genome nežinodami, kas jos yra, todėl turime daug informacijos apie įvairių genomų dydį, tiksliai nežinodami, kas juose yra. Kaip žinoti, kiek knygoje yra puslapių, neperskaičius, kokios raidės yra kiekviename puslapyje. Jie matuojami bazinėmis poromis, nes DNR yra dviguba spiralė, todėl bazės visada yra poromis.

Mūsų infografija, kurioje lyginami didžiausi ir mažiausi žinomi genomai. Kur mes stovime? Spustelėkite paveikslėlį, kad pamatytumėte iš arti.

Tiesiog surasti figūras, kurios sudarytų šią įdomiausių genomų infografiją, buvo iššūkis - ji nuolat keičiasi! Mes ieškojome „mažiausio“ genomo, nurodyto „Wikipedia“ lentelėje, kad sužinotume, jog jį pakeitė dar mažesnis genomas. Ir ginčijamas didžiausias bet kurio organizmo genomas - 640 000 000 000 mažos amebos bazinių porų Daugialypis dubiu yra ginčijamas, nes jo dydis buvo įvertintas prieš sukuriant šiuolaikines technologijas, todėl tai gali būti klaidinga! Taigi labiausiai tikėtinas kandidatas į didžiausią genomą iš tikrųjų yra Paryžiaus japonika.

Augalai dažnai turi didžiulius, sudėtingus genomus. Kartais taip yra todėl, kad jų genomai spontaniškai padvigubėja, todėl jų chromosomos yra ne 4 poros (o diploidinis organizmas), bet yra 4 ar daugiau grupių - jos vadinamos poliploidais ir paprastai turi milžiniškus genomus. Nuostabus dalykas, susijęs su loblolly pušimi, kuri šiuo metu yra didžiausia genų sekos dalis, 22,18 milijardo bazinių porų, yra ta, kad ji iš tikrųjų yra diploidas, todėl jos dydis ir sudėtingumas neturi nieko bendro su chromosomų padvigubėjimu. Genomo sekos nustatymas atskleidė, kad iš tikrųjų didžiąją jo dalį sudaro pasikartojantys sekos bitai.

Nors žmogaus genomas turėjo didžiulį poveikį medicininiam gydymui ir tyrimams bei buvo didžiulis žingsnis į priekį sekos nustatymo technologijoje, mano asmeninis mėgstamiausias iš visų šių dalykų yra žmogaus sukurtas bakterijų genomas, sukurtas J. Craig Venter institute 2010 m. Jis buvo pagrįstas Mycoplasma mycoides genomą ir yra meiliai žinomas kaip Mycoplasma mycoides JCVI-syn1.0. Skaičiuojama, kad šio sintetinio genomo sukūrimas kainavo 40 milijonų JAV dolerių ir užtruko 20 žmonių daugiau nei dešimtmetį. Tai buvo nuostabus principo įrodymas, kad galite susintetinti organizmo genomą ir priversti jį veikti gyvame kūne. Bent jau dėl bakterijų.

To etinis ir visuomeninis poveikis yra didžiulis, todėl tai buvo tikrai prieštaringas įvykis – institutas yra gerai žinomas! Jų dabartinis darbas apima nuostabius dalykus, tokius kaip žmogaus mikrobiomo projektas ir sintetinės bakterijos, skirtos anglies kiekiui spręsti. Taigi jie yra tik viena vieta, kuri peržengia tai, kas yra genome, į tai, ką mes galime su tuo padaryti.

Genomo sekos nustatymas yra nuostabus, nes jis atveria tiek daug naujų klausimų ir galimybių mokslui. Taigi, nors įrašai šioje infografijoje – nors ir tikslūs rašymo metu, bet tikrai bus pakeisti, galime būti tikri dėl vieno – genomas yra tik istorijos pradžia.


Įvadas į poliploidiją

Sujungus du ar daugiau genomų viename branduolyje, susidaro poliploidija, todėl kiekvienoje ląstelėje yra daugiau nei dvi poros homologinių chromosomų. Poliploidija atsiranda daugumoje angiospermų ir yra svarbi žemės ūkio kultūroms, nuo kurių žmonės priklauso. Svarbių žmonių maistui naudojamų poliploidinių augalų pavyzdžiai: Triticum aestivum (kvieciai), Arachis hypogaea (žemės riešutas), Avena sativa (avižos), Musa sp. (bananų), daug žemės ūkio Brassica rūšis, Solanum tuberosum (bulvė), Fragaria ananassa (braškių) ir Arabikos kava (kava). Autopoliploidija atsiranda dėl viso genomo dubliavimo, o alopoliploidui būdingos tarprūšinės arba tarpgenerinės hibridizacijos, o po to chromosomų padvigubėjimas (Doyle ir kt., 2008 Chen, 2010). Genomo dubliavimasis (autoploidija) gali būti genų, turinčių naujas funkcijas, šaltinis, lemiantis naujus fenotipus ir naujus prisitaikymo mechanizmus (Crow ir Wagner, 2005). Autopoliploidai paprastai kenčia nuo sumažėjusio vaisingumo, o alopoliploidai gali sukelti heterozę arba hibridinį gyvybingumą (Ramsey ir Schemske, 1998). Poliploidija sukuria didelę genetinę, genominę ir fenotipinę naujovę (Soltis ir kt., 2016), tačiau dėl didesnio genotipo ir fenotipo sudėtingumo poliploiduose, palyginti su diploidiniais augalais, genotipo susiejimas su fenotipu yra sudėtinga užduotis. Pavyzdžiui, alopoliploidinės augalų ląstelės turi sudėtingus reguliavimo mechanizmus, siekiant suvienyti genų ekspresiją tarp homeologų ir apibrėžti jų santykinį indėlį į galutinį fenotipą. Taigi poliploidizacija yra viena iš pagrindinių augalų evoliucijos jėgų ir yra glaudžiai susijusi su specifika ir įvairove (Bento ir kt., 2011). Apskaičiuota, kad apie 80 % visų gyvų augalų yra poliploidai (Meyers ir Levin, 2006), o daugelis augalų linijų, įskaitant vienakilčius (t. Oryza) ir eudikotai (Arabidopsis) savo istorijoje turi bent vieną paleopoliploidijos įvykį.


1. ĮVADAS

Žmogaus individo genomo seka gali būti modeliuojama kaip 23 poros keturių A, C, G ir T nukleotidų bazių sekų, atstovaujančių 22 poroms autosomų ir lytinių chromosomų. Tačiau .5 99, 5% bet kurių dviejų asmenų genomo sekų yra bendros populiacijoje. Apytiksliai 0,5 % nukleotidų bazių populiacijoje svyruoja nuo vieno nukleotido polimorfizmų (SNP) iki sudėtingesnių struktūrinių pokyčių, pavyzdžiui, genominės medžiagos ištrynimų ar intarpų. Genominių variantų seka, paprastai SNP, iš kurių pašalinta nekintanti DNR, vadinama haplotipas.

Standartinės genomo sekos nustatymo darbo eigos sukuria gretimus nežinomos chromosominės kilmės DNR segmentus. De novo genomų rinkiniai su dviem chromosomų rinkiniais (diploidinis) arba daugiau (poliploidinis) sukuria konsensuso sekas, kuriose santykinė haplotipo fazė tarp variantų yra nenustatyta. Sekos nuskaitymų rinkinį galima susieti su fazės dviprasmišku etaloniniu genomu ir nustatyti diploidinės chromosomos kilmę, tačiau, nežinant apie haplotipo sekas, skaitymų negalima susieti su konkrečia haploidine chromosomų seka. Dėl to nuorodomis pagrįsti genomo surinkimo algoritmai taip pat sukuria nefasuotus mazgus. Tačiau sekų skaitymai yra gauti iš vieno haploidinio fragmento ir taip suteikia vertingos fazės informacijos, kai juose yra du ar daugiau variantų. The haplotipo surinkimo problema siekiama apskaičiuoti kiekvienos chromosomos haplotipo sekas, atsižvelgiant į suderintų sekų rinkinį, nuskaitant genomą ir informaciją apie variantą. Variantų haplotipo fazė daroma išvada surenkant persidengiančias sekas [ Browning ir Browning (2011) Halldórsson ir kt. (2003) Schwartz (2010)].

Haplotipo surinkimo problemos įvestis yra matrica M kurių eilutės atitinka sulygiuotus skaitymo fragmentus, o stulpeliai - SNP (1 pav.). Kokybė MKonstrukcija priklauso nuo sekos nustatymo darbo eigos parametrų ir skaitymo derinimo algoritmų tikslumo. Neteisingai suderinti skaitymo fragmentai gali sukelti klaidingus bazinius iškvietimus arba atrankos šališkumą, todėl aukštos kokybės haplotipų mazgams reikia kruopščiai suderinti sekų skaitymus. Be skaitymo išlygiavimo ar sekos klaidų, haplotipo surinkimo problema gali būti išspręsta laike tiesiniu dydžiu M padalijus fragmentus į du rinkinius, todėl jokie fragmentai, esantys rinkinyje, neturi SNP ir nesiskiria vadinamu aleliu. Siekiant pašalinti klaidingus bazinius iškvietimus ar netinkamą derinimą, buvo sukurti trys pagrindiniai haplotipo surinkimo optimizavimai: minimalus klaidų taisymas (MEC), minimalus SNP pašalinimas (MSR) ir minimalus fragmentų pašalinimas (MFR). Tikslas yra konvertuoti M į tokią būseną, kad fragmentai (eilutės M) gali būti suskirstyti į du rinkinius, atitinkančius du haplotipus. Visi rinkinio fragmentai turi susitarti dėl alelio kiekvienoje SNP vietoje ir tai atliekama naudojant minimalų SNP alelių apverstų skaičių (nuo 0 iki 1 arba atvirkščiai - MEC), SNP (M stulpeliai) pašalinimus (MSR) arba fragmentą ( M) pašalinimų (MFR) eilutės.

Įvesties į haplotipo surinkimo problemą konstravimas

Haplotipo surinkimo problemos įvesties konstravimas

Lancia ir kt. (2001) ir Rizzi ir kt. (2002) pateikia teorinį pagrindą MFR ir MSR optimizavimui ir apibūdina pagrindines SNP ir fragmentų konfliktų grafikų struktūras. Pirmasis plačiai prieinamas haplotipo surinkimo programinės įrangos paketas buvo pristatytas Panconesi ir Sozio (2004), kuriame autoriai aprašo Fast Hare algoritmą, kuris optimizuoja „Min Element Removal“ problemą. Bansal ir kt. (2008) aprašo Markovo grandinės modelį su „Metropolis“ atnaujinimo taisyklėmis, kad būtų galima atrinkti galimų haplotipų rinkinį pagal MEC optimizavimą. Tolesniuose darbuose autoriai pateikia daug greitesnį algoritmą pagal susijusį grafiko modelį, susietą su maksimaliais pjūviais su SNP alelių apvertimais (MEC modelyje) [Bansal ir Bafna (2008)]. Dar kiti autoriai pasiūlė sumažinti gerai žinomą maksimalaus patenkinamumo problemą [He ir kt. (2010) Mousavi ir kt. (2011)] Mokestis ir kt. (2007) algoritmas yra gerai žinoma euristika, kuri buvo naudojama HuRef genomo haplotipui surinkti. Jis godžiai priskiria fragmentus haplotipams ir iteratyviai patikslina sprendimą, palygindamas fragmentų rinkinį su surinktais haplotipais, naudodamas daugumos taisyklės fazes. Neseniai atliktoje apklausoje Geraci (2010) aprašo Levy ir kt. (2007) algoritmas, be abejonės, yra geriausiai veikiantis išbandytas algoritmas.

Pirmasis haplotipo surinkimo problemos išplėtimas, kuris buvo skirtas tuo pačiu metu surinkti kelias diploidines chromosomas, buvo pateiktas Li ir kt. (2006), tačiau kelių haplotipų surinkimo pranašumai nėra aiškūs nesusijusių asmenų grupei. Halldorssonas ir kt. (2011) toliau tobulino šią teoriją, aprašydami metodus, kaip surinkti asmenis, turinčius identišką haplotipą pagal kilmę (IBD), naudojant ryšius tarp skaitymų.

Aguiar ir Istrail (2012) pristatė naują grafiko duomenų struktūrą, algoritminę sistemą ir minimalaus svertinio krašto pašalinimo (MWER) optimizavimą, kurie kartu turi keletą pranašumų, palyginti su esamais metodais. Prisiminkite, kad eilutės M atitinka sekos skaitymo fragmentus, pašalinus nepolimorfines bazes, kad liktų tik SNP. Aguiar ir Istrail (2012) apibrėžtą „HapCompass“ modelį sudaro kompaso grafikas GC pagrindinė duomenų struktūra, kuri apibendrina eilutes M naudojant briaunų svorius ir MWER optimizavimą, kuriuo siekiama pašalinti minimalų svertinį briaunų rinkinį GC taip, kad būtų galima sukurti unikalų etapą. Algoritmas veikia aprėpiamojo medžio ciklo pagrindu GC pakartotinai pašalinti klaidas, kurios pasireiškia per tam tikro tipo paprastą ciklą [ Deo ir kt. (1982) Mac Lane (1937)].

Šiame darbe mes įrodome keletą teorinių rezultatų, susijusių su anksčiau aprašytu MWER optimizavimu kompaso grafikuose. Pagrindinis rezultatas įrodo, kad MWER yra sunkus ir motyvuoja naudoti mūsų euristinius algoritmus. Be to, mes parodome, kaip bendrojo diploidinio „HapCompass“ modelio plėtiniai gali leisti (i) naudoti įvairius optimizavimus, pvz., MEC ir MWER, naudoti vietinio optimizavimo etape, (ii) vienu metu surinkti du asmenis, turinčius haplotipo taką. IBD ir (iii) vieno poliploidinio organizmo haplotipo surinkimas. Galiausiai, mes įvertiname savo metodus pagal 1000 genomų projektą, „Pacific Biosciences“ ir imituotus duomenis.


3 BIOLOGINIAI IŠŠŪKIAI

Gretimos chromosomos lygio genomo surinkimo sukūrimas yra idealus genomo surinkimui. Vienas iš pagrindinių iššūkių gretimo chromosomų lygio genomo surinkimui yra pasikartojantys genomų regionai (Tørresen ir kt., 2019). Pasikartojantys regionai apima išplėstas genų šeimas, sudėtingus pasikartojimus, labai pasikartojančius regionus, tokius kaip centromerai ir telomerai, ir lyties chromosomas arba bent jų dalis. Dauguma didelių genomų (iš bet kurio klado) yra labai pasikartojantys, o sudėtingi pasikartojimai vis dar yra žmogaus genomo problema, nepaisant didelių šiam surinkimui skirtų išteklių (Chaisson ir kt., 2015). Heterozigotiškumas tarp diploidinių ir poliploidinių organizmų haplotipų yra dar vienas pagrindinis klaidų šaltinis genomo mazguose.

3.1 Pasikartojantys regionai

Tobulėjant technologijoms ir ilgėjant skaitymo trukmei, pagerėja galimybė pasikartoti pasikartojančiuose regionuose. Norint įveikti pasikartojančių regionų sekos nustatymo iššūkį, skaitymai turi būti pakankamai ilgi, kad būtų užfiksuoti nesikartojančioje sekoje ir apimtų kartojimą (-ius). Jei skaitymo ilgis (iš esmės) ilgesnis nei kartojimo sritis, pakartojimai gali būti aprėpti ir turėtų būti įmanoma surinkti sritį (pavyzdžiui, žr. Bongartz, 2019). Trūkstami pasikartojantys regionai reiškia, kad genome taip pat gali trūkti genų (Peona ir kt., 2018). Centromerai ir telomerai kelia unikalius iššūkius, tačiau yra svarbūs genomo biologijai (pvz., Bichet ir kt., 2020) daugelyje organizmų centromeros ir telomerai yra ilgi, o telomerai negali būti įtvirtinti nesikartojančia seka iš abiejų pusių, atsižvelgiant į jų vietą chromosomose. Kita iššūkį kelianti chromosomų klasė yra lytinės chromosomos. Kai kurios lytinės chromosomos išsigimsta daugelyje rūšių, o seka labai pasikartoja ir liko trumpa pseudoautosominė sritis (Kejnovsky ir kt., 2009 Smith ir kt., 1987). Evoliuciškai jaunos lytinės chromosomos turi tą pačią tendenciją (Bachtrog ir kt., 2019), o tai rodo, kad lytinių chromosomų surinkimas gali būti iššūkis daugeliui organizmų. Sėkmingai surinkus mažiau nei 26 milijonų metų senumo ir tarpinės degeneracijos stadijos trijų dygliuočių Y chromosomą, buvo nustatyta ilgai skaitoma seka, kruopštus X ir Y susietų kontigų kuravimas ir padalijimas, o po to Hi- C pastoliai (Peichel ir kt., 2020). Tinkamas išsigimusių lytinių chromosomų surinkimas bus geriausiai pasiekiamas ir galiausiai reikės ilgai skaitomos technologijos, apimančios visą chromosomos ilgį.

3.2 Ploidiškumas

Kalbant apie ploidiškumą, lengviausia surinkti haploidinius genomus. Darant prielaidą, kad skaitymo apimtis kartojasi, genomo surinkimui pasirinktam asmeniui yra viena gretima seka be heterozigotiškumo. Didelė problema, susijusi su diploidais ir poliploidais, yra ta, kad yra heterozigotiškumas tarp dviejų ar daugiau vieno individo genomo kopijų. Kai kuriuose genomo mazguose prieš sekvenavimą buvo bandoma sumažinti heterozigotiškumą, pavyzdžiui, sukrėtus (Zhang, Li ir kt., 2020) arba sukuriant dvigubus haploidinius individus (Berthelot ir kt., 2014 Linsmith ir kt., 2019). Tačiau daugumai natūralioje aplinkoje esančių rūšių išauginti ar sukurti padvigubėjusių haploidų iš esmės neįmanoma. Įprastas būdas, kuriuo genomo surinkimo informacija saugoma vienoje grandinėje, reiškia, kad haplotipai sutraukiami į vieną seką. Didesnis heterozigotiškumo lygis tarp dviejų homologinių chromosomų (diploidų atveju) padidina šį iššūkį, galiausiai nesugebėdamas sutraukti dviejų haplotipų, pervertinti genomo dydį ir pervertinti sudėtingumą. Poliploidiniuose taksonuose su heterozigotiškumu susijusių surinkimo problemų mastas ir sudėtingumas dar labiau padidėja (Kyriakidou ir kt., 2018). Kitas būdas išspręsti haplotipus yra trio sujungimas. Trio atskyrimas atliekamas suskirstant organizmo tėvų seką trumpais skaitymais, o po to atitinkamam asmeniui priskiriant ilgus skaitymus konkrečiam tėvui (Koren ir kt., 2018 Yen ir kt., 2020). Trio binning yra daug žadantis būdas išspręsti haplotipus, ypač tarprūšiniuose F1 hibriduose, tačiau jį riboja prieiga prie tėvų ir palikuonių, o tai neįmanoma daugeliui rūšių. Alternatyva, pagrįsta panašiais principais, yra lytinių ląstelių susiejimas, kai gametų sekos nustatomos viena ląstelėmis, kad būtų galima informuoti apie skaitymų padalijimą į atskirus haplotipų rinkinius vėlesniam surinkimui (Campoy ir kt., 2020).

3.3 Pan ir pagrindiniai genomai

Genomo rinkiniai dažnai apsiriboja vienu individu iš rūšies. Be to, genomo rinkiniai iš „glaudžiai“ susijusių rūšių (kurių linijų skirtumai gali siekti kelis milijonus metų) dažnai naudojami kartografuojant ir kaip de novo etaloninio genomo rinkinio iš tikslinės rūšies atstovai. Tačiau rūšies individai dažnai labai skiriasi (Audano ir kt., 2019). Sukurti kelis de novo agregatus rūšiai, pavyzdžiui, po vieną kiekvienai populiacijai, giminei ar būklei, būtų geriau užfiksuota rūšies genetinė variacija, tačiau naujo etaloninio genomo sukūrimas keliems asmenims dažnai kainuoja per daug, o galbūt ir skaičiavimu. Pagrindinis kelių rinkinių pranašumas yra atskirti rūšies genomus ir pagrindinius genomus (2a pav.). Bendras genomas atspindi visas sekas tarp visų rūšies DNR sekų, tuo tarpu pagrindinis genomas yra DNR, dalijama tarp visų sekų. Pavyzdžiui, aštuonių chromosomų lygio mazgų palyginimas Arabidopsis thaliana prisijungimai atskleidė pagrindinį genomą, kurį dalijasi visi prisijungę asmenys

24 000 genų, tuo tarpu pan-genomas buvo

135 Mb ilgio ir įtrauktas

30 000 genų (Jiao & Schneeberger, 2020), išryškinantis daugybę sekų duomenų, įskaitant genus, kurių praleidžia vienas etaloninis genomo rinkinys. Sojos pupelių keptuvės genome iš 26 prisijungimų bent kartą prisijungus trūko mažiausiai 48 249 genų, o tai prilygsta maždaug 20% ​​genų, esančių vienoje sąrankoje, klasifikuojamų kaip nereikalingi arba privatūs (Liu ir kt., 2020). Pan-genomai šiuo metu yra prieinami tik modelinėms augalų rūšims, žmonėms ir kai kurioms bakterijų rūšims (Bayer ir kt., 2020 Sherman & Salzberg, 2020). Didelis genomo įvairovės ir specifinių genominių regionų praradimas pasėlių rūšyse po prijaukinimo ir dirbtinio atrankos iš laukinių palikuonių buvo vienas iš pagrindinių viso genomo kūrimo variklių, tačiau tikėtina, kad šie metodai bus vis labiau pritaikomi molekulinės ekologijos sąlygomis, ypač kai nenormalus pan-genomo komponentas yra didelis. Neseniai atliktas Viduržemio jūros moliuskų tyrimas parodė, kad daugiau nei 30% genų buvo keičiami buvimo/nebuvimo variantai, kai buvo įvertinti dviejų populiacijų individai (Gerdol ir kt., 2020). Viso genomo generavimą greičiausiai ribos išlaidos ir prieiga prie įvairių rūšies egzempliorių (ty mėginių ėmimas visame diapazone). Padidėjus genų skaičiui, taip pat mažėja grąža, kai tam tikru momentu, priklausomai nuo įvairovės, nauji genomai prideda tik minimalios naujos informacijos (žr. 2b pav.). Kita visos genomų plėtros sritis yra genomo surinkimo informacijos saugojimas netiesiniame genomo grafike (Eizenga ir kt., 2020).

3.4 Dėl ribotos įvesties medžiagos (kokybės ir kiekio) kai kurios rūšys gali būti pašalintos iš ilgai skaitomos sekos

Didelės molekulinės masės (HMW) DNR yra būtinas ilgai skaitomų ir susietų skaitymų sekos nustatymo technologijoms ir daugeliui pastolių, o Hi-C optimaliai reikalauja nepažeistų ląstelių chromosomoms atkurti. Skaitymų trukmę dažnai galiausiai lemia DNR, gautos ištraukus, ilgis (Li & Harkess, 2018). Todėl HMW DNR yra pagrindinis apribojimas kuriant de novo genomo rinkinius rūšims, turinčioms ribotą pradinę medžiagą, ypač kokybės atžvilgiu. Buvo sukurti keli genomo sekos nustatymo metodai, naudojant nedidelius įvesties kiekius (pvz., „PacBio Low“ DNR įvestis), o labai gretimi genomai buvo gauti sekant vieną mažą individą (Kingan ir kt., 2019). Tačiau metodai, optimizuoti mažiems įvesties DNR kiekiams, vis dar priklauso nuo HMW DNR, o tai gali būti neįmanoma nedideliam organizmų pogrupiui. Pavyzdžiui, nykstančios rūšys gali apsiriboti neinvaziniu arba minimaliai invaziniu mėginių ėmimu (pvz., išmatų, odos ar plaukų mėginiais, kurių šeimininko DNR kokybė ir kiekis gali būti žemas) arba esamais muziejiniais egzemplioriais, kurie tikriausiai nebuvo išsaugoti atsižvelgiant į DNR seką. (Carroll ir kt., 2018). Nors tokiais atvejais gali būti neįmanoma naudoti ilgo skaitymo sekos, net surinkimas, pagrįstas trumpai nuskaitytais duomenimis, gali aprėpti pagrįstą kodavimo sekų dalį (Colella ir kt., 2020).


NCBI „CSHL Biology of Genomes“, 2021 m. Gegužės 11 d. Ir#8211 14 d

NCBI darbuotojai pristatys virtualius plakatus 2021 m. gegužės 11–14 d. Cold Spring Harbor laboratorijos genomų biologijos susitikime. Plakatuose bus aptariamos šios temos: 1) debesims paruoštas įrankių rinkinys (PGAP, RAPT ir SKESA) prokariotų genomų surinkimui ir anotavimui, 2) duomenų rinkiniai — naujas paslaugų rinkinys, skirtas genomo sąrankoms ir anotacijoms atsisiųsti, ir 3) NCBI RefSeq eukariotų genomo anotacijos atnaujinimai ir genomo duomenų peržiūros priemonė (GDV). Norėdami gauti visas santraukas, skaitykite toliau.

Atsidaro virtuali plakatų galerija Gegužės 11 d., Antradienį, 9.00 val. skiriant laiko plakatų peržiūrai ir diskusijai 1:00 - 2:00 val. per Slack kiekvieną dieną. Plakatų galerija bus atidaryta visą konferenciją ir po šešių savaičių.

NCBI įrankių rinkinys prokariotiniams genomams: kaip RAPT, SKESA ir PGAP gali pagreitinti jūsų tyrimus

Thibaud-Nissen F, Agarwala R, Arndt D, Hlavina W, Li W, Lu S, Meric P, Souvorov A, Sweeney D, Wagner L, Yang, M

NCBI sukūrė viešai prieinamų priemonių rinkinį, skirtą surinkti, komentuoti ir patikrinti bakterijų ir archeologinių genomų rūšies priskyrimą. RAPT sujungia SKESA, efektyvų „de Bruijn“ grafikų surinkėją, skirtą trumpiems „Illumina“ skaitymams, ir PGAP, vamzdyną, naudojamą „RefSeq“ prokariotinių genomų anotacijoms. Naujausi darbo eigos pakeitimai sumažino PGAP ir RAPT vykdymo laiką perpus, todėl vartotojas dabar gali surinkti genomą iš sekos nuskaitymo ir per vieną minutę iki kelių valandų komentuoti gauto agregato genų struktūrą ir funkcijas.

„Docker“ vaizdai, skirti PGAP ir RAPT, yra prieinami „dockerhub“ ir gali būti paleisti vietiniame kompiuteryje, privačiame klasteryje arba debesų aplinkoje, naudojant intuityvias komandinės eilutės sąsajas. Vaizduose yra PGAP CWL darbo eiga, visi reikalingi dvejetainiai failai (įskaitant SKESA RAPT atveju) ir cwltool, CWL nuorodos įgyvendinimas. Visi reikalingi informaciniai duomenys, įskaitant įvairius rankiniu būdu kuruojamus įrodymus, yra sujungiami ir platinami naudojant PGAP ir RAPT.

Taip pat yra specialus RAPT diegimas, skirtas „Google Cloud Platform“ naudotojams, naudojantiems „Google Life Sciences“ API. Naudodama vieną komandą iš „Google Cloud Shell“, „GCP RAPT“ apsaugo virtualią mašiną, atsisiunčia „Docker“ vaizdą ir reikalingus duomenis, surenka, patikrina taksonominę priskyrimą, pažymi genomą, patalpina išvestį į norimą talpyklą ir išjungia virtualią mašiną.

Galiausiai pristatysime bandomąją RAPT žiniatinklio paslaugą, kurios tikslas - padėti biologams, neturintiems techninių įgūdžių ar galimybės naudotis skaičiavimo ištekliais, atsakyti į jų mokslinius klausimus ir suprasti jų poreikius dėl prokariotinių genomikos priemonių ir duomenų.

NCBI duomenų rinkiniai: gaukite norimus su genomu susijusius duomenis taip, kaip norite

VA Schneider, E Cox, PA Meric, JB Holmes ir NA O'Leary

Tyrėjams, atliekantiems genomines analizes, NCBI yra pripažinta viena iš žymiausių viešųjų archyvinių kolekcijų, iš kurių galima laisvai gauti gyvybės medyje esančių organizmų sekas, rinkinius, anotacijas ir metaduomenis. Didėjant duomenų apimčiai ir sudėtingumui, tampa vis svarbiau numatyti prieigos mechanizmus, kurie leistų tyrėjams efektyviai ir efektyviai rasti jiems reikalingus duomenis. Be to, mokslininkams reikalinga infrastruktūra ir duomenys, kurie atitinka FAIR principus (randami, prieinami, sąveikaujantys, daugkartinio naudojimo), kad užtikrintų duomenų naudojimą ir jų analizės kokybę. „NCBI Datasets“ yra naujas šaltinis, orientuotas į šiuos poreikius, sukurtas specialiai tam, kad mokslininkai galėtų lengvai gauti norimus duomenis, kad jie galėtų juos naudoti. Parodysime, kaip „Datasets“ siūlo žiniatinklio, komandų eilutės ir API prieigą prie genomo ir su genu susijusių sekų turinio ir metaduomenų iš visų taksonominio medžio šakų. Apžvelgsime genomo duomenų rinkinių struktūrą, apimančią genomą, nuorašą ir baltymų seką, anotaciją ir JSON eilučių formato duomenų ataskaitą apie genomo metaduomenis. Taip pat pristatysime duomenų formatą įrankis, skirtas JSON eilutėms paversti lentelės ataskaita. Pateiksime apie kitus NCBI duomenų rinkinius, kurie taip pat yra prieinami, įskaitant genus ir ortologinius duomenis, ir tiems, kurie studijuoja SARS-CoV-2, paketą, į kurį įeina genomo, baltymų ir CDS sekos, anotacija ir išsami visų duomenų ataskaita SARS-CoV-2 genomai. Galiausiai pristatysime duomenų rinkinių python ir R bibliotekas, leidžiančias tyrėjams pasiekti API, palengvinančius jų naudojimą analizės darbo eigoje, ir papildomus Jupyter ir R bloknotus, kurie padeda mokslininkams pradėti naudotis šiais įrankiais. Kaip išteklius aktyviai kuriamas, dalinsimės naujausiais patobulinimais ir funkcijomis.

Genomų anotavimas NCBI RefSeq 3-osios kartos sekos eroje

Terence'as D Murphy, Françoise Thibaud-Nissen

Per pastarąjį dešimtmetį sekvenavimo technologijos pažanga paskatino daugialąsčių eukariotų genomo rinkinių gausybę. Daugelis rūšių turi naujus aukštos kokybės agregatus, pagrįstus PacBio, Oxford Nanopore (ONT) ar kitomis technologijomis, kartu su gausiais RNA-seq duomenų rinkiniais, kuriuos sukūrė daugybė tyrinėtojų iš viso pasaulio. Siekiant maksimaliai padidinti šių genomų naudą mokslinių tyrimų bendruomenei, NCBI Reference Sequence (RefSeq) projektas pateikia genomo anotacijas daugiau nei 700 rūšių, apimančių daugiau nei 350 stuburinių, 200 bestuburių ir 100 augalų. NCBI automatinis anotacijų srautas suteikia greitas ir aukštos kokybės genų anotacijas daugelyje taksonų, nuosekliai apdorojant, o tai naudinga lyginamiesiems genomo tyrimams. Anotacijų rinkiniai paprastai viršija 97% išsamumo, matuojant pagal BUSCOv4, pranokdami daugumą kitų duomenų rinkinių. Anotacijas galima rasti NCBI genų šaltiniuose, BLAST duomenų bazėse ir genomo duomenų peržiūros priemonėje (GDV). Genai ir GDV taip pat suteikia prieigą prie kitos genominės informacijos, įskaitant ortologus, RNR-seq ekspresijos duomenis ir viso genomo derinimą prie ankstesnių skirtingų padermių surinkimo versijų ar mazgų. Šiame pristatyme bus nagrinėjamos pamokos, kurias išmokome anotuojant įvairią genomų kolekciją, įskaitant RNR-seq poveikį ir surinkimo kokybę, parodyta aukšta anotuotų genų rinkinių kokybė ir pateikiama NCBI išteklių apžvalga. Eukariotinio genomo anotacija ir „Genomo duomenų peržiūros“ puslapiai suteikia daugiau informacijos.


Nuorodos

Otto S P. Poliploidijos evoliucinės pasekmės. Cell, 2007, 131: 452–462

Ohno S. Evoliucija genų dubliavimo būdu. Niujorkas: Springer-Verlag, 1970 m

Olandija P W H, Garcia-Fernàndez J, Williams N A, ir kt. Genų dubliavimasis ir stuburinių gyvūnų vystymosi ištakos. Plėtra (priedas), 1994, 125–133

Meyer A, Van de Peer Y. Nuo 2R iki 3R: žuvims būdingo genomo dubliavimosi (FSGD) įrodymai. Bioessays, 2005, 27: 937–945

Dehal P, Boore J L. Du viso genomo dubliavimo etapai protėvių stuburiniame gyvūne. PLoS Biol, 2005, 3: 1700–1708

Blomme T, Vandepoele K, De Bodt S, ir kt. Genų padidėjimas ir praradimas per 600 milijonų stuburinių evoliucijos metų. Genome Biol, 2006, 7: R43

Amores A, Force A, Yan Y L, ir kt. Zebrafish hox clusters and vertebrate genome evolution. Science, 1998, 282: 1711–1714

Taylor J S, Van de Peer Y, Braasch I, ir kt. Comparative genomics provides evidence for an ancient genome duplication event in fish. Philos Trans R Soc, 2001a, 356: 1661–1679

Volff J N. Genome evolution and biodiversity in teleost fish. Heredity, 2005, 94: 280–294

Soltis D E, Soltis P S, Tate J A. Advances in the study of polyploidy since plant speciation. New Phytol, 2003, 161: 173–191

Comai L. The advantages and disadvantages of being polyploid. Nat Rev Genet, 2005, 6: 836–845

Kassahn K S, Dang V T, Wilkins S J, ir kt. Evolution of gene function and regulatory control after whole-genome duplication: comparative analyses in vertebrates. Genome Res, 2009, 19: 1404–1418

Soltis D E, Soltis P S. Molecular data and the dynamic nature of polyploidy. Crit Rev Plant Sci, 1993, 12: 243–273

Grant V. Plant Speciation, 2nd ed. New York: Columbia University Press, 1981

Ahuja M R, Neale D B. Evolution of genome size in conifers. Silvae Genet, 2005, 54: 126–137

Hair J B. The chromosomes of the Cupressaceae. I. Tetraclineae and Actinostrobeae (Callitroideae). New Zeal J Bot, 1968, 6: 277–284

Gates R R. The stature and chromosomes of Oenothera gigas De Vries. Arch F Zellforsch, 1909, 3: 525–552

Goldblatt P. Polyploidy in Angiosperms: Monocotyledons. In: Lewis W H, ed. Polyploidy: Biological Relevance. New York: Plenum Press, 1980. 219–239

Lewis W H. Polyploidy in Angiosperms: Dicotyledons. In: Lewis W H, ed. Polyploidy: Biological Relevance. New York: Plenum Press, 1980. 241–268

Masterson J. Stomatal size in fossil plants: evidence for polyploidy in majority of angiosperms. Science, 1994, 264: 421–423

Bowers J E, Chapman B A, Rong J K, ir kt. Unravelling angiosperm genome evolution by phylogenetic analysis of chromosomal duplication events. Nature, 2003, 422: 433–438

Soltis D E, Albert V A, Leebens-Mack J, ir kt. Polyploidy and angiosperm diversification. Am J Bot, 2009, 96: 336–348

Veron A S, Kaufmann K, Bornberg-Bauer E. Evidence of interaction network evolution by whole-genome duplications: a case study in MADS-box proteins. Mol Biol Evol, 2007, 24: 670–678

Albert V A, Soltis D E, Carlson J E, ir kt. Floral gene resources from basal angiosperms for comparative genomics research. BMC Plant Biol, 2005, 5: 5–16

Cui L, Wall P K, Leebens-Mack J, ir kt. Widespread genome duplications throughout the history of flowering plants. Genome Res, 2006, 16: 738–749

Zhang F W, Wang Y R. Progress of polyploidy breeding technology applied in medical plants scale (in Chinese). Guiding J TCM, 2006, 12: 83–85

Paterson A H, Bowers J, Burow M, ir kt. Comparative genomics of plant chromosomes. Plant Cell, 2000, 12: 1523–1539

Severin A J, Cannon S B, Graham M M, ir kt. Changes in twelve homoeologous genomic regions in soybean following three rounds of polyploidy. Plant Cell, 2011, 23: 3129–3136

Jaillon O, Aury J M, Noel B, ir kt. The grapevine genome sequence suggests ancestral hexaploidization in major angiosperm phyla. Nature, 2007, 449: 463–467

Ming R, Hou S, Feng Y, ir kt. The draft genome of the transgenic tropical fruit tree papaya (Carica papaja Linnaeus). Nature, 2008, 452: 991–996

Otto S P, Whitton J. Polyploid incidence and evolution. Annu Rev Genet, 2000, 34: 401–437

Liu Z D. Yichuanxue (in Chinese). Beijing: Higher Education Press, 1991

Yang Y G, Zhuang Y, Chen L Z, ir kt. Vegetable polyploid and polyploidy breeding (in Chinese). Acta Agricult Univ Jiangxi, 2006, 28: 534–538

Hilu K W. Polyploidy and the evolution of domesticated plants. Am J Bot, 1993, 80: 1494–1499

Fedorov A. Chromosome Numbers of Flowering Plants. Leningrad: Acad Sci USSR Komarov Botanical Institute, 1969

Dai S L, Wang W K, Huang J P. Advances of researches on phylogeny of Dendranthema and origin of chrysanthemum (in Chinese). J Beijing Forest Univ, 2002, 24: 230–234

Jin X X, Zhang Q X. Advances in the studies of breeding Primula (in Chinese). Chin Bull Bot, 2005, 22: 738–745

Gregory T R, Mable B K. Polyploidy in Animals. In: Gregory T R, ed. The Evolution of the Genome. San Diego: Elsevier, 2005. 427–517

Wu M. Genetics and evolution of animal polyploid (in Chinese). Chin J Zool, 1988, 23: 48–51

Chen D W, Daoye M Y. Chromosomes and systematic classification of molluscs. Chin J Zool, 1988, 23: 48–51

Ye M W. The polyploidy phenomenon and formation in animals and plants (in Chinese). Bull Biol, 1998, 33: 21–23

Li S W. Polyploid insects (in Chinese). Entomol Knowledge, 2002, 39: 147–151

Naruse K, Tanaka M, Mita K, ir kt. A medaka gene map: the trace of ancestral vertebrate proto-chromosomes revealed by comparative gene mapping. Genome Res, 2004, 14: 820–828

Woods I G, Wilson C, Friedlander B, ir kt. The zebrafish gene map defines ancestral vertebrate chromosomes. Genome Res, 2005, 15: 1307–1314

Gui J F, Zhou L. Genetic basis and breeding application of clonal diversity and dual reproduction modes in polyploid Carassius auratus gibelio. Sci China Life Sci, 2010, 53: 409–415

Zhou L, Gui J F. Karyotypic diversity in polyploid gibel carp, Carassius auratus gibelio bloch. Genetica, 2002, 115: 223–232

Xiao J, Zou T M, Chen Y B, ir kt. Coexistence of diploid, triploid and tetraploid crucian carp (Carassius auratus) in natural waters. BMC Genet, 2011, 12: 20

Luo J R. Polyploid fishes and fish polyploidy breeding (in Chinese). Pearl River Fisheries, 1991, 17: 69–74

Lampert K P, Schartl M. The origin and evolution of a unisexual hybrid: Poecilia formosa. Philos Trans R Soc Lond B Biol Sci, 2008, 363: 2901–2909

Zan R G. The polyploids in fish and their roles in fish evolution (in Chinese). J Yunnan Univ, 1985, 7: 235–243

Abbas K, Li M Y, Wang W M, ir kt. First record of the natural occurrence of hexaploids loach Misgurnus anguillicaudatus in Hubei Province, China. J Fish Biol, 2009, 75: 435–441

Ráb P, Rábová M, Bohlen J, ir kt. Genetic differentiation of the two hybrid diploid-polyploid complexes of loaches, genus Cobitis (Cobitidae) involving C. taenia, C. elongatoides ir C. spp. in the Czech Republic: karyotypes and cytogenetic diversity. Folia Zool, 2000, 49: S55–S66

Boroň A, Kotusz J. The preliminary data on diploid-polyploid complexes of the genus Cobitis in the Odra River basin, Poland (Pisces, Cobitidae). Folia Zool, 2000, 49: S79–S84

Li S S. Amphibians’s chromosomes and their evolution (in Chinese). Chin J Zool, 1991, 26: 47–52

Li S S. Parthenogenesis in reptiles (in Chinese). Chin J Zool, 1992, 27: 41–44

Li S S. Vertebrate’s polyploid (in Chinese). Chin J Zool, 1980, 2: 52–54

Ramsey J, Schemske D W. Pathways, mechanisms, and rates of polyploid formation in flowering plants. Annu Rev Ecol Syst, 1998, 29: 467–501

Newton W C F, Pellew C. Primula kewensis and its derivatives. J Genet, 1929, 20: 405–467

Liu S J, Qin Q B, Xiao J, ir kt. The formation of the polyploid hybrids from different subfamily fish crossing and its evolutionary significance. Genetics, 2007, 176: 1023–1034

Liu S J. Distant hybridization leads to different ploidy fishes. Sci China Life Sci, 2010, 53: 416–425

Karpechenko G D. The production of polyploid gametes in hybrids. Hereditas, 1927, 9: 349–368

Liu S J, Liu Y, Zhou G J, ir kt. The formation of tetraploid stocks of red crucian carp × common carp hybrids as an effect of interspecific hybridization. Aquaculture, 2001, 192: 171–186

Zhang C, Sun Y D, Liu S J, ir kt. Evidence of the unreduced diploid eggs generated from the diploid gynogenetic progeny of allotetraploid hybrids (in Chinese). Acta Genet Sin, 2005, 32: 136–144

Ullah Z, Lee C Y, DePamphilis M L. Cip/Kip cyclin-dependent protein kinase inhibitors and the road to polyploidy. Cell Div, 2009, 4: 10

Bretagnolle F, Thompson J D. Gametes with the somatic chromosome number: mechanisms of their formation and role in the evolution of autopolyploid plants. New phytol, 1995, 129: 1–22

Werner J E, Peloquin S J. Occurrence and mechanisms of 2n egg formation in 2x potato. Genome, 1991, 34: 975–982

Seehausen O. Hybridization and adaptive radiation. Trends Ecol Evol, 2004, 19: 198–207

Mallet J. Hybridization as an invasion of the genome. Trends Ecol Evol, 2005, 20: 229–237

Mallet J. Hybrid speciation. Nature, 2007, 446: 279–283

Yu X J, Zhou T, Li Y C. Chromosomes of Chinese Fresh-water Fishes (in Chinese). Beijing: Science Press, 1989

Meyer A, Salzburger W, Schartl M. Hybrid origin of a swordtail species (Teleostei: Xiphophorus clemenciae) driven by sexual selection. Mol Ecol, 2006, 15: 721–730

Saitoh K, Chen W J, Mayden R L. Extensive hybridization and tetrapolyploidy in spined loach fish. Mol Phylogenet Evol, 2010, 56: 1001–1010

Harlan J R, deWet J M J. On Ö. Winge and a prayer: the origins of polyploidy. Bot Rev, 1975, 41: 361–390

Belling J. The origin of chromosomal mutations in Uvularia. J Genet, 1925, 15: 245–266

McHale N A. Environmental induction of high frequency 2n pollen formation in diploid Solanum. Can J Genet Cytol, 1983, 25: 609–615

Mable B K. ’Why polyploidy is rarer in animals than in plants’: myths and mechanisms. Biol J Linn Soc, 2004, 82: 453–466

Comai L. Genetic and epigenetic interactions in allopolyploid plants. Plant Mol Biol, 2000, 43: 387–399

Chen Z J, Ni Z F. Mechanisms of genomic rearrangements and gene expression changes in plant polyploids. Bioessays, 2006, 28: 240–252

Song K, Lu P, Tang K, ir kt. Rapid genome change in synthetic polyploids of Brassica and its implications for polyploid evolution. Proc Natl Acad Sci USA, 1995, 92: 7719–7723

Kenton A, Parokonny A S, Gleba Y Y, ir kt. Characterization of the Nicotiana tabacum L. Genome by molecular cytogenetics. Mol Gen Genet, 1993, 240: 159–169

Jellen E N, Gill B S, Cox T S. Genomic savo vietoje hybridization differentiates between A/D-and C-genome chromatin and detects intergenomic translocations in polyploid oat species (genus Avena). Genome, 1994, 37: 613–618

Kellogg E A. What happens to genes in duplicated genomes. Proc Natl Acad Sci USA, 2003, 100: 4369–4371

Se’mon M, Wolfe K H. Preferential subfunctionalization of slow-evolving genes after allopolyploidization in Xenopus laevis. Proc Natl Acad Sci USA, 2008, 105: 8333–8338

Lee H S, Chen Z J. Protein-coding genes are epigenetically regulated in Arabidopsis polyploids. Proc Natl Acad Sci USA, 2001, 98: 6753–6758

Chen Z J. Genetic and epigenetic mechanisms for gene expression and phenotypic variation in plant polyploids. Annu Rev Plant Biol, 2007, 58: 377–406

Liu B, Wendel J F. Epigenetic phenomena and the evolution of plant allopolyploids. Mol Phylogenet Evol, 2003, 29: 365–379

Madlung A, Masuelli R W, Watson B, ir kt. Remodeling of DNA methylation and phenotypic and transcriptional changes in synthetic Arabidopsis allotetraploids. Plant Physiol, 2002, 129: 733–746

Fedoroff N. Transposons and genome evolution in plants. Proc Natl Acad Sci USA, 2000, 97: 7002–7007

Doyle J J, Flagel L E, Paterson A H, ir kt. Evolutionary genetics of genome merger and doubling in plants. Annu Rev Genet, 2008, 42: 443–461

Liu B, Wendel J F. Non-mendelian phenomena in allopolyploid genome evolution. Curr Genomics, 2002, 3: 489–506

Ma X F, Gustafson J P. Genome evolution of allopolyploids: a process of cytological and genetic diploidization. Cytogenet Genome Res, 2005, 109: 236–249

De Bodt S, Maere S, Van de Peer Y. Genome duplication and the origin of angiosperms. Trends Ecol Evol, 2005, 20: 591–597

Ma H Y, Zhang J F, Li Z D. Research advances on plant polyploidy breeding techniques (in Chinese). Protect Forest Sci Technol, 2008, 1: 43–46

Wang T K, Zhang J Z, Qi Y S, ir kt. Advances on polyploid breeding of fruit crops in China (in Chinese). J Fruit Sci, 2004, 21: 592–597

Shun M H, Zhang S N. The application of polyploidy breeding in horticultural crops (in Chinese). Jiangsu Agricult Sci, 2004, 1: 68–72

Zhang X Y, Liu J F, Wang L P. Polyploidy breeding and its application research progress of medicinal plants (in Chinese). J Jilin Normal Univ (Nat Sci Ed), 2009, 4: 128–131

Yuan J M, Dang X M, Zhan Y F. Advances on polyploid breeding in watermelon (in Chinese). Chin J Tropical Agricult, 2009, 29: 65–70

Shen A L, Yao W Z. The proceeding on triploid breeding of aquatic animals (in Chinese). Reserv Fish, 2004, 24: 1–3

Liu Y, Liu S J, Sun Y D, ir kt. Polyploid hybrids of crucian carp× common carp (in Chinese). Rev China Agricult Sci Technol, 2003, 5: 3–6

Wu P. Research progress of fish polyploid breeding in China (in Chinese). J Shanghai Fish Univ, 2005, 14: 72–78

Hu L L, Li J E. The review of fish polyploid breeding research(in Chinese). Fish Sci Technol, 2009, 7–10

Yuan B J, Jiang N C, Lu J P, ir kt. A review of decapod crustacean multiploid breeding (in Chinese). Donghai Marine Sci, 1998, 16: 64–68

Wang Z P, Li K J, Yu R H, ir kt. Progress of tetraploid breeding in mollusks (in Chinese). J Ocean Univ China, 2004, 34: 195–200

Song L M, Yang Y, Wang W M, ir kt. Induction of triploidy in yellow catfish Pelteobagrus fulvidraco by heat shock (in Chinese). Fish Sci, 2010, 29: 352–355

Gui J F, Liang S C, Sun J M, ir kt. Studies on genome manipulation in fish I. Induction of triploid transparent colored crucian carp (Carassius auratus transparent colored variety) by hydrostatic pressure (in Chinese). Acta Hydrobiol Sin, 1990, 14: 336–344

Wu W X, Li C W, Liu G A, ir kt. Studies on tetraploid hybrid between red common carp (Cyprinus carpio) and grass carp (Ctenopharyngodon idellus) and its backcross triploid (in Chinese). Acta Hydrobiol Sin, 1988, 12: 355–363

Gui J F, Liang S C, Zhu L F, ir kt. Discovery and breeding potential of compound tetraploid allogynogenetic silver crucian carp in artificial population (in Chinese). Chin Sci Bull, 1992, 37: 646–648

Wu C, Ye Y, Chen R, ir kt. An artificial multiple triploid carp and its biological characteristics. Aquaculture, 1993, 111: 255–262

Luo K K, Xiao J, Liu S J, ir kt. Massive production of all-female diploids and triploids in the crucian carp. Int J Biol Sci, 2011, 7: 487–495

Hu W, Zhu Z Y. Integration mechanisms of transgenes and population fitness of GH transgenic fish. Sci China Life Sci, 2010, 53: 401–408

Hu W, Wang Y P, Zhu Z Y. Progress in the evaluation of transgenic fish for possible ecological risk and its containment strategies. Sci China Life Sci, 2007, 50: 573–579

Yu F, Xiao J, Liang X Y, ir kt. Rapid growth and sterility of growth hormone gene transgenic triploid carp. Chin Sci Bull, 2011, 56: 1679–1684

Qin Q B, He W G, Liu S J, ir kt. Analysis of 5S rDNA organization and variation in polyploid hybrids from crosses of different fish subfamilies. J Exp Zool (Mol Dev Evol), 2010, 314: 403–411


Sequencing the genomes of polyploid organisms - Biology

Duomenų bazė, kurioje pateikiama informacija apie surinktų genomų struktūrą, surinkimo pavadinimus ir kitus metaduomenis, statistines ataskaitas ir nuorodas į genomo sekos duomenis.

Genomikos, funkcinės genomikos ir genetikos tyrimų rinkinys ir nuorodos į gautus duomenų rinkinius. Šis šaltinis apibūdina projekto apimtį, medžiagą ir tikslus ir pateikia mechanizmą, kaip gauti duomenų rinkinius, kuriuos dažnai sunku rasti dėl nenuoseklių komentarų, daugybės nepriklausomų pateikimų ir įvairių duomenų tipų, kurie dažnai saugomi skirtingose ​​duomenų bazėse.

The dbVar database has been developed to archive information associated with large scale genomic variation, including large insertions, deletions, translocations and inversions. In addition to archiving variation discovery, dbVar also stores associations of defined variants with phenotype information.

Contains sequence and map data from the whole genomes of over 1000 organisms. The genomes represent both completely sequenced organisms and those for which sequencing is in progress. All three main domains of life (bacteria, archaea, and eukaryota) are represented, as well as many viruses, phages, viroids, plasmids, and organelles.

The Genome Reference Consortium (GRC) maintains responsibility for the human and mouse reference genomes. Members consist of The Genome Center at Washington University, the Wellcome Trust Sanger Institute, the European Bioinformatics Institute (EBI) and the National Center for Biotechnology Information (NCBI). The GRC works to correct misrepresented loci and to close remaining assembly gaps. In addition, the GRC seeks to provide alternate assemblies for complex or structurally variant genomic loci. At the GRC website (http://www.genomereference.org), the public can view genomic regions currently under review, report genome-related problems and contact the GRC.

A database of known interactions of HIV-1 proteins with proteins from human hosts. It provides annotated bibliographies of published reports of protein interactions, with links to the corresponding PubMed records and sequence data.

NIAID gripo genomo sekos nustatymo projekto ir „GenBank“ duomenų rinkinys. Jame pateikiami įrankiai gripo sekos analizei, anotavimui ir pateikimui „GenBank“. Šiame šaltinyje taip pat yra nuorodų į kitus gripo sekos šaltinius, leidinius ir bendrą informaciją apie gripo virusus.

Projektas, apimantis bakterijų patogenų genominių sekų, kilusių iš maisto, aplinkos ir pacientų izoliatų, rinkimą ir analizę. Šiuo metu automatizuotos dujotiekio grupės ir identifikuojamos sekos, kurias pirmiausia teikia visuomenės sveikatos priežiūros laboratorijos, kad padėtų ištirti su maistu plintančių ligų protrūkius ir atrasti galimus maisto užteršimo šaltinius.

Nukleotidų sekų rinkinys iš kelių šaltinių, įskaitant „GenBank“, „RefSeq“, „Third Party Annotation“ (TPA) duomenų bazę ir PDB. Ieškodami nukleotidų duomenų bazės, gausite galimus rezultatus iš kiekvienos jos komponentų duomenų bazės.

Susijusių DNR sekų, gautų iš lyginamųjų tyrimų, duomenų bazė: filogenetinė, populiacija, aplinka ir, mažesniu mastu, mutacija. Kiekvienas duomenų bazės įrašas yra DNR sekų rinkinys. Pavyzdžiui, populiacijų rinkinys pateikia informaciją apie genetinę variaciją organizme, o filogenetiniame rinkinyje gali būti vieno geno, gauto iš kelių susijusių organizmų, sekos ir jų derinimo.

Viešas nukleorūgščių reagentų registras, skirtas naudoti įvairiose biomedicinos tyrimų srityse, kartu su informacija apie reagentų skirstytuvus, zondo efektyvumą ir apskaičiuotas sekų panašumus.

A collection of resources specifically designed to support the research of retroviruses, including a genotyping tool that uses the BLAST algorithm to identify the genotype of a query sequence an alignment tool for global alignment of multiple sequences an HIV-1 automatic sequence annotation tool and annotated maps of numerous retroviruses viewable in GenBank, FASTA, and graphic formats, with links to associated sequence records.

A summary of data for the SARS coronavirus (CoV), including links to the most recent sequence data and publications, links to other SARS related resources, and a pre-computed alignment of genome sequences from various isolates.

„Sequence Read Archive“ (SRA) saugo sekos duomenis iš naujos kartos sekos nustatymo platformų, įskaitant „Roche 454 GS System®“, „Illumina Genome Analyzer®“, „Life Technologies AB SOLiD System®“, „Helicos Biosciences Heliscope®“, „Complete Genomics®“ ir „Pacific Biosciences SMRT®“. .

DNR sekų chromatogramų (pėdsakų), bazinių iškvietimų ir vieno praėjimo skaitymų kokybės įvertinimų saugykla iš įvairių didelio masto sekos nustatymo projektų.

A wide range of resources, including a brief summary of the biology of viruses, links to viral genome sequences in Entrez Genome, and information about viral Reference Sequences, a collection of reference sequences for thousands of viral genomes.

An extension of the Influenza Virus Resource to other organisms, providing an interface to download sequence sets of selected viruses, analysis tools, including virus-specific BLAST pages, and genome annotation pipelines.

Atsisiuntimai

This site contains genome sequence and mapping data for organisms in Entrez Genome. The data are organized in directories for single species or groups of species. Mapping data are collected in the directory MapView and are organized by species. See the README file in the root directory and the README files in the species subdirectories for detailed information.

Contains directories for each genome that include available mapping data for current and previous builds of that genome.

Šioje svetainėje yra visi nuorodų sekos (RefSeq) kolekcijos nukleotidų ir baltymų sekų įrašai. Kataloge „Release“ yra naujausias visos kolekcijos leidimas, o duomenys apie pasirinktus organizmus (pvz., žmones, pelę ir žiurkę) pateikiami atskiruose kataloguose. Duomenys pateikiami FASTA ir plokščių failų formatais. Išsamesnės informacijos ieškokite README faile.

This site contains SKY-CGH data in ASN.1, XML and EasySKYCGH formats. See the skycghreadme.txt file for more information.

Šioje svetainėje yra naujos kartos sekos duomenų, sutvarkytų pagal pateiktą sekos sudarymo projektą.

Šioje svetainėje yra pėdsakų chromatogramos duomenys, suskirstyti pagal rūšis. Duomenys apima chromatogramą, kokybės balus, FASTA sekas iš automatinių bazinių iškvietimų ir kitą papildomą informaciją skirtukais atskirtame tekste bei XML formatuose. Išsamesnės informacijos ieškokite README faile.

Šioje svetainėje yra viso genomo šautuvų sekos duomenys, suskirstyti pagal 4 skaitmenų projekto kodą. Duomenys apima „GenBank“ ir „GenPept“ plokščius failus, kokybės balus ir suvestinę statistiką. Daugiau informacijos rasite README.genbank.wgs faile.

Pateikimai

Internetinė forma, suteikianti sąsają tyrėjams, konsorciumams ir organizacijoms registruoti savo „BioProjects“. Tai yra atskaitos taškas pateikiant tyrimui genominius ir genetinius duomenis. „BioProject“ registracijos metu duomenų pateikti nereikia.

Komandinės eilutės programa, kuri automatizuoja sekos įrašų kūrimą, kad būtų pateiktas „GenBank“, naudojant daugelį tų pačių funkcijų, kaip ir „Sequin“. Jis visų pirma naudojamas pilniems genomams ir didelėms sekų partijoms pateikti.

Šioje nuorodoje aprašoma, kaip SRA duomenų pateikėjai gali gauti saugią NCBI FTP svetainę savo duomenims, taip pat aprašomi leidžiami duomenų formatai ir katalogų struktūros.

Vienas prieigos taškas, kuriame teikėjai gali susieti ir rasti informacijos apie visus NCBI duomenų teikimo procesus. Šiuo metu tai yra sąsaja, skirta registruoti „BioProjects“ ir „BioSamples“ bei pateikti duomenis WGS ir GTR. Ateityje planuojama papildyti šią svetainę.

Šioje nuorodoje aprašoma, kaip pėdsakų duomenų teikėjai gali gauti saugią NCBI FTP svetainę savo duomenims, taip pat aprašomi leidžiami duomenų formatai ir katalogų struktūros.

Įrankiai

An interactive graphical viewer that allows users to explore variant calls, genotype calls and supporting evidence (such as aligned sequence reads) that have been produced by the 1000 Genomes Project.

Performs a BLAST search for similar sequences from selected complete eukaryotic and prokaryotic genomes.

Performs a BLAST search of the genomic sequences in the RefSeqGene/LRG set. The default display provides ready navigation to review alignments in the Graphics display.

Šis įrankis palygina nukleotidų ar baltymų sekas su genomo sekų duomenų bazėmis ir apskaičiuoja statistines atitikties reikšmes, naudojant pagrindinio vietinio išlyginimo paieškos įrankio (BLAST) algoritmą.

A genome browser for interactive navigation of eukaryotic RefSeq genome assemblies with comprehensive inspection of gene, expression, variation and other annotations. GDV offers easy-to-load analytical track pre-configurations, a menu of data tracks for easy display and customization, and supports upload and analysis of user data. This browser also enables the production of displays for publishing.

An online tool that assists in the production of journal quality figures of annotations on an ideogram or sequence representation of an assembly.

NCBI „Remap“ įrankis leidžia vartotojams projektuoti anotacijų duomenis ir konvertuoti funkcijų vietas iš vieno genomo agregato į kitą arba į „RefSeqGene“ sekas atliekant bazės analizę. Pateikiamos parinktys, leidžiančios koreguoti perskirstymo griežtumą, o suvestiniai rezultatai rodomi tinklalapyje. Visus rezultatus galima atsisiųsti, kad būtų galima peržiūrėti NCBI „Genome Workbench“ grafinėje peržiūros programoje, taip pat galima atsisiųsti iš naujo sukurtų funkcijų anotacijų duomenis ir suvestinius duomenis.

Integruota programa, skirta sekos duomenims peržiūrėti ir analizuoti. Naudodami Genome Workbench galite peržiūrėti duomenis viešai prieinamose NCBI sekos duomenų bazėse ir maišyti šiuos duomenis su savo duomenimis.

Supports finding human phenotype/genotype relationships with queries by phenotype, chromosome location, gene, and SNP identifiers. Currently includes information from dbGaP, the NHGRI GWAS Catalog, and GTeX. Displays results on the genome, on sequence, or in tables for download.

Naudingumas, skirtas apskaičiuoti baltymų derinimą su genomo nukleotidų seka. Jis pagrįstas „Needleman Wunsch“ visuotinio derinimo algoritmo variantu ir konkrečiai atsižvelgia į intronus ir sujungimo signalus. Dėl šio algoritmo „ProSplign“ tiksliai nustato sujungimo vietas ir toleruoja sekos klaidas.

Sequence Cytogenetic Conversion Service An online tool that converts sequence and cytogenetic coordinates for human, rat, mouse and fruit fly genomic assemblies. Sequence Viewer

Pateikiamas konfigūruojamas grafinis nukleotidų arba baltymų sekos vaizdas ir funkcijos, kurios buvo anotuotos toje sekoje. Be naudojimo NCBI sekos duomenų bazės puslapiuose, šią peržiūros priemonę galima rasti kaip įterpiamąjį tinklalapio komponentą. Išsamią dokumentaciją, įskaitant API nuorodų vadovą, gali gauti kūrėjai, norintys įterpti peržiūros priemonę į savo puslapius.

Įrankis, skirtas cDNR ir genominės sekos derinimui apskaičiuoti. Jis pagrįstas „Needleman-Wunsch“ visuotinio derinimo algoritmo variantu ir konkrečiai atsižvelgia į intronus ir sujungimo signalus. Dėl šio algoritmo „Splign“ tiksliai nustato sujungimo vietas ir toleruoja sekos klaidas.

Variation Viewer A genomic browser to search and view genomic variations listed in dbSNP, dbVar, and ClinVar databases. Searches can be performed using chromosomal location, gene symbol, phenotype, or variant IDs from dbSNP and dbVar. The browser enables exploration of results in a dynamic graphical sequence viewer with annotated tables of variations. Viral Genotyping Tool

This tool helps identify the genotype of a viral sequence. A window is slid along the query sequence and each window is compared by BLAST to each of the reference sequences for a particular virus.


NHGRI Targets 12 More Organisms for Genome Sequencing

BETHESDA, Md., Tues., Mar. 1, 2005 - The National Human Genome Research Institute (NHGRI), one of the National Institutes of Health (NIH), announced today that the Large-Scale Sequencing Research Network will begin sequencing 12 more strategically selected organisms, including the marmoset, a skate and several important insects, as part of its ongoing effort to expand understanding of the human genome.

The National Advisory Council for Human Genome Research, which is a federally chartered committee that advises NHGRI on program priorities and goals, recently approved a comprehensive plan that identified two groups of new sequencing targets on the basis of their collective scientific merits.

"Our sequencing strategy continues to focus on identifying the sets of organisms with the greatest potential to fill crucial gaps in biomedical knowledge," said Mark S. Guyer, Ph.D., director of NHGRI's Division of Extramural Research. "The most effective approach we currently have to identify the essential functional and structural components of the human genome is to compare it with the genomes of other organisms."

Two of the sequencing projects are aimed at gaining new insights into model organisms utilized in research on drug development and disease susceptibility. They are: sequencing the genome of a fellow primate, the marmoset (Callithrix jacchus) and identification of genetic variations (in the form of single nucleotide polymorphisms) in eight strains of rats.

The marmoset is a key model organism used in neurobiological studies of multiple sclerosis, Parkinson's disease and Huntington's disease. The marmoset is also an important model for research into infectious disease and pharmacology.

The marmoset was chosen also because of its unique position on the evolutionary tree, one step further removed from humans than other non-human primates already being sequenced, such as the chimpanzee (Visus trogloditus), the rhesus macaque (Macaca mulatta) and orangutan (Pongo pygmaeus). Obtaining the marmoset genome sequence will provide a powerful tool to illuminate the similarities and differences among these primate genomes.

The second project chosen for its considerable medical relevance to humans will identify 280,000 single nucleotide polymorphisms, known as "SNPs," in the genomes of eight different strains of laboratory rats. SNPs can be used as markers to zero in on genetic variations that may affect an individual's risk of developing common, complex illnesses such as heart diseases, diabetes and cancer. Building a catalog of rat SNPs will assist researchers trying to find genetic variations associated with common, complex diseases in rats, which can then be used to help identify similar genetic variations that may be involved in human disease.

The eight rat strains selected are the PVG strain, commonly used as a healthy control in studies the F344 strain, used in toxicological and pharmacological studies the SS strain, used for cardiovascular disease studies the LEW strain, often used in studies of transplants and immune response the BB strain, used in studies of diabetes the FHH strain, also used for cardiovascular studies the DA strain, used for studies of arthritis and cancer and the SHR strain, used in studies of hypertension.

"The overriding goal of sequencing the genomes of a diverse set of organisms is to understand the biological processes at work in human health and illness," said NHGRI Director Francis S. Collins, M.D., Ph.D. "It is also gratifying to know that these tools, freely available to the entire biomedical research community, can be used in other scientific fields to further improve animal and human welfare."

Another set of 11 non-mammalian organisms were strategically chosen, each representing a position on the evolutionary timeline marked by important innovations in animal anatomy, physiology, development or behavior. The organisms are: a skate (Raja erinacea) a sea slug (Aplysia californica) a disease-carrying insect (Rhodnius prolixus) a pea aphid (Acyrthosiphon pisum) a wasp (Nasonia vitripennis) and two related insect species (Nasonia giraulti ir Nasonia longicornis) a free-living soil amoeba (Acanthamoeba castellanii) and three fungi (Schizosaccharomyces octosporus, Schizosaccharomyces japonicus, Batrachochytridium dendrobatidis).

It has been shown that most sequences of the human genome originated long before humans themselves. Consequently, scientists will use the genome sequences of the 11 non-mammalian animals to learn more about how, when and why the human genome came to be composed of certain DNA sequences, as well as to gain new insights into organization of genomes. In addition, many of the organisms can shed light on human disease.

For instance, the skate (related to many species of shark and cartilaginous fish) was chosen because it belongs to the first group of primitive vertebrates that developed jaws, an important step in vertebrate evolution. Other innovations in this group of animals include an adaptive immune system similar to that of humans, a closed and pressurized circulatory system, and myelination of the nervous system. Understanding these systems of the skate at a genetic level will help scientists identify the minimum set of genes that create a nervous system or develop a jaw, possibly illustrating how these systems have evolved in humans, and how they sometimes go wrong.


Aplysia (Aplysia californica) is a sea slug that has been a very useful model in studying learning and memory in humans. Aplysia have very large neurons which can be manipulated and studied easily by researchers. In 2000, Eric Kandel, M.D., of Columbia University in New York, shared the Nobel Prize in Physiology or Medicine for his work elucidating how memories are formed in the human brain using Aplysia as a model.

The disease-carrying insect, Rhodnius prolixus, spreads Chagas' disease, caused by the parasite Trypanosoma cruzi,which is carried by the insect. Chagas' disease is prominent in Latin America, affecting about 20 million people in South America alone and killing 50,000 of them a year. Having the genome sequence of Rhodnius prolixus presents an opportunity for experts from the United States, Canada and Latin America to collaborate on understanding this widespread infectious disease.

The pea aphid (Acyrthosiphon pisum) is an insect which causes hundreds of millions of dollars of crop damage each year. The pea aphid is a model for studying rapid adaptation because this species is exceptionally able at adapting to and resisting many pesticides. Understanding this resistance at a molecular level can lead to safer and more effective pesticides and improve human nutrition. The genome of the pea aphid, used extensively as an experimental model, will be a valuable comparison with other insects, such as the closely related insect, Rhodnius prolixus.

Another insect, the parasitoid wasp Nasonia vitripennis, is a natural enemy of houseflies, and its relatives are natural enemies of ticks, mites, roaches and other arthropods. It is the genetic model for parasitoids, which lay their eggs on and kill arthropods, thus controlling pest populations. In the United States, the use of parasitoid wasps in agriculture as a biological control of crop damaging insects saves approximately $20 billion annually. The wasp will serve as a good comparison for the honey bee genome, which has been sequenced already. Two related wasp species, Nasonia giraulti ir Nasonia longicornis, will be sequenced at less dense coverage to aid in the comparative studies.

Sequencing efforts will be carried out by the five centers in the NHGRI-supported Large-Scale Sequencing Research Network: Agencourt Bioscience Corp., Beverly, Mass. Baylor College of Medicine, Houston the Broad Institute of MIT and Harvard, Cambridge, Mass. The J. Craig Venter Science Institute, Rockville, Md. and Washington University School of Medicine, St. Louis. Assignment of each organism to a specific center or centers will be determined at a later date.

NHGRI's selection process begins with two working groups comprised of experts from across the research community. Each of the working groups is responsible for developing a proposal for a set of genomes to sequence that would advance knowledge in one of two important scientific areas: understanding the human genome and understanding the evolutionary biology of genomes. A coordinating committee then reviews the working groups' proposals, helping to fine-tune the suggestions and integrate them into an overarching set of scientific priorities. The recommendations of the coordinating committee are then reviewed and approved by NHGRI's advisory council, which in turn forwards its recommendations regarding sequencing strategy to NHGRI leadership.

The genomes of a number of organisms have been or are being sequenced by the large-scale sequencing capacity developed by the Human Genome Project. These include the dog, the mouse, the rat, the chicken, the honey bee, two fruit flies, the sea urchin, two puffer fish, two sea squirts, two roundworms, several fungi, baker's yeast and many prokaryotes (bacteria and archaea) including Escherichia coli. Additional organisms already in the NHGRI sequencing pipeline are: the macaque, the orangutan, the kangaroo, the cow, the gray short-tailed opossum, the platypus, the red flour beetle, the domestic cat, the flatworm Schimdtea mediterranea, more species of fruit fly and several species of fungi.