We are searching data for your request:
Upon completion, a link will appear to access the found materials.
Gerai, aš perskaičiau, kad ląstelė generuoja 4 rūšių skaitmeninius (tiksliau atskirus) duomenis, būtent DNR, RNR, baltymus (sekos, kurios gali būti užkoduotos kaip nukleotidų / aminorūgščių eilučių sekos) ir mikro matricos vaizdą. Nesu biologas, bet mane domina šių duomenų statistika ir informacijos teorija. Norėčiau sužinoti, kokią informaciją perteikia DNR mikro matricos vaizdas? Pavyzdžiui, kokią informaciją mes gauname apdoroję atitinkama programine įranga?
Mikro masyvo vaizdo pavyzdys:
Kiekviena dėmė persidengia su oligonukleotidu zondas, kuris skirtas identifikuoti specifinę nukleorūgščių seką. Genų ekspresijos matricos turi zondus, kurie papildo sekas, gautas iš egzonų; todėl jie hibridizuojasi su šiomis sekomis.
Prieš hibridizaciją, cDNR (šiuo atveju) yra paženklinta fluorescencine molekule, tokia kaip Cy3 arba Cy5 (gali būti naudojami du dažai, kad būtų galima atskirti apdorotą ir kontroliuojamą). Atkreipkite dėmesį, kad kiekvienoje vietoje bus daug zondo molekulių. Fluorescencinis intensyvumas yra proporcingas hibridizuotų DNR grandžių skaičiui, o tai savo ruožtu yra proporcinga jo ekspresijai mėginyje.
„Microarray“ duomenų analizėje yra daug tekstų, kuriuos galite lengvai rasti.
Ką reikia žinoti prieš užsisakant chromosomų mikromatricą
Tinkamai naudojamas chromosomų mikrogardelių (CMA) tyrimas gali būti galinga diagnostikos priemonė. CMA technologija ir testavimo procesas gali skirtis nuo kitų laboratorinių tyrimų, prie kurių esate įpratę, tačiau atkreipdami dėmesį į šioje programoje aprašytus veiksmus, galite sėkmingai pritaikyti šį testą savo praktikoje. Šiame skyriuje aptariame pagrindines žinias, kurių jums prireiks sprendžiant, ar užsisakyti chromosomų mikromatricą, įskaitant tai, kaip testas veikia, ką jis aptinka ir kada jis pasirodė naudingas. Žemiau pateikiami pagrindiniai klausimai, kuriuos turėtumėte suprasti prieš nuspręsdami atlikti tyrimą su chromosomų mikromatrica.
Ką aptinka chromosomų mikrogardelė?
Atliekant chromosomų mikrogardelių (CMA) testavimą, ieškoma papildomų (dubliuotų) arba trūkstamų (ištrintų) chromosomų segmentų, kartais vadinamų kopijų skaičiaus variantais (CNV). Jie apima:
- Chromosomų segmentų mikrodelecijos ir mikroduplikacijos, kurios yra per mažos, kad būtų galima pamatyti pro mikroskopą, bet gali turėti kelis genus (žr. iliustraciją žemiau)
- Dauguma chromosomų skaičiaus anomalijų (trisomija, monosomija ir kt.), įskaitant Dauno sindromą
- Dauguma nesubalansuotų chromosomų struktūros pertvarkymų (translokacijų ir kt.)
Priklausomai nuo platformos, CMA taip pat gali aptikti:
- Pernelyg didelis homozigotiškumas, rodantis recesyvinės ligos arba įspaudimo sutrikimų riziką (daugiau informacijos rasite skyriuje Taikyti rezultatus)
- Triploidija ir kiti viso chromosomų rinkinio dubliavimai (tetraploidija ir kt.)
Kaip ir tradicinio kariotipo atveju, atliekant CMA tyrimą, galima aptikti didesnį nei 20–25% mozaikiškumą (normalių ir nenormalių ląstelių mišinį). Aptikimo dažnis skiriasi priklausomai nuo konkrečios testavimo platformos ms).
Ką reiškia CMA ne aptikti?
Joks testas negali atmesti visų genetinių ligų. Kai kurių tipų variantams reikalingas kitoks bandymas, o kai kuriuos regionus techniškai sunku išskirti ir analizuoti.
- Nedideli pavienių genų sekos pokyčiai (taškinės mutacijos)
- Maži DNR segmentų dubliavimai ir ištrynimai viename gene (pavyzdžiui, trapiojo X sindromas)
- Subalansuoti chromosomų persitvarkymai (subalansuotos translokacijos, inversijos)
CMA testavimo apribojimai taip pat skiriasi priklausomai nuo naudojamos metodikos. Dauguma CMA negali aptikti mozaikiškumo, mažesnio nei 20–25%. Kai kurios platformos neaptinka pernelyg didelio homozigotiškumo ar triploidijos, taip pat kitos. (Norėdami gauti daugiau informacijos apie skirtingas CMA platformas, žr. skyrių Užsakymas.)
Kaip veikia CMA?
&ldquoMicroarray&rdquo reiškia mikroschema pagrįstą testavimo platformą, kuri leidžia vienu metu atlikti didelės apimties automatizuotą daugelio DNR dalių analizę. CMA lustai naudoja etiketes arba zondus, kurie jungiasi prie tam tikrų chromosomų regionų. Kompiuterinė analizė naudojama paciento genetinei medžiagai palyginti su etaloninio mėginio genetine medžiaga. Skirtumas tarp paciento DNR ir etaloninio mėginio vadinamas variantu.
Kuriems pacientams tai gali būti naudinga?
CMA yra aiškiai naudinga asmenims, kurie neatitinka konkretaus žinomo sindromo (pvz., Dauno sindromo), tačiau turi bet kurį iš šių požymių:
- Vystymosi sulėtėjimas / intelekto sutrikimas
- Autizmo spektro sutrikimai
- Daugybė įgimtų anomalijų, įskaitant dismorfinius veido bruožus
CMA taip pat gali būti ekonomiškiausias testas, kai jūsų diferencialas apima daugiau nei vieną sąlygą, kurią gali aptikti technologija. Pacientams gali būti daugiau nei viena genetinė būklė, ir tai gali būti svarstoma, jei pacientas turi savybių, kurios paprastai nėra susijusios su nustatyta diagnoze. Genetikos specialistas gali padėti nustatyti, ar papildomi tyrimai, tokie kaip CMA, būtų naudingi.
CMA tiriamas naudoti kitose pacientų grupėse, o laikui bėgant jos naudojimas plėsis. Tokiais atvejais tai gali būti ypač naudinga kai kitais tyrimais diagnozės nepavyko nustatyti:
- Nepaaiškinamas traukulių sutrikimas
- Augimo vėlavimas
- Psichikos liga
- Neuromuskulinės būklės
Kaip rezultatai naudojami kliniškai?
CMA testavimas gali būti vartai į daugiau pagalbos šeimoms, kuriose yra vaikų, kurių būklė anksčiau nebuvo diagnozuota. CMA rastas variantas gali ne tik pateikti ilgai lauktą paciento klinikinių radinių paaiškinimą, bet ir paveikti valdymą šiais būdais:
- Specifiniai pažinimo, vystymosi ir funkciniai profiliai, susiję su kai kuriais variantais, lemia prognozes, valdymą ir švietimo intervencijas.
- Gali būti nurodomi sindromų įvertinimai arba siuntimai, siekiant patikrinti, ar nėra komplikacijų, kurios kitu atveju galėjo būti praleistos.
- Šeimos tyrimai informuoja apie rizikos grupės šeimos narių reprodukcijos planavimą ir patikrinimą.
CMA diagnozė taip pat gali suteikti psichosocialinės naudos šeimai, įskaitant prieigą prie naujos paramos bendruomenės, kurioje gyvena asmenys, turintys panašią diagnozę. Pavyzdžius ir išteklius, susijusius su CMA rezultatų klinikiniu naudingumu, rasite toliau pateiktuose atvejų pavyzdžiuose ir skyriuje Taikyti rezultatus.
Ar CMA turėtų pakeisti tradicinę chromosomų analizę ar kitus genetinius tyrimus?
2010 m. Amerikos medicinos genetikos koledžas rekomendavo CMA kaip pirmos pakopos tyrimus asmenims, turintiems vystymosi vėlavimo, intelekto sutrikimų, autizmo spektro ir daugybinių įgimtų anomalijų.
CMA diagnozuojama 10–15%, o tai yra žymiai geriau nei
3% išeiga su tradicine chromosomų analize. CMA taip pat gali aptikti daugumą didelių chromosomų anomalijų, nustatytų standartiniu kariotipu.
Kariotipas vis dar tinka pacientams, kurie labai atitinka tam tikros chromosomų anomalijos diagnozės ypatybes, pvz., Dauno sindromą. Tiksliniai molekuliniai genetiniai tyrimai yra tinkami tokioms sąlygoms kaip Fragile X sindromas, kurių CMA neaptinka. Tačiau CMA gali būti naudinga, kai atliekant šiuos tyrimus nepavyko nustatyti diagnozės, kai pacientas turi diagnozę, bet neįprastą eigą arba kai diferencialas apima kelias sąlygas, kurios sutampa.
Išvados, rodančios konkrečią diagnozę, nurodančios tikslinį tyrimą, gali būti:
- Būdingos fizinės savybės
- Specifiniai įgimtų apsigimimų konsteliacijos
- Tam tikri pažinimo / raidos profiliai
- Aiškus paveldėjimo modelis šeimoje
Jei kyla abejonių, pasikonsultuokite su klinikinės ar laboratorinės genetikos specialistu (žr. Kaip gauti pagalbą?).
Kokios yra išlaidos ir rizika?
Apskritai genetiniai tyrimai kainuoja daugiau nei įprasti laboratoriniai tyrimai. Nors CMA šiuo metu yra brangesnė nei tradicinė chromosomų analizė, pacientams, kuriems yra tam tikros indikacijos, diagnostikos rezultatai yra žymiai didesni. Tobulėjant technologijoms, išlaidos mažėja.
Kyla neaiškių, neinformatyvių ar netikėtų išvadų rizika. Tačiau neigiamas rezultatas nebūtinai yra nenaudingas atliekant diagnostinę paiešką. Galimas klinikinis ir psichosocialinis įvairių rezultatų poveikis turi būti pasveriamas kiekvienu konkrečiu atveju. Patarimų dėl šio proceso rasite skyriuose apie konsultacijas prieš ir po tyrimo.
Produkto Aprašymas
Katalogo numeris | Antigenų skaičius | apibūdinimas | |||||
PA001 | 120 | Bendras žmogaus autoantigenų tyrimas | |||||
PA002 | 120 | Žmogaus smegenų ir centrinės nervų sistemos sutrikimai | |||||
PA003 | 120 | Žmogaus vėžys ir neoplazmos | |||||
PA006 | 75 | Žmonėms būdingi alergenai | |||||
PA009 | 41 | NAUJIENA! SARS-CoV-2 koronaviruso baltymai | |||||
PA010 | 120 | NAUJIENA! Žmogaus autoimunitetas, alergija ir infekcija | |||||
PA012 | 120 | NAUJIENA! Su žmogaus koronavirusu susijęs autoimunitetas (CAA) |
Nailono membranos matricos
Kai anksčiau genų ekspresijos analizės kliūtis buvo etalonas, o masyvo analizėje tai buvo darbas kompiuteriu. Kadangi vienas masyvo eksperimentas gali generuoti tūkstančius duomenų taškų, pagrindinis technikos uždavinys yra suprasti duomenis. Daugelis komercinių įmonių teikia vaizdo analizės programinę įrangą, įskaitant BioDiscovery (ImaGene) ir Imaging Research (ArrayVision). Be to, daugelis masyvų gamintojų siūlo programinę įrangą, skirtą specialiai jų masyvų analizei, ir siūlo analizę kaip paslaugą.
Atliekant membranos matricos analizę, fosfovaizdavimo būdu generuojamas duomenų failas, o tada šis failas analizuojamas naudojant programinę įrangą. Programinė įranga susies dėmes su genais ir gali palyginti dėmių intensyvumą diferencinės išraiškos tyrimams.
Stiklo matricos duomenys apdorojami beveik taip pat, tačiau vaizdo fluorescencija nuskaitoma ir programinė įranga leidžia aptikti kiekvieno mėginio fluorescenciją atskirai arba vienu metu analizei. Dauguma programinės įrangos paketų vienu metu gali analizuoti keletą masyvų.
Sistemų biologijos duomenų bazės
Jürgenas Eilsas, . Martinas Ginkelis, skaičiavimo sistemų biologija, 2006 m
2 Standartai
Dedamos pastangos kurti ataskaitų teikimo ir eksperimentinių duomenų iš tam tikrų tipų metodų saugojimo standartus. Minimalios informacijos apie mikrogardelių eksperimentą (MIAME) standartas buvo sukurtas siekiant palaikyti duomenų eksportą ir mikromatricos eksperimentų aprašą, siekiant nedviprasmiško eksperimento interpretavimo visai mokslininkų bendruomenei (Brazma et al. 2001). MicroArray Gene Expression Markup Language (MAGE-ML) yra pagrįsta MAGE objekto modeliu (MAGE-OM) ir gali būti naudojama mikromatricos duomenų mainams (Spellman et al. 2002). HUPO (Human Proteome Organization) nomenklatūra, palengvinanti duomenų palyginimą, keitimąsi ir patikrinimą proteomikos srityje, buvo sukurta Proteomikos standartų iniciatyvos (Orchard ir kt., 2003 Orchard ir kt., 2005). Neseniai buvo suformuota komisija, kurios tikslas buvo nustatyti funkcinių fermentų apibūdinimo standartus, vadinamus Enzymology Data Reporting Standards (STRENDA). OME aprašyti standartai, skirti dirbti su mikroskopiniais duomenimis, palaiko projektus, kuriuose naudojami, pavyzdžiui, RNAi atranka ir taikomosios programos, kurioms reikalingas daugiamatis vaizdų saugojimas ir analizė. XML (Extensible Markup Language) schema, OME XML, buvo sukurta siekiant standartizuoti duomenų perdavimą (Swedlow ir kt., 2003). Mikrogardelių ir proteomikos standartai buvo įtraukti į Systems Biology Object Model (SysBio-OM), kuris palaiko mikrogardelių ir baltymų ekspresijos duomenų, taip pat duomenų, apibūdinančių baltymų tarpusavio sąveiką ir metabolizmą, atvaizdavimą (Xirasagar ir kt., 2004).
NAUJIENA Produktas! SARS-CoV-2 koronaviruso antigenų mikrogardelės. Norėdami gauti daugiau informacijos apie šias mikromasyvas, apsilankykite https://www.genecopoeia.com/product/omicsarray-antigen-microarrays/.
Be iš anksto sukurtų masyvų, yra prieinami masyvai su pritaikytais baltymų rinkiniais, taip pat masyvo profiliavimo paslaugos ir duomenų analizė.
- Galimybė multipleksuoti. „OmicsArray&trade“ antigenų mikrogardelės vienu metu gali ištirti iki 120 antigenų, palyginti su 1 baltymu vienu metu atliekant ELISA.
- Didelis pralaidumas. Kiekviena skaidrė gali lygiagrečiai apdoroti iki 15 mėginių.
- Didelis jautrumas. Kiekviena matrica gali aptikti tik 1 pg/ml antikūno, kuris yra 100 kartų jautresnis nei ELISA.
- Mažas mėginio tūris. Norint nustatyti, reikia tik 1 ul serumo.
- Greitai. Nuo mėginio iki duomenų tik per 2 savaites.
Glikobiologija
Davidas F. Smithas, . Richard D. Cummings, Methods in Enzymology, 2010 m
2 Funkcinės glikomikos konsorciumo (CFG) spausdinta glikano mikrogardelė
Glycan Array Synthesis Core (Core D) gamina CFG glikano mikromatricą ( http://www.functionalglycomics.org/static/consortium/organization/sciCores/cored.shtml ), kaip aprašyta anksčiau ( Blixt ir kt., 2004). 19.1 paveiksle pateikiama veiksmų, susijusių su glikano matricos sudarymu ir vėlesniu GBP analizavimu, naudojant įvairius fluorescencinio aptikimo metodus, siekiant gauti duomenis histogramos formatu, santrauka. CFG masyvas atspausdintas ant stiklinių mikroskopo stiklelių, kurios yra išvestinės naudojant NHS (SCHOTT Nexterion ® Slide H, SCHOTT North America, Elmsford, NY). Visi glikanai, prieinami CFG Glycan Array sintezės branduoliui D, turi pirminį aminą ant jungties, prijungtos prie kiekvieno glikano redukuojančio galo. Kiekvienos CFG glikano mikromatricos versijos glikanų struktūras ir atskirų linkerių struktūrą galima rasti adresu (http://www.functionalglycomics.org/static/consortium/resources/resourcecoreh8.shtml). Pirmoji spausdinta glikano mikrogardelė, kurią buvo galima įsigyti 2005 m., buvo 2.0 versija ir jame buvo 264 glikano taikiniai, o per 5 metus per aštuonias iteracijas ji buvo išplėsta iki 511 glikanų. Kiekvienas glikano taikinys spausdinamas ta pačia koncentracija (100 μM) šešių kopijų. Tik keli nanogramai kiekvieno glikano yra susieti su stikleliu taško skersmenyje
100 mikronų. GAL failą, kuris yra a.txt failas, identifikuojantis kiekvienos dėmės vietą mikromasyvoje, apibrėžiantis kiekvieną mikromasyvą ir leidžiantis glikano tašką sulygiuoti su fluorescenciniais GBP surišimo vaizdais. Atspausdintos glikano mikrogardelės yra stabilios ir laikomos išdžiovintos kambario temperatūroje.
19.1 pav. Glikaną surišančio baltymo (GBP) analizė apibrėžtų glikanų mikromasyvuose. (A) Apibrėžti glikanai, atspausdinti ir kovalentiškai sujungti su aktyvuotomis stiklinėmis plokštelėmis, yra apklausiami naudojant biotiniluotą GBP ir aptinkami antrame etape su cianinu5 pažymėtu streptavidinu. (B) Alternatyvios GBP aptikimo mikromatricoje strategijos. (C) Apskaičiuojamas vidutinis RFU, susidaręs kartotinių dėmių fluorescencinio skenavimo proceso metu, o duomenys pateikiami kaip fluorescencijos intensyvumo arba santykinių fluorescencijos vienetų (RFU) histogramos su standartiniu nuokrypiu arba standartine paklaida, nurodyta klaidų juostose.
Rezultatai ir DISKUSIJA
Hipotetinis scenarijus
Apskaičiuoti normalizavimo veiksniai turėtų užtikrinti, kad genas, turintis tą patį ekspresijos lygį dviejuose mėginiuose, nebūtų aptiktas kaip DE. Norėdami dar labiau pabrėžti sudėtingesnių RNR-seq duomenų normalizavimo procedūrų poreikį, apsvarstykite paprastą minties eksperimentą. Įsivaizduokite, kad turime sekos nustatymo eksperimentą, kuriame lyginamos dvi RNR populiacijos – A ir B. Šiame hipotetiniame scenarijuje, tarkime, kiekvienas genas, išreikštas B, yra išreikštas A su tuo pačiu transkriptų skaičiumi. Tačiau tarkime, kad A pavyzdyje taip pat yra vienodo skaičiaus ir išraiškos genų, kurie nėra išreikšti B, rinkinys. Taigi A pavyzdyje yra dvigubai daugiau išreikštų genų nei mėginyje B, tai yra, jo RNR gamyba yra dvigubai didesnė už Pavyzdys B. Tarkime, kad kiekvienas mėginys yra sekvenuojamas tokiu pačiu gyliu. Be jokio papildomo koregavimo genas, išreikštas abiejuose mėginiuose, turės vidutiniškai pusę A pavyzdžio skaitymų skaičiaus, nes rodmenys yra paskirstyti dvigubai daugiau genų. Todėl teisingas normalizavimas pakoreguotų A pavyzdį 2 koeficientu.
Aukščiau pateiktame hipotetiniame pavyzdyje pabrėžiama mintis, kad skaitymų dalis, priskirta tam tikram genui bibliotekoje, priklauso nuo viso mėginio ekspresijos savybių, o ne tik nuo to geno ekspresijos lygio. Akivaizdu, kad aukščiau pateiktas pavyzdys yra dirbtinis. Tačiau yra biologinių ir net techninių situacijų, kai toks normalizavimas reikalingas. Pavyzdžiui, jei RNR mėginys yra užterštas, užteršimą atspindintys rodmenys pašalins tikrojo mėginio skaitymus, taip sumažindami dominančių skaitymų skaičių ir kompensuodami kiekvieno geno proporciją. Tačiau, kaip parodome, tikrieji biologiniai RNR sudėties skirtumai tarp mėginių bus pagrindinė normalizavimo priežastis.
Atrankos sistema
Formalesniame normalizavimo reikalavimo paaiškinime naudojama tokia sistema. Apibrėžkite Y gkkaip pastebėtas geno skaičius g bibliotekoje k apibendrinti iš neapdorotų skaitymų, μ gkkaip tikrasis ir nežinomas išraiškos lygis (transkriptų skaičius), L gkaip geno ilgis g ir N kkaip bendras bibliotekos skaitymų skaičius k. Galime modeliuoti numatomą vertę Y gkkaip:
S kreiškia bendrą mėginio RNR išeigą. RNA-seq duomenų analizės problema yra ta, kad nors N kyra žinomas, S kyra nežinomas ir gali labai skirtis priklausomai nuo RNR sudėties. Kaip minėta pirmiau, jei populiacija turi didesnę bendrą RNR išeigą, RNA-seq eksperimentuose daugelis genų bus nepakankamai paimti, palyginti su kitu mėginiu.
Šiame etape paliekame anksčiau pateikto modelio dispersiją Y gknepatikslinta. Priklausomai nuo eksperimentinės situacijos, Puasonas atrodo tinkamas techniniams pakartojimams [6, 7], o neigiamas binominis gali būti tinkamas papildomam pokyčiui, pastebėtam iš biologinių pakartojimų [14]. Taip pat verta paminėti, kad praktiškai L gpaprastai absorbuojamas į μ gkparametras ir nėra naudojamas išvadų procedūroje. Tačiau buvo gerai nustatyta, kad genų ilgio šališkumas yra ryškus genų ekspresijos analizėje [15].
M reikšmių normalizavimo metodo apkarpytas vidurkis
Bendra RNR gamyba, S k, negali būti įvertintas tiesiogiai, nes nežinome kiekvieno geno ekspresijos lygių ir tikrojo ilgio. Tačiau santykinė dviejų mėginių RNR gamyba, f k = S k/S k' , iš esmės visuotinį lenkimo pokytį, galima lengviau nustatyti. Mes siūlome empirinę strategiją, kuri prilygina bendrus genų ekspresijos lygius tarp mėginių, darant prielaidą, kad dauguma jų nėra DE. Vienas paprastas, bet patikimas būdas įvertinti RNR gamybos santykį yra naudojamas svertinis sumažintas log ekspresijos santykio vidurkis (apkarpytas M verčių vidurkis (TMM)). Duomenų sekos nustatymui mes apibrėžiame genų loginius kartos pokyčius kaip:
ir absoliutūs išraiškos lygiai:
Norėdami tiksliai apibendrinti pastebėtas M reikšmes, prieš imdami svertinį vidurkį sumažiname ir M, ir A reikšmes. Tikslumo (atvirkštinio dispersijos) svoriai naudojami siekiant atsižvelgti į tai, kad logaritminiai kartos pokyčiai (veiksmingai loginė santykinė rizika) iš genų, kurių skaitymo skaičius didesnis, turi mažesnę dispersiją logaritmo skalėje. Daugiau informacijos rasite skyriuje Medžiagos ir metodai.
Dviejų imčių palyginimui naudojamas tik vienas santykinis mastelio koeficientas (f k) būtina. Jį galima naudoti norint koreguoti abu bibliotekos dydžius (padalyti nuorodą iš ir padauginti ne nuorodą iš ) atliekant statistinę analizę (pavyzdžiui, Fišerio tikslus testas, jei reikia daugiau informacijos, žr. Medžiagos ir metodai).
Kelių mėginių normalizavimo koeficientus galima apskaičiuoti pasirinkus vieną pavyzdį kaip atskaitą ir apskaičiuojant TMM koeficientą kiekvienam ne etaloniniam mėginiui. Panašiai kaip dviejų imčių palyginimai, TMM normalizavimo koeficientai gali būti įtraukti į statistinį modelį, naudojamą DE testavimui. Pavyzdžiui, Puasono modelis pakeistų stebimą bibliotekos dydį iki efektyvaus bibliotekos dydžio, kuris pakoreguotų modeliuojamą vidurkį (pavyzdžiui, naudojant papildomą poslinkį apibendrintame tiesiniame modelyje, daugiau informacijos rasite skyriuje Medžiagos ir metodai).
Kepenų ir inkstų duomenų rinkinys
Savo metodą pritaikėme viešai prieinamam transkripcijos profiliavimo duomenų rinkiniui, lygindami keletą techninių kepenų ir inkstų RNR šaltinio kopijų [6]. 1a paveiksle parodytas M verčių pasiskirstymas tarp dviejų techninių inkstų mėginio pakartojimų po standartinės normalizavimo procedūros, atsižvelgiant į bendrą skaitymų skaičių. Šių techninių pakartojimų M verčių pasiskirstymas yra apie nulį. Tačiau 1b paveiksle parodyta, kad kepenų ir inkstų mėginių loginiai santykiai yra žymiai kompensuojami siekiant didesnės ekspresijos inkstuose, net ir įvertinus bendrą skaitymų skaičių. Taip pat paryškintas (žalia linija) yra stebimų M reikšmių pasiskirstymas pagal namų ūkio genų rinkinį, rodantis reikšmingą poslinkį nuo nulio. Jei mastelis pagal bendrą skaitymų skaičių tinkamai normalizavo RNR seką, toks log-kartų pokyčio pokytis nesitikimas. Šio šališkumo paaiškinimas yra paprastas. M ir A diagrama 1c paveiksle rodo, kad egzistuoja ryškus genų rinkinys, turintis didesnę ekspresiją kepenyse (juoda rodyklė). Dėl to M reikšmių pasiskirstymas (kepenys ir inkstai) yra iškreiptas neigiama kryptimi. Kadangi šiems kepenims būdingiems genams skirta daug sekos nustatymo, likusių genų sekos nustatymas yra mažesnis, todėl proporcingai iškreipiamos M reikšmės (taigi ir DE ragina), kad jos būtų specifinės inkstams.
RNR-seq duomenims reikia normalizuoti. Duomenys iš [6], lyginant log koeficientus a) techninių kopijų ir b) kepenų ir inkstų ekspresijos lygiai, pakoregavus pagal bendrą kiekvieno mėginio skaitymų skaičių. Žalia linija rodo išlygintą namų tvarkymo genų log-kartų pokyčių pasiskirstymą. c) M ir A diagrama, lyginant kepenis ir inkstus, rodo aiškų poslinkį nuo nulio. Žali taškai rodo 545 namų tvarkymo genus, o žalia linija reiškia vidutinį namų tvarkymo genų logaritmą. Raudona linija rodo apskaičiuotą TMM normalizavimo koeficientą. Oranžinių taškų tepinėlis išryškina genus, kurie buvo pastebėti tik viename iš kepenų ar inkstų audinių. Juoda rodyklė pabrėžia iškilių genų rinkinį, kuris daugiausia yra susijęs su bendru logaritminių kartų pokyčiu.
Taikant TMM normalizavimą šiai mėginių porai, normalizavimo koeficientas yra 0, 68 (-0, 56 log2 skalėje, parodyta raudona linija 1b, c paveikslėlyje), o tai rodo, kad daugumos kepenų genų atranka yra nepakankama. TMM faktorius yra tvirtas mažesnės aprėpties duomenims, kai galima tikėtis daugiau genų, kurių skaičiai nuliniai (S1a paveikslas papildomame faile 1), ir yra stabilus pagrįstoms apdailos parametrų vertėms (S1b paveikslas 1 papildomame faile). Naudojant TMM normalizavimą statistiniame DE teste (žr. Medžiagos ir metodai), gaunamas panašus genų skaičius, žymiai didesnis kepenyse (47 %) ir inkstuose (53 %). Priešingai, standartinis normalizavimas (į bendrą skaitymų skaičių, kaip iš pradžių buvo naudojamas [6]) lemia, kad daugumoje DE genų inkstuose yra daug daugiau (77%). Pažymėtina, kad mažiau nei 70% genų, identifikuotų kaip DE, naudojant standartinį normalizavimą, vis dar aptinkami po TMM normalizavimo (1 lentelė). Be to, mes pastebime, kad didelio namų tvarkymo genų rinkinio (nuo [16]) logaritminiai pokyčiai yra vidutiniškai kompensuojami nuo nulio, labai artimi apskaičiuotam TMM faktoriui, todėl mūsų patikima įvertinimo procedūra yra patikima. Be to, naudojant nekoreguotą testavimo procedūrą, atitinkamai 8% ir 70% namų tvarkymo genų yra žymiai sureguliuoti kepenyse ir inkstuose. Po TMM koregavimo DE namų tvarkymo genų dalis pasikeičia atitinkamai iki 26% ir 41%, o tai yra mažesnis bendras skaičius ir simetriškesnis tarp dviejų audinių. Žinoma, RNR-seq duomenų logaritminių santykių poslinkis nėra stebimas mikromatricos duomenyse (iš tų pačių RNR šaltinių), darant prielaidą, kad mikrogardelių duomenys buvo tinkamai normalizuoti (S2 paveikslas 1 papildomame faile). Visi šie rezultatai rodo svarbų vaidmenį normalizuojant RNR-seq duomenis.
Kiti duomenų rinkiniai
Pasaulinis log-kartų pokyčio pokytis, kurį sukelia RNR sudėties skirtumai, vyksta įvairiais laipsniais kituose RNR-seq duomenų rinkiniuose. Pavyzdžiui, M ir A siužetas kloonui ir kt. [12] duomenų rinkinys (S3 pav. 1 papildomame faile) pateikia apskaičiuotą TMM mastelio koeficientą 1,04 tarp dviejų mėginių (embrioninių kūnų ir embrioninių kamieninių ląstelių), sekvenuotų SOLiD™ sistemoje. Šio duomenų rinkinio M ir A diagrama taip pat išryškina įdomų genų rinkinį, kurio bendra ekspresija mažesnė, bet didesnė embriono kūnuose. Tai paaiškina teigiamą likusių genų log-kartų pokyčių pokytį. TMM masto koeficientas atrodo artimas vidutiniams log-kartų pokyčiams tarp maždaug 500 pelių namų tvarkymo genų rinkinio (iš [17]). Kitas pavyzdys – Li ir kt. [18] duomenų rinkinys, naudojant llumina 1G genomo analizatorių, rodo bendrą log-karto pokyčių pasiskirstymą ir suteikia TMM mastelio koeficientą 0,904 (S4 pav. 1 papildomame faile). Tačiau yra seka pagrįstų duomenų rinkinių, kurių RNR išvestis yra gana panaši ir kurių gali nereikėti reikšmingo koregavimo. Pavyzdžiui, mažos RNR-seq duomenys iš Kuchenbauer ir kt. [19] rodo tik nedidelį log-fold-pokyčių poslinkį (S5 pav. 1 papildomame faile).
Spike-in valdikliai gali būti naudojami normalizavimui. Pagal šį scenarijų į kiekvieną mėginį tam tikra koncentracija pridedama nedideli, bet žinomi RNR kiekiai iš svetimo organizmo. Norint normalizuoti smailės kontrolės priemones, smailės koncentracijos ir mėginio santykis turi būti pastovus viso eksperimento metu. Praktiškai tai sunku pasiekti, o nedideli skirtumai lems šališką normalizavimo koeficiento įvertinimą. Pavyzdžiui, naudojant DNR iš Mortazavi ir kt. duomenų rinkinys [11] lemtų nerealius normalizavimo koeficiento įverčius (S6 pav. 1 papildomame faile). Kaip ir naudojant mikromasyvus, paprastai yra patikimiau kruopščiai įvertinti normalizavimo koeficientus naudojant eksperimentinius duomenis (pavyzdžiui, [20]).
Modeliavimo studijos
Norėdami ištirti TMM normalizavimo metodo naudingumo diapazoną, sukūrėme modeliavimo sistemą, skirtą ištirti RNR sudėties poveikį RNR-seq duomenų DE analizei. Norėdami pradėti, modeliuojame duomenis tik iš dviejų bibliotekų. Mes įtraukiame kiekvieno mėginio unikaliai išreikštų genų skaičiaus parametrus ir skirtingai išreikštų genų proporcijos, dydžio ir krypties parametrus tarp mėginių (žr. Medžiaga ir metodai). 2a paveiksle parodytas tipiško modeliavimo, įskaitant unikalius genus ir DE genus, M ir A diagrama. Imituojant skirtingus bendrus RNR išėjimus, dauguma ne DE genų turi logaritminius pokyčius, kurie yra kompensuojami nuo nulio. Šiuo atveju naudojant TMM normalizavimą, kad būtų atsižvelgta į pagrindinę RNR sudėtį, naudojant Fišerio tikslų testą gaunamas mažesnis klaidingų aptikimų skaičius (2b pav.). Kartodami modeliavimą daug kartų įvairiais modeliavimo parametrais, mes gerai sutariame lygindami tikruosius normalizavimo koeficientus iš modeliavimo su tais, kurie buvo įvertinti naudojant TMM normalizavimą (S7 paveikslas 1 papildomame faile).
Modeliavimas rodo, kad TMM normalizavimas yra patikimas ir pranoksta bibliotekos dydžio normalizavimą. a) Modeliavimo rezultatų pavyzdys, rodantis normalizavimo poreikį dėl viename mėginyje unikaliai išreikštų genų (oranžiniai taškai) ir asimetrinio DE (mėlyni taškai). b) Naudojant TMM normalizavimą, stebimas mažesnis klaidingai teigiamų rezultatų rodiklis, palyginti su standartiniu normalizavimu.
Norėdami toliau palyginti TMM normalizavimo našumą su anksčiau taikytais metodais RNR-seq duomenų DE analizės kontekste, išplečiame aukščiau pateiktą modeliavimą, įtraukdami pakartotinius sekos paleidimus. Konkrečiai, lyginame tris paskelbtus metodus: pagal ilgį normalizuotus skaičiavimo duomenis, kurie buvo transformuoti loginiu būdu, ir kvantilinius normalizuotus, kaip įgyvendino Cloonan. ir kt. [12], Puasono regresija [6] su bibliotekos dydžiu ir TMM normalizavimu ir Puasono tikslus testas [8] su bibliotekos dydžiu ir TMM normalizavimu. Mes tiesiogiai nelyginame su Balwierz pasiūlytu normalizavimu ir kt. [13], nes atrodo, kad kepenų ir inkstų duomenų rinkinys nesilaiko galios dėsnio pasiskirstymo ir turi gana skirtingą skaičių pasiskirstymą (S8 pav. 1 papildomame faile). Be to, atsižvelgiant į mūsų stebimą RNR sudėties šališkumą, neaišku, ar skaičių pasiskirstymo lyginimas tarp mėginių yra logiškiausia procedūra. Be to, mes tiesiogiai nelyginame normalizavimo su virtualiu ilgiu [2] ar RPKM [11] normalizavimu, nes nebuvo paminėta transformuotų duomenų statistinė analizė. Tačiau mes iliustruojame su M ir A diagramomis, kad jų normalizavimas visiškai nepašalina RNR sudėties paklaidų (S9 ir S10 paveikslai 1 papildomame faile).
Modeliavimui naudojome empirinį bendrą genų ilgių ir skaičių pasiskirstymą, nes Cloonan ir kt. procedūra reikalauja abiejų. Modeliavimo duomenis padarėme Puasono būdu, kad imituotų techninius pakartojimus (S11 pav. 1 papildomame faile). 3a paveiksle pavaizduoti klaidingi atradimų grafikai tarp genų, kurie yra bendri abiem sąlygoms, kur įvedėme 10% unikalios grupės išraišką pirmajai sąlygai, 5% DE 2 kartus, iš kurių 80% yra didesnė pirma sąlyga. Metodas, kuriame naudojama metodika, sukurta mikromatricos duomenims, veikia vienodai blogiau, kaip ir galima tikėtis, nes šių metodų paskirstymo prielaidos yra gana skirtingos. Tarp likusių metodų (Puasono tikimybės santykio statistika, Puasono tiksli statistika) našumas vėl labai panašus, TMM normalizavimas žymiai pagerina abu.
Klaidingi atradimų planai, lyginant kelis paskelbtus metodus. Raudona linija vaizduoja pagal ilgį normalizuotą moderuotą t statistikos analizę. Ištisinės ir punktyrinės linijos rodo atitinkamai normalizuotą bibliotekos dydį ir TMM normalizuotą Puasono modelio analizę. Mėlynos ir juodos linijos žymi atitinkamai LR testą ir tikslų testą. Galima pastebėti, kad naudojant TMM normalizavimą gaunamas daug mažesnis klaidingų atradimų dažnis.
Išvados
Ištisų genomų sekos nustatymas ir technologijų, galinčių vienu metu išmatuoti tūkstančių genų raišką, įdiegimas suteikia biologiniams tyrimams pasaulinę perspektyvą, kuri prieštarauja pastarųjų dešimtmečių tendencijai susiaurėti iki labai specializuotų tyrimų sričių. Tačiau norint, kad mokslininkai galėtų optimaliai išnaudoti šiuos neįkainojamus išteklius, būtina sukurti kasybos įrankius, skirtus duomenims tyrinėti ir interpretuoti per laikotarpį, suderinamą su įspūdingu jų generavimo greičiu. Individualios žinios grindžiamos asociacijomis, kurias sudaro informacija, kurią gauname iš literatūros. Čia aprašytas metodas imituoja šį mokymosi procesą, susiejant prasmingus terminus, rastus moksliniuose leidiniuose, kad būtų sukurtas nuoseklus santykių, egzistuojančių sudėtingose genų grupėse, vaizdas. Kadangi ši analizė atliekama nepriklausomai nuo žinių apie genų funkciją, ji suteikia galimybę greitai ir nešališkai ištirti sudėtingų ekspresijos duomenų biologinę reikšmę.
Ateities kryptys
Genetinių sutrikimų tyrimo praktika keičiasi nuo pavienių genų tyrimo atskirai iki ląstelių genų tinklų atradimo, sudėtingos jų sąveikos supratimo ir jų vaidmens ligoje nustatymo. 19 Dėl to atsiras visiškai naujas individualiai pritaikytos medicinos amžius. Bioinformatics will guide and help molecular biologists and clinical researchers to capitalise on the advantages brought by computational biology. 20 The clinical research teams that will be most successful in the coming decades will be those that can switch effortlessly between the laboratory bench, clinical practice, and the use of these sophisticated computational tools.