Informacija

Ryšio disbalansas GWAS

Ryšio disbalansas GWAS


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Matau, kad daugybė GWAS tyrimų neatskleidė jungčių pusiausvyros ir net apie tai neužsimena. Kodėl taip yra? Įsivaizduočiau, kad norite išlaikyti SNP, kurie yra tik jungties pusiausvyroje, kad skatintumėte nepriklausomybę (be to, be jo adityvus modelis neturi prasmės)


Viena iš galimų priežasčių nefiltruoti ryšio disbalanso yra sukurti smailes / smūgius su keliais SNP, taip aiškiai nurodant priežastinio genotipo regioną. Pavyzdžiui, žemiau esančiame Manheteno grafike kiekvienas taškas reiškia SNP, kuo aukštesnis jis yra diagramoje, tuo labiau jis susijęs su fenotipu. Matome, kad kiekvienoje smailėje keli taškai yra reikšmingi dėl ryšio disbalanso. Jei vietoj to būtume iš anksto išfiltravę visus šiuos punktus, tada smailė turi didesnį pasirinkimą, vaizduojanti tam tikros rūšies duomenų rinkimo klaidą, nes yra tam tikra tikimybė, kad kiekviename SNP yra tam tikra klaida, tačiau klaidos tikimybė nėra didelė. vykstantis in visi vienos smailės SNP.

Man neaišku, kodėl nenustačius jungties pusiausvyros, priedas ar bet koks modelis neveiks. Galų gale, GWAS yra tik regresijų tarp vieno SNP ir vieno fenotipo genotipų serija. Šioje vienoje SNP atskaitos sistemoje LD neturi įtakos beta versijų skaičiavimui. Tolinant, visi reikšmingi SNP turėtų būti sugrupuoti dėl LD, taip nurodant tik keletą regionų ir nepadidinant klaidingų klaidų dažnio.


Norint visiškai išspręsti žmonių populiacijų jungčių pusiausvyros struktūrą, reikalingos visos genomo sekos

Žmogaus genomo jungčių disbalanso (LD) struktūrų supratimas yra daugelio medicininės genetikos pagrindas ir yra pagrindas ligos genų žemėlapiams sudaryti ir tirti biologinius mechanizmus, tokius kaip rekombinacija ir atranka. Viso genomo sekos nustatymas (WGS) suteikia galimybę nustatyti LD struktūras esant maksimaliai skiriamajai gebai.

Rezultatai

Lyginame LD žemėlapius, sudarytus iš WGS duomenų, su LD žemėlapiais, pagamintais iš masyvo pagrindu sukurto HapMap duomenų rinkinio, skirto reprezentatyvioms Europos ir Afrikos populiacijoms. WGS suteikia iki 5,7 karto didesnį SNP tankį nei masyvo duomenys ir pasiekia daug didesnę LD struktūros skiriamąją gebą, leidžiančią identifikuoti iki 2,8 karto daugiau intensyvios rekombinacijos sričių. Tai, kad nustatant variantų genotipą nėra šališkumo, pagerina WGS žemėlapių populiacijos reprezentatyvumą ir išryškina neužfiksuotų variacijų mastą naudojant masyvo genotipų nustatymo metodikas. Visiškas LD modelių fiksavimas naudojant WGS leidžia gauti didesnę viso genomo asociacijos tyrimo (GWAS) galią, palyginti su masyvo GWAS, o WGS taip pat leidžia analizuoti retus pokyčius. Žymeklių nustatymo problemų masyvuose poveikis buvo didžiausias Afrikos į pietus nuo Sacharos gyventojams, kur norint visiškai išspręsti LD struktūrą, reikia didesnių imčių dydžių ir žymiai didesnio žymenų tankio.

Išvados

WGS suteikia geriausią įmanomą LD kartografavimo šaltinį dėl maksimalaus žymenų tankio ir nustatymo šališkumo trūkumo. WGS LD žemėlapiai yra turtingas medicinos ir populiacijos genetikos tyrimų šaltinis. Didėjantis WGS duomenų prieinamumas didelėms populiacijoms leis patobulinti mokslinius tyrimus naudojant LD, pvz., GWAS ir rekombinacijos biologijos tyrimus.

Elektroninė papildoma medžiaga

Internetinėje šio straipsnio versijoje (doi:10.1186/s12864-015-1854-0) yra papildomos medžiagos, kuri yra prieinama įgaliotiems vartotojams.


Rezultatai

TWAS papildo GWAS

Lin ir kt. (2017) pranešė, kad kryžminio apdulkinimo kukurūzų rūšyse TWAS ir GWAS nustato papildomus su savybėmis susijusių kandidatų genų rinkinius. Norėdami išplėsti šias išvadas į savaime apdulkintas rūšis, GWAS ir TWAS atlikome nepriklausomai tam pačiam fenotipui, naudodami tą patį Arabidopsis įvairovės skydelį. Šiems palyginimams naudojami duomenys yra apibendrinti skyriuje „Medžiagos ir metodai“.

Mes pakartojome anksčiau paskelbtą vieno nukleotido polimorfizmu (SNP) pagrįstą GWAS žydėjimo laikui 16 ° C temperatūroje (FT16) 970 Arabidopsis priedų skydelyje ir aptikome tuos pačius du lokusus (Alonso-Blanco ir kt., 2016). ŽYDINTIS LOCUSAS C (AtFLC) ir DYGIMO ATLĖVIMAS1 (AtDOG1 1A pav.). Lygiagrečiai TWAS buvo atliktas šio skydelio prisijungimų pogrupyje, kuriam buvo prieinami tiek lapų audinio RNR-seq duomenys, tiek FT16 fenotipai (N = 690 pavyzdžių). Ši analizė nustatė 14 su savybėmis susijusių genų (1B pav., 1 lentelė), įskaitant tik vieną iš dviejų genų, nustatytų per GWAS, AtFLC. Nors kitas genas, susijęs su FT16 per GWAS, AtDOG1, yra išreikštas lapų audinyje, jis nebuvo susijęs su žydėjimo laiku per TWAS. Iš viso 6 iš 14 su savybėmis susijusių genų iš TWAS yra įtraukti į FLOR-ID duomenų bazę (Bouché ir kt., 2016), kurioje yra 306 rankomis kuruoti su žydėjimu susiję Arabidopsis genai. Tai iš esmės sutampa, nei tikėtasi atsitiktinai (vienpusis Fišerio tikslus testas P-reikšmė 5E-8). 2 Mb languose, kurių centre yra keturi iš šių genų, nėra jokių papildomų su savybėmis susijusių genų (1C pav.). Du iš šešių genų (AGAMOUS-LIKE16 [AtAGL16] ir SQUAMOSA PROMOTER BINDING PROTEIN-LIKE15 [AtSPL15]) yra atskirti tik 263 kb, tačiau žinoma, kad abu yra susiję su žydėjimo laiku (1C pav., 1 lentelė). Penki iš šių šešių genų koduoja transkripcijos faktorius. Keturios iš jų turi reguliavimo sąveiką. CO1 PEREKŠĖS IŠRAIŠKOS SUPRESSORIUS (AtSOC1 klaidingų atradimų dažnis [FDR] 2.6E-06) ir AtSPL15 (FDR 4.9E-03) reglamentuoja AtFLC (FDR 4.5E-23) ir AGAMOUS-LIKE24 (AtAGL24 FDR 1.1E-02) sąveikauja su AtSOC1 (Papildomas S1 paveikslas).

GWAS ir TWAS iš Arabidopsis FT16. Manheteno GWAS (A) ir TWAS (B) sklypai. Horizontalios punktyrinės linijos kiekviename skydelyje žymi 0,05 FDR reikšmės ribą. Kiekvienas taškas žymi vieną SNP GWAS ir vieną geną TWAS diagramose. Taškai (A) ir (B) yra keturių skirtingų spalvų, kad galėtų pakaitomis per asociacijos tyrimus ir chromosomas. Šeši identifikuoti TWAS Genai, įtraukti į FLOR-ID duomenų bazę, pažymėti juodu tekstu su rodykle (B). C, 2 Mb langai sutelkti į kiekvieną iš šešių genų, nustatytų per TWAS, įtrauktų į FLOR-ID duomenų bazę. Kiekvienas taškas reiškia vieną geną. Centruoti genai yra paryškinti raudonai ir pažymėti raudonu tekstu, o kiti svarbūs genai pažymėti juodu tekstu.

GWAS ir TWAS iš Arabidopsis FT16. Manheteno GWAS (A) ir TWAS (B) sklypai. Horizontalios punktyrinės linijos kiekviename skydelyje žymi 0,05 FDR reikšmės ribą. Kiekvienas taškas žymi vieną SNP GWAS ir vieną geną TWAS diagramose. Taškai (A) ir (B) yra keturių skirtingų spalvų, kad būtų galima pakaitomis per asociacijos tyrimus ir chromosomas. Šeši identifikuoti TWAS Genai, įtraukti į FLOR-ID duomenų bazę, pažymėti juodu tekstu su rodykle (B). C, 2 Mb langai sutelkti į kiekvieną iš šešių genų, nustatytų per TWAS, įtrauktų į FLOR-ID duomenų bazę. Kiekvienas taškas reiškia vieną geną. Centruoti genai yra paryškinti raudonai ir pažymėti raudonu tekstu, o kiti svarbūs genai pažymėti juodu tekstu.

Keturiolika Arabidopsis genai, susiję su žydėjimo laiku per TWAS

TWAS NS FDR, nereikšmingas.

Genai yra funkciškai susiję su žydėjimo laiku, tačiau neturi įrodymų, kad mutantai pakeistų žydėjimo laiką.

Keturiolika Arabidopsis genai, susiję su žydėjimo laiku per TWAS

TWAS NS FDR, nereikšmingas.

Genai yra funkciškai susiję su žydėjimo laiku, tačiau neturi įrodymų, kad mutantai pakeistų žydėjimo laiką.

Informacija apie kitus aštuonis su savybėmis susijusius genus, nustatytus naudojant TWAS, apibendrinta 1 lentelėje. FITOCHROMAS SĄVEIKANTIS FAKTORIUS3 (AtPIF3) lemia ankstyvą žydėjimą (Oda ir kt., 2004). Yra įrodymų, kad trys kiti su savybėmis susiję genai (ARABIDOPSIS CDK INHIBITORIUS1 [AtACK1], RNR HELIKAZĖ30 [AtRH30] ir VITAMINO C DEFEKTAS5 [AtVTC5]) dalyvauja žydėjimo reguliavimo tinkluose (Dowdle ir kt., 2007 Kotchoni ir kt., 2009 Duan ir kt., 2016 Mahrez ir kt., 2016 Szklarczyk ir kt., 2019). AtACK1 koduoja nuo ciklino priklausomą kinazės inhibitorių ir yra neigiamas ląstelių dalijimosi reguliatorius (Han ir kt., 2005). Jo ekspresija pakinta ankstyvo žydėjimo mutante BRR2a-T895I (Mahrez ir kt., 2016). Remiantis STRING duomenų baze (Szklarczyk ir kt., 2019), AtRH30 turi bent du numatomus žydėjimo „funkcinius partnerius“, SNW/SU SLIDŽIŲ SĄVEIKAS BALTYMAS ir GLICINE TURTINGAS BALTYMAS2. AtVTC5 koduoja guanozindifosfato (BVP)-l-galaktozės fosforilazę, reikalingą askorbo rūgšties biosintezei (Dowdle ir kt., 2007). Askorbo rūgštis gali paveikti Arabidopsis žydėjimo laiką (Kotchoni ir kt., 2009). Be to, AtVTC5 yra numanomas žydėjimo geno taikinys, AtFLC (Duanas ir kt., 2016). Mes nenustatėme įrodymų, siejančių likusius keturis genus su žydėjimo laiku.

Siekiant teisingai palyginti GWAS ir TWAS, buvo atlikti asociacijos tyrimai su Arabidopsis mėginių pogrupiu, kurio genotipai, ekspresijos duomenys ir fenotipiniai duomenys buvo prieinami.N = 631). Naudodamiesi šiais duomenimis, GWAS ir TWAS nustatė atitinkamai 1 lokusą ir 10 genų, susijusių su FT16 (papildomas S2 paveikslas, 1 lentelė). Išvada, kad daugelis (1/1 iš GWAS ir 7/10 iš TWAS) šių su savybėmis susijusių genų gali būti susieti su žydėjimo laiku, atlikus nepriklausomus tyrimus, rodo, kad abu metodai nustato tikrus teigiamus rezultatus dideliu greičiu.

Siekiant išplėsti šias išvadas, buvo atlikti papildomi TWAS penkiems labai koreliuojantiems vystymosi požymiams (trys žydėjimo laikui ir du lapų skaičiui), naudojant Grimm ir kt. (2017). Mėginių, turinčių fenotipines vertes, genotipą ir ekspresijos lygius, skaičius svyruoja nuo 574 iki 620, priklausomai nuo bruožo (papildoma lentelė S1). Visuose penkiuose požymiuose TWAS nustatė 41 su bruožu susijusį geną, sudarytą iš 16 unikalių genų, naudojant FDR ribą 0,05 (papildoma lentelė S1). Dešimt iš šių 16 genų taip pat buvo identifikuoti FT16 TWAS. Vienas iš likusių šešių genų yra ŽYDINTIS LOCUS T (AtFT AT1G65480), kuris buvo susietas su rozetės lapo (RL) numeriu AtFT mutantai turi padidėjusį lapų skaičių (Onouchi ir kt., 2000). Žinomų su žydėjimu susijusių genų, nustatytų TWAS, skaičius svyravo nuo 4 iki 6 / bruožas (papildoma lentelė S1). Nenuostabu, kad su žydėjimu susiję genai buvo susieti su lapų skaičiumi, nes šie du bruožai labai ir teigiamai koreliuoja su Arabidopsis žydėjimo laiku (Piñeiro ir Coupland, 1998 Grimm ir kt., 2017). Atitinkama GWAS (papildoma lentelė S1) nustatė penkis unikalius lokusus, įskaitant AtDOG1. Nė vienas iš šių kandidatų genų nesutapo su tais, kurie buvo nustatyti per TWAS (papildomas S3 paveikslas). Naudojant pavyzdžių superrinkinį (N = 860–936, turintys genotipą, bet ne ekspresijos duomenis), Grimm ir kt. (2017) identifikavo per GWAS 30 kandidatų genų šiems 5 požymiams. Tik vienas iš šių, AtFLC, taip pat buvo nustatytas per TWAS. Labai ribotas su savybėmis susijusių genų iš GWAS ir TWAS sutapimas, susijęs su šiais penkiais Arabidopsis vystymosi bruožais, papildomai palaiko šių metodų papildomumą savidulkėje.

TWAS yra mažiau paveiktas LD nei GWAS

GWAS išnaudoja LD tarp žymeklių ir funkcinių variacijų. Rūšių, kurių LD yra didelis, žymenys dažnai yra glaudžiai susiję su keliais genais. Tokiais atvejais dažnai sunku vienareikšmiškai susieti vieną priežastinį geną su bruožu (Atwell ir kt., 2010). Norėdami patikrinti, ar TWAS gali įveikti šį iššūkį rūšims, turinčioms didelį LD lygį, atlikome GWAS ir TWAS, kad nustatytų sojų pupelių brendimo spalvą, kurios vidutinis LD yra ~100 kb (Zhou ir kt., 2015).

Duomenų apie brendimo spalvos bruožus buvo 75 iš 102 sojų pupelių linijų, kurių ekspresijos duomenys ir SNP genotipai buvo prieinami (papildoma S2 lentelė). Šios eilutės buvo rudos spalvos (N = 34) arba pilka (N = 41) brendimo spalva. The T lokusas (Glyma.06g202300), kuris kontroliuoja brendimo spalvą (Toda ir kt., 2002), koduoja flavonoidinę 3′-hidroksilazę (F3′H). Dominuojantis (T) ir recesyvinis (t) aleliai suteikia atitinkamai gelsvą ir pilką spalvą. GWAS (2A pav.) ir TWAS (2B pav.) buvo atlikti atskirai brendimo spalvai, naudojant palyginamus statistinius metodus.

Sojų pupelių brendimo spalvos analizė naudojant GWAS ir TWAS. Manheteno GWAS (A) ir TWAS (B) sklypai. Horizontalios punktyrinės linijos žymi 0,05 FDR reikšmės ribą. Kiekvienas taškas žymi vieną SNP GWAS ir vieną geną TWAS diagramose. Žinomas priežastinis lokusas (T) yra paryškintas. Aplinkiniai regionai T GWAS ir TWAS analizių genas yra padidintas atitinkamai (C) ir (D) dalyse. Raudoni taškai šiose plokštėse nurodo svarbiausią su savybėmis susijusį SNP (C) ir geną (D) kiekvienoje analizėje. (D) priežastinis genas, T, yra pažymėtas, o rodyklės nurodo genų transkribavimo kryptis. Pilkos rodyklės žymi genus, kurie nėra išreikšti TWAS naudojamuose RNR mėginiuose. E, smuiko siužetai ir raiškos dėžutės siužetai T genas sojų pupelių linijose, turinčiose pilką ir rudą brendimą. Išraiškos vienetas yra TPM. Smuiko brėžiniai rodo tikimybių tankio kreives T išraiška dviejose sojos pupelių linijų grupėse, kreivės plotis atitinka apytikslį išraiškos reikšmių dažnį kiekviename regione. Dėžutės diagramos langelyje rodoma 25–75 procentilių juoda linija langelyje, rodoma, kad vidutiniai ūsai reiškia 1,5 karto didesnius tarpkvartilių diapazono taškus, kurie reiškia išskirtines vertes.

Sojų pupelių brendimo spalvos analizė naudojant GWAS ir TWAS. Manheteno GWAS (A) ir TWAS (B) sklypai. Horizontalios punktyrinės linijos žymi 0,05 FDR reikšmės ribą. Kiekvienas taškas žymi vieną SNP GWAS ir vieną geną TWAS diagramose. Žinomas priežastinis lokusas (T) yra paryškintas. Aplinkiniai regionai T GWAS ir TWAS analizių genas yra padidintas atitinkamai (C) ir (D) dalyse. Raudoni taškai šiose plokštėse nurodo svarbiausią su savybėmis susijusį SNP (C) ir geną (D) kiekvienoje analizėje. (D) priežastinis genas, T, yra pažymėtas, o rodyklės nurodo genų transkribavimo kryptis. Pilkos rodyklės žymi genus, kurie nėra išreikšti TWAS naudojamuose RNR mėginiuose. E, smuiko siužetai ir raiškos dėžutės siužetai T genas sojų pupelių linijose, turinčiose pilką ir rudą brendimą. Išraiškos vienetas yra TPM. Smuiko brėžiniai rodo tikimybių tankio kreives T išraiška dviejose sojos pupelių linijų grupėse, kreivės plotis atitinka apytikslį išraiškos reikšmių dažnį kiekviename regione. Dėžutės diagramos langelyje rodoma 25–75 procentilių juoda linija langelyje, rodoma, kad vidutiniai ūsai reiškia 1,5 karto didesnius tarpkvartilių diapazono taškus, kurie reiškia išskirtines vertes.

GWAS aptiko 80 su savybėmis susijusių SNP, apimančių ∼ 1,4 Mb intervalą (Chr06: 17 632 002–19 029 221), apimančius 68 anotuotus genus, iš kurių vienas yra T lokusas. Per šį intervalą SNP su mažiausiu FDR (Chr06-18468010) yra 263 kb prieš srovę T lokusas (Glyma.06g202300 2C pav.). Panašiai trys ankstesni GWAS pranešė apie reikšmingiausią SNP esantį ~ 100–600 kb atstumu nuo T lokusas ir susiję SNP apėmė 2–4 Mb intervalus, naudojant įvairovės plokštes nuo 139 iki 12 360 eilučių (Sonah ir kt., 2015 Wen ir kt., 2015 Bandillo ir kt., 2017). Kitas su bruožu susijęs signalas, aptiktas mūsų GWAS (Chr06: 165–167 Mb), anksčiau nebuvo susijęs su šiuo gerai ištirtu bruožu.

Priešingai nei rezultatai, gauti naudojant GWAS, T genas buvo vienintelis su bruožu susijęs genas, kurį identifikavo TWAS per 1,4 Mb intervalą, apibrėžtą GWAS smūgiais (2D pav.). T pasižymi reikšminga diferencine genų ekspresija (Welch two Sample t bandymas, P-reikšmė 8E-7) tarp pilkų ir gelsvų linijų (2E pav.). Taigi, nepaisant didelio vietinio LD (vidutinis porinis LD tarp šių 80 su savybėmis susijusių SNP yra 0,8), TWAS teisingai nustatė priežastinį geną (T) susijusi su brendimo spalva.

Kaip aptarta aukščiau, LD skilimo modelis turi įtakos SNP pagrindu veikiančios GWAS skiriamajai galiai. Panašiai, TWAS skiriamoji geba būtų apribota, jei gretimų genų ekspresijos modeliai būtų labai koreliuojami, o tai gali sukelti klaidingai teigiamus signalus, kaip buvo pranešta žmogaus TWAS (Wainberg ir kt., 2019 Mancuso ir kt., 2019). . Mes (Lin ir kt., 2017 Zheng ir kt., 2020) ir kiti (Kremlng ir kt., 2019) šios problemos kukurūzuose nepastebėjome. Jei kaimyninių Arabidopsis genų ekspresijos modeliai būtų labai koreliuojami, tikėjomės nustatyti daug glaudžiai susijusių genų, susijusių su naujai analizuotais šios rūšies vystymosi požymiais (ty žydėjimo laiku ir lapų skaičiumi). Tačiau taip nebuvo. Todėl šie duomenys rodo, kad TWAS yra mažiau paveiktas LD nei GWAS, net ir didelės LD rūšyse.

Audinių atrankos poveikis TWAS

Genų ekspresijos modeliai skiriasi organuose, audiniuose, aplinkoje ir vystymosi stadijose, todėl kyla klausimas, ar svarbu nustatyti tinkamą RNR-seq šaltinį, kad būtų galima atlikti TWAS tam tikram požymiui. Norėdami išspręsti šį klausimą, naudojome RNA-seq duomenis iš septynių kukurūzų audinių, gautų iš kukurūzų inbredų įvairovės grupės (Kremlng ir kt., 2018), kad atliktume TWAS kokybinei endospermo spalvai nustatyti. Endospermo spalvos fenotipai galimi 229 iš 300 inbredų šioje grupėje (papildomos lentelės S3 ir S4). The geltonas endospermas1 (y1) ir baltas dangtelis1 (wc1) genai, kurie, kaip žinoma, reguliuoja endospermo spalvą (Buckner ir kt., 1996 Tan ir kt., 2017), šiame tyrime analizuotuose genotipuose ir audiniuose turi skirtingus ekspresijos modelius (3 pav.).

Audinių šaltinio poveikis TWAS rezultatams kukurūzų endospermo spalvai. A, Manheteno TWAS diagramos, atliktos kukurūzų endospermo spalvai kiekviename iš septynių audinių, kiekvienas taškas reiškia vieną geną. Šalia esantys pilki taškai wc1 paskirti GRMZM2G089421. Horizontalios punktyrinės linijos žymi 0,05 FDR reikšmės ribą. Raudoni ir mėlyni trikampiai žymi žinomus priežastinius lokusus, y1 ir wc1, atitinkamai. Išraiškos lygių skirstiniai y1 (B) ir wc1 (C) genai inbredinėse linijose su geltonais (geltonais) ir baltais (pilkiais) endospermais. Tankio diagramos rodo tikimybės tankį kiekviename dažnių juostos plotyje. Tankių suma × pralaidumas lygi 1.

Audinių šaltinio poveikis TWAS rezultatams kukurūzų endospermo spalvai. A, Manheteno TWAS diagramos, atliktos kukurūzų endospermo spalvai kiekviename iš septynių audinių, kiekvienas taškas reiškia vieną geną. Šalia esantys pilki taškai wc1 paskirti GRMZM2G089421. Horizontalios punktyrinės linijos žymi 0,05 FDR reikšmės ribą. Raudoni ir mėlyni trikampiai žymi žinomus priežastinius lokusus, y1 ir wc1, atitinkamai. Išraiškos lygių skirstiniai y1 (B) ir wc1 (C) genai inbredinėse linijose su geltonais (geltonais) ir baltais (pilkiais) endospermais. Tankio diagramos rodo tikimybės tankį kiekviename dažnių juostos plotyje. Tankių suma × pralaidumas lygi 1.

Tiek y1 ir wc1 genai buvo susieti su endospermo spalva per TWAS, naudojant branduolių ekspresijos duomenis (3A pav.). Panašūs rezultatai gauti naudojant raiškos duomenis iš lapų pagrindo. Be to, wc1 genas, bet ne y1 genas buvo susietas su endospermo spalva, kai buvo naudojami dviejų papildomų audinių – ūglio ir šaknies – ekspresijos duomenys. Įdomu tai, kad mūsų gebėjimas aptikti ryšį su y1 genas su endospermo spalva naudojant ekspresijos duomenis iš lapų pagrindo atsirado dėl to, kad, priešingai nei branduoliuose, inbred linijos, turinčios baltus endospermus, sukaupė daugiau y1 nuorašas lapų pagrindo audinyje nei tie, kurių endospermai buvo geltoni (3B pav.).

Norėdami išplėsti šį tyrimą, naudojome tuos pačius septynis išraiškos duomenų rinkinius, kad atliktume TWAS pagal žydėjimo laiko požymį, dienas iki antezės (DTA Peiffer ir kt., 2014). Inbredų, kurių ekspresijos duomenys ir fenotipai, skaičius svyravo nuo 191 iki 258, vidutiniškai 238 (papildoma lentelė S5). Iš viso 24 unikalūs genai buvo susieti su žydėjimo laiku per 7 TWAS su labiau atsipalaidavusiais P-1E-04 vertės ribą (4 paveikslas, papildoma lentelė S5). Viename ar keliuose iš septynių audinių buvo nustatyti keturi genai, kurie, kaip žinoma, veikia žydėjimo metu (Liang ir kt., 2019 Castelletti ir kt., 2020). MADS TRANSKRIPCIJOS FAKTORIUS69 (ZmMADS69) buvo nustatytas trijuose iš septynių audinių. Įdomu tai, kad nors ZmMADS69- reguliuojami genai, SUSIJĘS SU APETALA2.7 ir ZEA CENTRORADIALIS8, abu buvo identifikuoti naudojant išraiškos duomenis iš lapo galiuko, ZmMADS69 per se nebuvo nustatyta naudojant šį duomenų rinkinį. Bent vienas iš keturių žinomų su žydėjimu susijusių genų buvo aptiktas penkiuose iš septynių audinių, įskaitant šaknį ir branduolius, kurie nėra akivaizdžiai susiję su DTA bruožu. Du iš 24 genų (ZmMADS69 ir GRMZM2G430526) buvo identifikuoti penkių su DTA susijusių genų rinkinyje iš kito TWAS, kuris rėmėsi tais pačiais fenotipiniais duomenimis, bet nepriklausomais ekspresijos duomenimis (Lin ir kt., 2017). Tai daugiau sutampa, nei tikėtasi atsitiktinai (vienpusis tikslus Fišerio testas, P-reikšmė 2E-5). Išanalizavus ekspresijos duomenis iš kelių audinių, net kai kurie iš jų atrodo nesusiję su žydėjimu, aptiko papildomų lokusų, susijusių su DTA bruožu.

Kukurūzų genai, susiję su DTA per TWAS. A, Reguliavimo ryšiai tarp keturių žinomų žydėjimo genų (Liang ir kt., 2019 Castelletti ir kt., 2020) (B) 24 genai, nustatyti naudojant TWAS, nustatyti naudojant septynių audinių ekspresijos duomenis. Raudonosios ląstelės yra genai, kurie nurodytame ekspresijos duomenų šaltinyje buvo reikšmingai susiję su DTA bruožu. Reikšmingas P- nurodytos reikšmės. Pilkos ląstelės rodo testus, kurie nebuvo reikšmingi.

Kukurūzų genai, susiję su DTA per TWAS. A, Reguliavimo ryšiai tarp keturių žinomų žydėjimo genų (Liang ir kt., 2019 Castelletti ir kt., 2020) (B) 24 genai, nustatyti naudojant TWAS, nustatyti naudojant septynių audinių ekspresijos duomenis. Raudonosios ląstelės yra genai, kurie nurodytame ekspresijos duomenų šaltinyje buvo reikšmingai susiję su DTA bruožu. Reikšmingas P- nurodytos reikšmės. Pilkos ląstelės rodo testus, kurie nebuvo reikšmingi.

Norint toliau tirti nesusijusių audinių ekspresijos duomenų naudojimo poveikį, TWAS buvo atlikta 24 su karotinoidais susijusiems bruožams branduoliuose (Owens ir kt., 2014), naudojant kukurūzų sodinukų ekspresijos duomenis (Hirsch ir kt., 2014). Nors Owensas ir kt. duomenų rinkinyje yra karotinoidų koncentracijos daugiau nei 200 inbredų, Hirsch ir kt. buvo prieinami tik maždaug pusei šių mėginių (papildoma S6 lentelė). Naudojant šiek tiek atsipalaidavusį P- 1E-04 duomenų vertės ribą (žr. „Medžiagos ir metodai“), kad būtų galima kontroliuoti ribotą mėginių skaičių (∼ 100), 24 su karotinoidais susijusiems požymiams buvo nustatyta 16 unikalių su savybėmis susijusių genų (papildoma lentelė S6). . GRMZM2G143202 (LIUTEINO TRŪKUMAS1) turėjo reikšmingiausią P-reikšmė (t. y. 5E-6) ir koduoja citochromo P450 baltymą, reikalingą liuteino biosintezei (Tian ir kt., 2004). Kitas citochromo P450 šeimos genas, GRMZM2G013357 buvo susijęs su dviem karotinoidų savybėmis, "β-kriptoksantinu / zeaksantinu" ir "provitaminu A". GRMZM2G087207 dalyvauja hidroksimetilglutaril-CoA sintazės veikloje, kuri dalyvauja tiekiant β-karotino biosintezės pirmtaką (Qiang ir kt., 2020). Tik 1 iš 16 kandidatų genų, ty LIUTEINO TRŪKUMAS1, identifikuotas per TWAS, taip pat buvo aptiktas naudojant GWAS, pagrįstą tuo pačiu fenotipinių duomenų rinkiniu, bet naudojant duomenis iš beveik dvigubai daugiau inbredų (N = 210), nepaisant to, kad šis GWAS nustatė 58 kandidatų genus (Owens ir kt., 2014). Sėkmingas sėjinukų ekspresijos duomenų panaudojimas, siekiant nustatyti numanomai tikrus karotinoidų bruožų branduoliuose teigiamus rezultatus, dar labiau patvirtina mūsų išvadą, kad galima naudoti nesusijusių audinių ekspresijos duomenis, siekiant nustatyti priežastinius genus per TWAS.


Kaip tiksliai genomo masto asociacijos tyrimai (GWAS) gali padėti nustatyti daugelio faktorių ligų polinkius sukeliančius genus?

Šį požiūrį skatina naujos technologijos, leidžiančios vienu metu įvertinti dešimtis ar šimtus tūkstančių polimorfizmų, dažniausiai vieno nukleotido polimorfizmus (SNP). Šis metodas taikomas atvejų rinkiniui (asmenims, sergantiems liga) ir suderintų kontrolinių grupių rinkiniui, ir įvertinami SNP dažnių skirtumai tarp dviejų grupių, siekiant nustatyti SNP, kurie gali būti susiję su liga. Kadangi tiriama tiek daug SNP, padėtis statistiškai yra šiek tiek sudėtinga, nes kyla klaidingų teigiamų asociacijų pavojus, ty asociacijos, atsirandančios tik atsitiktinai, o ne dėl to, kad SNP yra susijęs su liga. Taigi apskritai reikšmingumas koreguojamas remiantis 5% „klaidingų atradimų dažniu“ – tai yra, iš visų SNP, vadinamų susijusiais su liga, tikimasi, kad tik 5% bus tikrai nesusiję SNP. atsitiktinai parodantis asociaciją pavyzdžiuose.


Diskusija

Šiame tyrime pateikiame migdolų genomo įvairovės ir homozigotiškumo apibūdinimą, kuris buvo naudojamas teikiant svarbią informaciją fundamentaliųjų tyrimų ir veisimo tikslais.

Apskaičiavus porinius IBS atstumus, buvo identifikuota 11 kloninių grupių (papildoma S2 lentelė), taip suteikiant vertingų duomenų germplazmų kolekcijų racionalizavimui. CG1 sudėtis atitinka ankstesnę mokslinę literatūrą, o tai rodo Tuono ir Troito veislių sinonimą37. Negalime atmesti galimybės, kad kai kurios į tą patį CG įtrauktos veislės gali skirtis dėl kelių kloninių mutacijų. Kalbant apie CG1, anksčiau buvo pranešta, kad veislė Supernova buvo gauta iš "Tuono" eksperimentinės mutagenezės būdu 38 .

Migdolų genetinės struktūros, priskirtų keturioms protėvių populiacijoms, analizė (1a pav.), nors taip interpretuojant ADMIXTURE klasterizacijos rezultatus reikia būti atsargiems 39 . Veislės, klasifikuojamos kaip mišrios, atitinkančios

20% viso, gali atspindėti hibridizaciją tarp skirtingų protėvių populiacijų. Paprastai manoma, kad migdolus į Italiją atvežė senovės graikai ir finikiečiai37, o iš ten jie išplito į Prancūziją ir Ispaniją, galbūt per senovės romėnus, besiplečiančius Viduržemio jūros regione. Tačiau Italijos migdolų populiacijai beveik visiškai trūko C4 protėvių, kurie buvo reikšmingi Ispanijos ir Prancūzijos genofondams. Šiuos įrodymus galima paaiškinti tolesniais istoriniais migdolų gemalų įvežimais į Ispaniją ir Prancūziją, galbūt iš Šiaurės Afrikos, susijusių su arabų dominavimu Iberijos pusiasalyje ir kolonijiniu laikotarpiu37.

Remiantis ankstesniais tyrimais, pagrįstais SSR žymenimis 6, 7, 8 , populiacijos struktūros tyrimas taip pat parodė genetinę diferenciaciją tarp Viduržemio jūros ir JAV veislių, o pastarosios dažniausiai siejamos su protėvių klasteriumi C4 (1 pav.). Šis rezultatas greičiausiai atspindi įkūrėjo efektą, susijusį su neseniai migdolų įvedimu į Naująjį pasaulį. Svarbu tai, kad migracijos modeliavimas naudojant TreeMix algoritmą (1d pav.), Remiantis ankstesne literatūra 40, 41, 42, prancūzų gemalų plazma vaidino svarbų vaidmenį kaip Kalifornijos migdolų auginimo tėvų šaltinis.

Porinio IBD įvertinimas naudojant PI_HAT parametrą teisingai parodė giminingumą tarp žinomų tėvų / palikuonių veislių porų, esančių migdolų kolekcijoje, kurios genotipas buvo nustatytas šiame tyrime, nes jos buvo susijusios su reikšmėmis nuo 0, 26 iki 0, 45. Neatitikimas su teorine PI_HAT reikšme 0,5 (ty 50 % alelių, kilusių iš tų pačių protėvių chromosomų) gali atsirasti dėl atsitiktinio poravimosi prielaidos, naudotos PI_HAT įvertinimui 17, pažeidimo ir nepakankamo heterozigotinių lokusų, susijusių su GBS metodas 43 . IBD analizė ne tik patvirtino žinomą giminystę, bet ir atskleidė keletą šeiminių ryšių, apie kuriuos nebuvo pranešta literatūroje (2 pav. ir S3 papildoma lentelė). Šis rezultatas ne tik padeda atskleisti migdolų auginamų gemalų kilmę, bet ir suteikia naudingos informacijos, kad būtų išvengta susijusių individų hibridizacijos veisimo programose, taip sumažinant giminystės depresijos riziką.

Didelę šeimos grupę sudarė kelios JAV veislės, įskaitant „Nonpareil“. Tai atitinka nuolatinį „Nonpareil“ naudojimą, kuris laikomas standartu dėl puikių medžių ir riešutų savybių, JAV veisimo programose14,44. Keletas veislių buvo giminingos su CG1 ir CG9, kurių sudėtyje yra itališkų veislių Tuono ir Cristomorto, atsižvelgiant į tai, kad šios dvi veislės plačiai naudojamos veisimui kaip savarankiško suderinamumo šaltinis. Stebėtina, kad daugiausia giminystės ryšių (22) pasižymėjo itališka veislė Rachelina, apie kurią nenurodyta pagrindiniuose kilmės dokumentuose, ne tik su itališkomis germplasmomis, bet ir su prancūziškomis Rabasse ir Tournefort bei ukrainietiškomis Picantili veislėmis. „Sultanos“ ir „Teksaso“ giminystės nustatymas dar labiau rodo prancūzų, kaip JAV veisimo programų įkūrėjų, vaidmenį. Pažymėtina, kad „Sultana“ anksčiau buvo nurodyta kaip viena iš nedaugelio komercinių veislių, atvežtų į Kaliforniją iš Langedoko srities Pietų Prancūzijoje 1850–1900 m., o tai yra JAV migdolų pramonės pagrindas37,41,45. Galiausiai, Ukrainos veislių („Crimsky“, „Nikitsky“, „Nessebre“, „Picantili“) ir Italijos bei JAV veislių giminystė atitinka užsienio gemalų plazmos naudojimą Ukrainos Nikitos botanikos sode 46 vykstančiose veisimo programose. 47 .

Panašiai kaip Wu ir kt. 23, kuriame daugiausia dėmesio buvo skiriama auginamiems Citrusiniai rūšių, ieškojome ROH, kad įvertintume atskirų veislių giminystės lygį (3a pav. ir papildomas S5 pav.). Buvo nustatyta didelė koreliacija tarp ROH skaičiaus vienam asmeniui ir FPLINK inbredingo koeficientas (3b pav.). Tačiau pabrėžiame, kad, skirtingai nei ROH, FPLINK yra netiesioginis F įvertinimas, pagrįstas padidėjusiu homozigotiškumu, susijusiu su IBD. Keletas JAV veislių pasižymėjo dideliu ROH skaičiumi ir ilgiu, o tai rodo aukštą giminingumo lygį. Tai atitinka mūsų išvadą, kad JAV gemaloplazmoje yra didelis IBD lygis. Priešingai, Lansari ir kt. 14 , remiantis FP koeficientas, padarė išvadą, kad dauguma JAV veislių yra neinbredinės, galbūt dėl ​​​​neišsamios kilmės informacijos.

Yra žinoma, kad vienas iš pagrindinių techninių GBS trūkumų yra netolygus mėginių skaitymo gylis 43 . Norėdami įvertinti, ar tai sukėlė didelį heterozigotinių lokusų, taigi ir ROH, paklaidą, atlikome regresijos analizę tarp vidutinio skaitymo gylio vienai veislei ir ROH skaičiaus vienai veislei. Mes nustatėme silpną koreliaciją tarp dviejų kintamųjų, nors dvi veislės, „Mono“ ir „Ramillete“, susijusios su ypač mažu vidutiniu skaitymo gyliu, taip pat parodė didžiausią ROH skaičių (papildomas S4 pav.). Tai rodo, kad: (1) su keliomis išimtimis, mūsų GBS metodas buvo sėkmingas kiekybiškai įvertinant giminystės lygį naudojant ROH identifikavimą (2), jei įmanoma, SNP masyvo platformoms, leidžiančioms tiksliai iškviesti heterozigotiškumą, turėtų būti teikiama pirmenybė, o ne GBS, siekiant nustatyti ROH. Missing data did not have a major impact on ROH call, as most ROHs contained a low percentage of missingness (Supplementary Fig. S3).

Homozygosity mapping 31 , a strategy successfully used in animal science to associate ROHs with traits under anthropic selection 34,48 , was herein applied for the first time to a crop species. Our results defined IBD segments which could have arisen from selection for larger nuts and seeds. In addition, our data suggest that selection for larger nuts, while increasing the weight of the fruit endocarp (the almond shell), did not have a substantial effect on the almond edible part, i.e., the seed (Fig. 5). ROH_ 2_16414730, displaying the highest evidence of association with nut and shell weight, includes two members of the PLAC8 protein family, previously associated with fruit size in tomato, maize, and rice 49 (Supplementary Table S5). Concerning seed weight, an interesting candidate for future functional studies is a Cyclin D3 gene located within ROH_S6_20767156, as it was shown that D-type cyclins play a major role in seed development 50 .

In accordance with the results of HM, GWAS suggested that loci controlling nut weight and seed weight are mostly independent and that there is parallel control of nut and shell weight by several genomic loci (Fig. 6). Many of the GWAS peaks identified for these two traits were located within genes encoding transcription factors or response factors to the phytohormones abscisic acid, auxin and ethylene (Supplementary Table S6). These protein categories are renowned to be major players in fruit growth and development 51 , therefore they are obvious candidates to have a similar physiological role in almond. The highest significance level for nut and shell weight was found for a SNP variant located upstream of a putative aspartyl protease gene (Supplementary Table S6). Remarkably, the recent proteomic study by Rodriguez et al. 52 indicated that the development of the peach endocarp (corresponding to the almond shell), is accompanied by an outstanding variation of protein degradation enzymes, including aspartyl proteases. It is thought that amino acids derived from the degradation of proteins stored in the early immature fruit act as substrates for the phenylpropanoid and lignin pathways activated during endocarp hardening 53 .

Concerning seed weight, the association was found with a SNP residing in a gene putatively encoding a member of the thaumatin-like protein (TLP) superfamily (Supplementary Table S6). Although some of the TLP proteins have been related to biotic stresses, the role of most members of the TLP superfamily remains unknown 54 , thus it cannot be excluded they might also have a role in determining seed growth. With this respect, we highlight that some TLP proteins, referred to as permeatins, accumulate in high concentration in seeds of cereals 54,55 .

No overlap was found between genomic regions identified by GWAS and HM. It should be pointed out that GWAS and HM search for different kind of genomic associations, in the first case with a specific marker allele, and in the second with one or more combinations of alleles at the homozygous state. In addition, different results from the two approaches may arise from the different number of covariates used for association tests. We could not assess whether signals on the same chromosome identified by our study and the one of Fernandez i Marti et al. 24 are overlapping in the same genomic region, as the latter refers to a QTL linkage map obtained by a bi-parental population, rather than the almond genome sequence.

We found that almond displays one of the fastest LD decay ever characterized in a crop species, with R 2 dropping to the threshold value after 130 bp on average (Fig. 4). This might reflect self-incompatibility displayed by most almond cultivars, which favors haplotype block-breaking through recombination. From a genetic perspective, rapid LD decline in almond reinforces the possibility that SNPs identified by this or future GWAS experiments are located within or in close association with genes determining phenotypic variation.


A. Genome-Wide Association Studies (GWAS)

Association mapping identifies signals of marker-trait relationship that can be attributed to the strength of linkage disequilibrium between marker polymorphisms and functional variants across a set of diverse germplasm. General understanding of association mapping has increased significantly since its debut in plants. We have seen a more concerted effort in assembling various association-mapping populations and initiating experiments through either candidate-gene studies or genome-wide association stuides (GWAS).

Much of the basics in assocaition mapping has been reviewed thoroughly in a set of previous review papers and here are several of them for your reference:

A recent review from Peter Visscher and colleagues on GWAS, 10 Years of GWAS Discovery: Biology, Function, and Translation (American Journal of Human Genetics, 2017, 101:5-22). Here is the earlier one: Five years of GWAS discovery (American Journal of Human Genetics, 2012, 90:7–24).

Mixed Model GWAS

We are trying to understand this new one at this time: Quantitative Trait Cluster Association Test (QTCAT) for GWAS, A multi-marker association method for genome-wide association studies without the need for population structure correction


Unraveling behavioral problems in dogs

In this issue of Genomo biologija, Tang ir kt.[6] report the combination of GWAS and targeted sequencing to map obsessive-compulsive disorder (OCD) in dogs. The authors [6] cleverly transitioned from GWAS to the judicious use of next-generation sequencing to identify new OCD alleles. OCD is a common and debilitating neuropsychiatric disorder characterized by persistent intrusive thoughts and time-consuming repetitive behaviors. It is the fourth most common psychiatric disorder in humans, with a lifetime prevalence of approximately 2%. Twin studies demonstrate a strong genetic component, and first-degree relatives of an affected individual are at an increased risk of developing disease. A GWAS conducted with 1,465 human OCD cases and 400 family trios did not successfully uncover new disease-susceptibility loci [7], suggesting a highly complex underlying genetic architecture.

Canines also present with naturally occurring OCD, which can manifest as repetition of normal canine behaviors. The authors [6] reanalyzed data from an initial canine GWAS [8] promising regions of marginal significance were then selected for targeted sequencing in eight OCD dogs and eight controls [6]. In total, 2,291 case-only variants were discovered, of which a subset of 114 were found to be significantly more common in OCD-risk breeds when genotyped in an independent sample. Gene-based analyses revealed that cadherin 2 (CDH2), catenin alpha 2 (CTNNA2), ataxin 1 (ATXN1) and plasma glutamate carboxypeptidase (PGCP) harbored the most case-only variants these initial canine susceptibility loci, which are all reported to have synaptic functions, may also be associated with human OCD.


Linkage Disequilibrium in GWAS - Biology

Visi MDPI paskelbti straipsniai yra nedelsiant prieinami visame pasaulyje pagal atviros prieigos licenciją. Norint pakartotinai naudoti visą ar dalį MDPI paskelbto straipsnio, įskaitant paveikslus ir lenteles, specialaus leidimo nereikia. Straipsniams, paskelbtiems pagal atviros prieigos Creative Common CC BY licenciją, bet kuri straipsnio dalis gali būti pakartotinai naudojama be leidimo, jei originalus straipsnis yra aiškiai cituojamas.

Pagrindiniai dokumentai yra pažangiausi moksliniai tyrimai, turintys didelį potencialą turėti didelį poveikį šioje srityje. Pagrindiniai straipsniai pateikiami gavus individualų mokslinių redaktorių kvietimą arba rekomendaciją ir prieš paskelbiant juos peržiūrimi.

Pagrindinis straipsnis gali būti originalus mokslinis straipsnis, esminis naujas mokslinis tyrimas, dažnai apimantis keletą metodų ar požiūrių, arba išsamus apžvalginis dokumentas su glaustais ir tiksliais naujausios pažangos atnaujinimais šioje srityje, kuriame sistemingai apžvelgiami įdomiausi mokslo pasiekimai. literatūra. Šio tipo popieriuje pateikiama ateities tyrimų krypčių ar galimų pritaikymų perspektyva.

„Editor’s Choice“ straipsniai yra pagrįsti MDPI žurnalų iš viso pasaulio mokslinių redaktorių rekomendacijomis. Redaktoriai atrenka nedidelį skaičių neseniai žurnale paskelbtų straipsnių, kurie, jų nuomone, bus ypač įdomūs autoriams arba svarbūs šioje srityje. Tikslas yra pateikti kai kurių įdomiausių darbų, paskelbtų įvairiose žurnalo tyrimų srityse, vaizdą.


Fonas

Detailed analysis of the linkage disequilibrium (LD) structure of human populations has been vital for the successful mapping of many human disease genes, understanding mechanisms underlying genetic recombination and elucidating patterns of selection and population structure [1]. The development of array-based genotyping (ABG) panels of single nucleotide polymorphisms (SNPs) enabled genome-wide association studies (GWAS) to localise numerous genetic variants with roles in human disease. Recognition that the genome contains ‘blocks’ of low haplotype diversity [2] facilitated the selection of ‘tagging’ SNPs [3] to enable cost-effective genotyping using panels of 500,000 to one million SNPs. Extensive SNP genotyping enabled the International HapMap Project to characterise the LD structure of diverse human populations [1]. The first LD maps of human chromosomes showed a haplotype block structure punctuated by ’steps’ aligning with recombination hotspots [4, 5]. The strong alignment of linkage and LD maps confirms historical recombination as the major determinant of LD structure [5–7].

Array-based LD maps of human chromosomes contain regions with negligible apparent LD between adjacent markers, seemingly reflecting high regional recombination, which are not well defined in the maps. Service et al. [7] assessed the impact of increasing marker density in a number of these regions using ABG data and found that some, though not all, regions were resolved with increasing marker density. For chromosome 22, 53 % of these regions were resolved using 27,060 prieš 9658 SNPs. Differences between populations were apparent, with LD maps from isolated populations (therefore having more extensive LD) containing substantially fewer such regions. Tapper et al. [6] constructed genome-wide LD maps using

500,000 SNP genotypes from 60 HapMap samples with European ethnicity, identifying 3144 poorly resolved regions genome-wide and estimated that

40,000 markers per Morgan would be needed to fully characterise LD structure. Assuming the autosomal linkage map length is

33 Morgans [8] this suggests that

1.3 million SNPs genome-wide would be sufficient to resolve these regions in this population. However, this assumes uniform marker spacing and LD intensity, whilst in reality much higher local marker density may be required for some of these regions. A particular difficulty exists for populations which have reduced LD due to extended population history, such as those from Sub-Saharan Africa, for which considerably higher marker coverage is required for complete coverage.

Given that whole-genome next generation sequencing (WGS) provides maximal genotype density, we consider the advantages of WGS-derived SNP genotypes for the characterisation of LD structure in different populations. We construct LD maps according to the Malécot-Morton model, using the program LDMAP [5, 6]. This model is defined as:

where ( widehat

) is the association between SNPs, the asymptote L is the ‘background’ association between unlinked markers which is increased in small sample sizes and with residual population structure, M reflects association at zero distance with values

1 consistent with monophyletic origin and <1 with polyphyletic inheritance, ϵ is the rate of LD decline, and d is the physical distance in kilobases between SNPs [5].

LDMAP constructs maps in linkage disequilibrium units (LDU, equal to ϵd) such that one LDU corresponds to the (highly variable) physical distance over which LD declines to background levels. LDU plotted against the chromosome location forms step-like patterns with intense breakdown in LD, canonically due to recombination hotspots, and plateaus for broader regions of low haplotype diversity (blocks). Overall LDU map lengths are proportional to time since an effective population bottleneck [7, 9]. Hence, populations with shorter LDU maps have been founded more recently, experienced a more recent selective sweep, or have a smaller effective population size (such as some population isolates) compared to those with longer maps (such as Sub-Saharan African populations). The close correspondence between LD patterns and the linkage map reflects the dominant role of recombination in LD structure. In contrast to linkage maps, which are derived from family data and describe recombination over recent generations, LD maps are constructed from population data and reflect the historical impacts of recombination, mutation, selection and population history. Our findings show that WGS based LD maps provide greatly increased resolution of LD structure in both populations and indicate some genome regions in ABG-derived maps are incompletely covered. The findings have implications for interpretation in genome-wide association studies (GWAS) and support the use of WGS for association mapping and for establishing LD structure for studies of mechanisms underlying recombination and for identifying genomic regions subject to selection.


Understanding GWAS: Part 2 – Additional Insights and Tips

This blog post was written by members of the GP2 Complex Disease - Data Analysis Working Group: Hampton Leonard, Mike Nalls, Yeajin Song, and Dan Vitale. Continue reading for more information on the authors.

In our last blog post , we gave an introduction to GWAS, including statistical formulae, workflows, and examples from the most recent Parkinson’s disease GWAS. Now we want to provide you with additional insights and tips for running your own GWAS.

Quality control and imputation processes

  • High quality genotypes (non-palindromic, i.e., no A/T, G/C if possible, with a high Illumina gentrain score indicating cluster quality) with low missingness ( < 1% per sample and per SNP is preferred).
  • Generally focus on common, minor allele frequency > 1%, any less and hope the genotype clusters look very good (you should inspect them).
  • Check samples for high rates of heterozygosity, as this could indicate potential contamination. Low rates of heterozygosity could also be problematic.
  • Be careful of duplicated samples and cryptically related samples.
  • Algorithmically ascertain and parse samples by genetic ancestry (we use a combination of fastStructure and flashPCA ). Let’s maximize diversity but be wary of population substructure and its effects on the outcomes of analyses.
  • Look into SNPs that are not missing by chance, including bias due to missingness by case:control status or haplotype.
  • There is no reason you can’t use multiple imputation reference panels for a single population and use the resulting genotype with the best quality metric. This is particularly useful in admixed sample populations.

Tips on study level analyses

  • Regression – GWAS generally uses linear regression models for continuous outcomes and logistics for discrete outcomes. These quantify risk at an SNP while accounting for covariates.
  • A variety of software packages can be used to run mixed linear models, these models can accurately account for relatedness and fine scale population substructure.
  • PCs – Calculating principal component loadings based on genome-wide genotyping data makes a useful set of covariates for your regression models, effectively allowing you to account for population substructure.

Now let’s meta-analyze

  • Fixed vs. random – These are meta-analysis methods to combine data on a summary statistic level, across data silos and/or publications. Fixed effects meta-analyses are often useful for discovery analyses and generally more powerful, although some of us prefer random effects models as they are more conservative and account for heterogeneity across data silos.
  • Heterogeneity estimates – Often expressed as Cochrane’s Q or I2. Very important as they give an idea of outlier effect bias and generalizability of results.

Scrutiny results

  • Study level lambdas – keep it between 0.95 and 1.05, anything else and you have a problem.
  • Overall lambda and lambda 1000 – calculating lambdas on either the study level or the meta-analysis level can be tricky when you have a case: control imbalance. A massive excess of controls can artificially inflate the lambda statistic. In this case, use lambda1000 as it is scaled to 1000 cases and 1000 controls. Once again, code for this is in our GitHub repo.
  • Linkage disequilibrium (LD) score intercept – alternative / complement to lambda and more robust to LD structure and case: control imbalance.
  • LD peaks in plots showing uniformity – this is pretty straightforward, your results when plotted should look like towers in Manhattan (or your city of choice, sorry D.C.) not a snowstorm.
  • Replication – always good but sometimes you don’t have available datasets. When additional data is not available, try a combination of leave-one-out meta-analyses and cross-validation.

Some post-GWAS analyses

  • Or “what to do once your GWAS meta-analysis is complete”. Note that GP2 will be providing further blog posts and courses on these topics.
  • Conditional analyses – use the most significant SNP in a region as a covariate and rerun the analyses or use a tool like GCTA . You may have multiple independent signals per locus.
  • Fine mapping – This can be done through approximate Bayes factor analysis in packages like coloc including Bayesian colocalization (leveraging genomic reference data for gene expression or similar metrics).
  • Prediction weights and TWAS – A variety of packages exist to leverage external weights from gene expression, methylation, or chromatin studies, etc. to identify putative mechanistically connected genes hiding in your GWAS data.
  • ML – Purpose-built predictions, our favorite package is GenoML because it’s mostly automated and makes machine learning (ML) in genomics easy.

For more information, you can find our code and pipelines at the GP2 GitHub .

This blog was jointly authored by Hampton Leonard, Mike Nalls, Yeajin Song, and Dan Vitale. Please visit GP2’s Complex Disease – Data Analysis Working Group page to learn more about their background.


Žiūrėti video įrašą: KAIP MOTERIS TURĖTŲ NUTRAUKTI ENERGETINIUS RYŠIUS SU BUVUSIAIS? (Sausis 2023).