Informacija

Grunto dizainas ir BLAST E vertės griežtumas

Grunto dizainas ir BLAST E vertės griežtumas


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ieškant klaidingų spaudinių man buvo pasakyta, kad e vertė, didesnė nei 0,01, yra tinkama ir nesukels reikšmingų klaidingų spaudinių. Vis dėlto aš ieškojau kai kurių ir atrodytų, kad e vertės slenksčio riba priklauso nuo duomenų bazės „informacijos kiekio“. Iš tiesų pastebėjau, kad kai kuriuose dokumentuose nurodytos reikšmės, mažesnės nei 0,07, jau yra reikšmingos.

Kokiais kriterijais kartais vadovaujatės spręsdami šią problemą ir kaip žinoti, kada reikia sumažinti arba padidinti griežtumą, kai vykdote įprastą BLAST, kad sukurtumėte gruntus?


Aš niekada nenaudojau BLAST pradmenų projektavimui, bet dažnai norėdamas sužinoti, iš kur atsirado seka.

Iš NCBI DUK: http://www.ncbi.nlm.nih.gov/blast/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=FAQ

"Kuo mažesnė E vertė arba arčiau nulio, tuo" reikšmingesnė "atitiktis. Tačiau atminkite, kad praktiškai identiški trumpi išlyginimai turi palyginti aukštas E vertes. Taip yra todėl, kad apskaičiuojant E vertę atsižvelgia į užklausos sekos ilgį. Šios didelės E reikšmės yra prasmingos, nes trumpesnės sekos turi didesnę tikimybę, kad duomenų bazėje jos atsiras visiškai atsitiktinai. Daugiau informacijos rasite skaičiavimuose BLAST kurse. ".

Tai, ką jie sako dokumentuose, yra tiesa, jūsų duomenų bazės dydis yra svarbus sprendžiant, kokia reikšminga atitiktis. Galiu įsivaizduoti, kad kurdami pradmenį norite būti atsargesni su E reikšmėmis, nes jos dažnai patenka į: „nes trumpesnės sekos turi didesnę tikimybę, kad duomenų bazėje atsiras grynai atsitiktinai“.

Tikiuosi, kad tai padės apsispręsti dėl slenksčio, kitaip pateikite daugiau informacijos.


Šiame NCBI puslapyje yra pradmenų projektavimo įrankis, kuriame, atrodo, yra specifiškumo patikra, vykdoma naudojant BLAST. Tačiau atrodo, kad griežtumas grindžiamas neatitikimo laipsniu, o ne e verte.


Grunto dizainas ir BLAST E vertės griežtumas – biologija

„Primer-BLAST“ buvo sukurtas tam, kad būtų galima sukurti pradmenis, būdingus įvesties PGR šablonui, naudojant „Primer3“. Jis taip pat gali patikrinti vartotojo pateiktų pradmenų specifiškumą.

Puslapių „Ieškoti trumpų, beveik tikslių atitikčių“ nukleotidų ir baltymų puslapių nebėra. Vietoj to, nukleotidų ir baltymų sprogimo programos automatiškai patikrina, ar nėra trumpų užklausų, ir atitinkamai pakoreguoja paieškos parametrus. Šis koregavimas įvyksta, kai užklausos, nukleotido arba amino rūgšties, ilgis yra 30 ar mažiau. Vertimo sprogimo programose ar paieškose genomo sprogimo puslapiuose nėra šios automatinio reguliavimo funkcijos.

Kl.: numatytoji nukleotidų ir nukleotidų paieškų duomenų bazė

Kl.: Paieškos parametrų išsaugojimas

Kl.: Kaip apriboti paiešką organizmu ar taksonomine grupe arba neįtraukti tokių grupių

Jei norite ieškoti tik sekų iš organizmo ar taksonominės grupės, naudokite teksto laukelį „Organizmas“. Nukleotidų sprogimo puslapiuose pirmiausia spustelėkite radijo mygtuką „Kiti (nr. ir kt.)“. Teksto laukelyje „Organizmas“ yra automatinio užpildymo funkcija. Pradėkite įvesti bendrą organizmo pavadinimą (žiurkė, bakterijos ir kt.), gentį ar rūšį (elegans, danio ir kt.) arba NCBI taksonomijos ID, tada pasirinkite pavadinimą iš sąrašo.

Taksonominę grupę taip pat galima išskirti naudojant žymės langelį „Išskirti“, esantį dešinėje nuo laukelio „Organizmas“.

Daugiau taksonominių grupių galima įtraukti arba neįtraukti naudojant „+“ laukelį, esantį toliau teksto laukelio „Organizmas“ dešinėje.

Taip pat galite naudoti „Entrez Query“ terminus, kaip ir anksčiau. Įdėkite juos į Entrez Query laukelį, esantį tiesiai po lauku Organizmas, pavyzdžiui, rattus norvegicus[organizmas] arba tiesiog ratus[orgn]. Taip pat žiūrėkite DUK „Kaip apriboti paiešką tik duomenų bazės sekų pogrupyje“.

Taksonų galite ieškoti Taksonomijos naršyklėje.

Kl.: Kaip išskirti modelius (XM/XP priedus) ir nekultūringas aplinkos sekas?

Kl.: Kaip apriboti paiešką tik duomenų bazės sekų pogrupyje?

Kl.: Kaip galiu ieškoti sekų partijos naudojant BLAST?

    1.) Savarankiški BLAST vykdomieji failai. Tai komandinės eilutės programos, atliekančios BLAST paiešką vietinėse, atsisiųstose NCBI BLAST duomenų bazių kopijose arba pagal pasirinktas duomenų bazes, suformuotas BLAST. Programos tvarkys vieną didelį failą su keliomis FASTA užklausų sekomis arba galite sukurti scenarijų, kad vienu metu būtų siunčiami keli failai. Vykdomieji failai yra prieinami įvairioms platformoms, įskaitant LINUX, Windows ir Mac OSX.

Kl .: Kaip naudoti BLAST norint suderinti dvi sekas be paieškos duomenų bazėje.

Kl .: Kokia yra laukiama (E) vertė?

Tikėtis vertė (E) yra parametras, apibūdinantis įvykių skaičių, kurį galima „tikėtis“ atsitiktinai pamatyti ieškant tam tikro dydžio duomenų bazėje. Didėjant rungtynių rezultatams (S), jis mažėja eksponentiškai. Iš esmės E reikšmė apibūdina atsitiktinį foninį triukšmą. Pavyzdžiui, įvykiui priskirta E reikšmė 1 gali būti interpretuojama taip, kad dabartinio dydžio duomenų bazėje galima tikėtis 1 atitikmens su panašiu balu tiesiog atsitiktinai.

Kuo mažesnė E vertė arba arčiau nulio, tuo „reikšmingesnė“ atitiktis. Tačiau nepamirškite, kad praktiškai identiški trumpi išlyginimai turi palyginti aukštas E reikšmes. Taip yra todėl, kad apskaičiuojant E reikšmę atsižvelgiama į užklausos sekos ilgį. Šios didelės E vertės yra prasmingos, nes trumpesnės sekos turi didesnę tikimybę, kad duomenų bazėje jos atsiras tik atsitiktinai. Norėdami gauti daugiau informacijos, skaitykite BLAST kurso skaičiavimus.

Reikšmė Expect taip pat gali būti naudojama kaip patogus būdas sukurti rezultatų ataskaitos reikšmingumo slenkstį. Daugumoje BLAST paieškos puslapių galite pakeisti Tikėtinos vertės slenkstį. Padidinus laukimo vertę nuo numatytosios vertės 10, gali būti pateiktas didesnis sąrašas su daugiau mažai įvertintų įvykių.

Kas yra „mažo sudėtingumo“ seka?

Regionai su mažo sudėtingumo seka turi neįprastą sudėtį, kuri gali sukelti problemų ieškant sekų panašumo. Aminorūgščių užklausoms šis sudėties šališkumas nustatomas pagal SEG programą (Wootton ir Federhen, 1996). Nukleotidų užklausoms jį nustato „DustMasker“ programa (Morgulis ir kt., 2006).

Mažo sudėtingumo seką dažnai galima atpažinti vizualiai apžiūrėjus. Pavyzdžiui, baltymų seka PPCDPPPPPKDKKKKDDGPP yra mažai sudėtinga, taip pat ir nukleotidų seka AAATAAAAAAAATAAAAAAT. Filtrai naudojami mažo sudėtingumo sekoms pašalinti, nes tai gali sukelti dirbtinius smūgius.

BLAST paieškose, atliekamose be filtro, apie aukšto balo įvykius galima pranešti tik dėl mažo sudėtingumo regiono. Dažniausiai tokio tipo rungtynes ​​nedera laikyti bendros homologijos rezultatu. Veikiau atrodo, kad mažo sudėtingumo regionas yra „lipnus“ ir ištraukia daugybę sekų, kurios nėra iš tikrųjų susijusios.

Kaip išfiltruoti (konkrečiam organizmui) įsiterpusius pasikartojimus?


Kas yra gruntai?

Gruntai yra paprasti, bet pagrindiniai DNR sintezės ingredientai tiek mūsų kūnuose, tiek atliekant mokslinius eksperimentus. Gruntai taip pat gali būti vadinami oligonukleotidais ir pažodžiui yra maži viengrandžių nukleotidų gabalai, paprastai apie 5 ir#8211 22 bazinių porų ilgio. Pagrindinė pradmenų savybė yra ta, kad jie turi papildyti DNR šablono grandinę, padedantys „paruošti“ grandinę, kad DNR polimerazė prisijungtų ir pradėtų DNR sintezę.

Kokių tipų gruntai yra? RNR prieš DNR pradmenis

Gyvi organizmai naudoja tik RNR pradmenis, o laboratorijoje naudojami pradmenys paprastai yra DNR pradmenys. Dėl įvairių priežasčių mokslininkai vietoj RNR pradmenų naudoja DNR pradmenis. DNR pradmenys yra daug stabilesni ir lengviau laikomi, o sintezei pradėti reikia mažiau sunkiai gaunamų fermentų (žr. 1 paveikslą).

DNR pradmenys RNR pradmenys
Naudoti In vitro: PGR amplifikacija, DNR sekos nustatymas, klonavimas ir kt In vivo: DNR replikacija
Reakcija Amplifikacija priklauso nuo temperatūros, todėl reikia mažiau baltymų Replikacija yra nuo fermentų priklausanti katalizinė reakcija, kuriai reikia kelių baltymų
Ilgis 18 – 24 bazinės poros 10 – 20 bazinių porų
Kūrimas Chemiškai sintetinamas mokslininkų Primazė (RNR polimerazės tipas)
Gyvybingumas Ilgesnis gyvenimas, stabilesnis Trumpiau gyvenantis, reaktyvesnis

Pririšus DNR arba RNR pradmenis prie šablono grandinės, pradedamas fermentas, atsakingas už DNR sintezę, DNR polimerazė, kad būtų pradėta pridėti nukleotidų prie esamo nukleorūgšties reaktyvaus 3'-hidroksilo galo (vadinamo „3 pirminiu galu“). gruntas, pailginantis ir atkartojantis pradinę sruogą.


Rezultatai

ThermoAlign dujotiekio schema parodyta 1 pav. Tolesniuose skyriuose pateikiami rezultatai, susiję su kiekvienu įrankio moduliu. Norint parodyti dujotiekį ir išryškinti „ThermoAlign“ ypatybes, buvo naudojamas 24 kb tikslinis kukurūzų genomo regionas (B73 RefGen_v3 Chr3: 33490673..33514673). Šešiasdešimt šeši procentai šio regiono yra pažymėti genomo surinkime kaip pakartotinai užmaskuoti. Naudojant demaskuotą seką ir nagrinėjant pasikartojimą, susijusį su pradmenų surišimu, būtų prognozuojama, kad 72 % pradmenų, sukurtų šiai sričiai, sukels netikslinius pradmenų įvykius nuo 1 iki 215 tam tikro pradmens vietų (2 pav.). Tas pats regionas, kartu su kitais genomo segmentais, buvo naudojamas ThermoAlign sukurtų pradmenų amplifikacijos specifiškumui patikrinti.

Visi dujotiekio komponentai naudoja vieną paleidimo parametrų failą. Spalvotos dėžutės atspindi keturis pagrindinius „ThermoAlign“ modulius, išvardytus jų veikimo tvarka: (1) tikslinės srities pasirinkimas, (2) unikalus oligonukleotidų dizainas, (3) pradmenų specifiškumo įvertinimas ir (4) pradmenų porų pasirinkimas. Brūkšniniai langeliai rodo paprogrames kiekviename iš šių modulių, o rodyklės – jų veikimo tvarką. Likę elementai yra duomenų bazė (etaloninė genomo seka), išoriniai failai (skambučio variantas [.vcf] failus ir paleidimo parametrų failą) ir funkcijas (artimiausio kaimyno modelis Tm homodimero, heterodimero ir plaukų segtuko sąveikos funkcijos Primer3). Šių likusių komponentų jungiamosios linijos vaizduoja prijungtų komponentų priklausomybes (užpildytas taškas naudojamas šaltiniui, iš kurio gaunama informacija ar funkcija, nurodyti). Reikalingi „ThermoAlign“ įėjimai pažymėti žvaigždute.

Skaičius pagrįstas kiekvienos pliuso grandinės 25 bp sekos (26 bp stumdomas langas) analize. Visose subfigūrose raudonos linijos rodo termoreguliacijų skaičių su nenumatytu tikslu Tm 10 °C nuo atitinkamo tikslo Tm. Geltonos linijos (oranžinės, kai sutampa su raudona) rodo termolygiavimų skaičių tarp tam tikro pradmens ir ne tikslo vietų, kurių tapatumas yra ≥70 proc. (Pid). Mėlynos linijos rodo procentinį GC turinį. Netikslinių vietų paieška buvo pagrįsta BLASTn nustatymais, naudojamais šiame tyrime pradiniam specifiškumo įvertinimui (žr. Metodai), kurių vienoje pseudomolekulėje buvo ne daugiau kaip 20 galimų vietų arba iš viso 260 galimų vietų. a) Pakartojimų skaičiaus ir procentinio GC kiekio suminis pasiskirstymas. b) Genominis pasikartojimo turinio pasiskirstymas ir GC procentas. Nubraižytiems duomenims išdėstyti buvo naudojama kiekvienos 25 bp sekos 5′-nukleotido pseudomolekulės koordinatė. Juodos horizontalios juostos x ašyje rodo du šio regiono genus [kairėje: GRMZM2G031364 dešinėje: GRMZM2G031239]. Prognozuojama, kad tarp 25-erių regiono ≈73 proc Tm ne daugiau kaip 10 ° C temperatūroje nuo grunto Tm. c) CIRCOS brėžinys tęsiasi iš vieno pradmenio regione, kuriame yra daugiausiai (n = 215) numatomų netinkamo spausdinimo vietų visame genome. Raudonos CIRCOS brėžinio linijos jungia prognozuojamas 1–10 chromosomų pseudomolekulių, mitochondrijų (Mt), plastidų (Pt) ir nesusietų sekų (unkn) prognozavimo klaidas.

Tikslinio regiono pasirinkimas (TRS)

„ThermoAlign“ sukuria išvesties failą su suvestine vykdymo informacija (pvz., Papildomas failas S1). 24 kb tikslinės srities išvestis parodė, kad jame nebuvo spragų etaloninės sekos rinkinyje, 1073 SNP, 93 indeliai ir 46% GC kiekis.

Unikalus Oligo dizainas (UOD)

UOD algoritmas buvo sukurtas identifikuoti kiekvieną atskirą pradmenį (ne pradmenų poras) tiksliniame regione, kuris laikomas palankiu PGR ir neturi identiškų atitikmenų kitur genome. 24 kb tiksliniame regione iš 184 145 galimų pradmenų 82 520 neatsirado vietose, kuriose yra polimorfizmų kukurūzuose HapMap338. Pritaikius visą likusių UOD filtrų rinkinį (nustatymus žr. Papildomame faile S2), buvo atrinkti 877 pradiniai kandidatai.

Buvo ištirta 82 520 pradmenų klasifikacija į UOD filtravimo kategorijas, siekiant nustatyti, kurios savybės turėjo didžiausią poveikį pradmenų pašalinimui. Tai buvo padalyta į dvi dalis, pradedant filtrais pradmenų sekos ypatybėms ir baigiant filtrais pradmenų sąveikai (papildomas S1 pav.). Kalbant apie sekos ypatybes, buvo filtruoti 75 073 pradmenys. Atsižvelgiant į pradmenis, kurie buvo susieti tik su viena sekos savybių kategorija, A / T-end filtras pašalino daugiausiai pradmenų (n = 9 217), sudarančių ≈50% kolektyvinio pradmenų rinkinio, būdingo tik vienai funkcijai (papildomas). S1a pav.). A/T-end funkcija yra naudinga euristika, skirta pašalinti pradmenis, turinčius didesnį neefektyvaus užpildymo potencialą 39 . Pasirinktinai A/T galo filtras ar kiti filtrai gali būti neįtraukti arba iš naujo parametruoti, kad būtų pasiektas didesnis pradinių kandidatų aptikimo greitis, tačiau dėl to padidėja skaičiavimo laikas, reikalingas pradmenų specifiškumui įvertinti (PSE kita dalis) . Pavyzdžiui, iš UOD neįtraukus A/T galo filtro, atsirado 1 161 papildomas pradmenų kandidatas (palyginti su 877, identifikuotus naudojant A/T galo filtrą), tačiau tai užtruko maždaug keturis kartus ilgiau per PSE vykdymo sekundes.

Pradmenų sąveikos filtrai, kurie buvo pritaikyti 7447 pradmenims, kurie liko filtruojami pagal sekos ypatybes, apėmė tikslios atitikties atsiradimą genomo netikslinėje vietoje, homodimeras Tm, heterodimeras Tm ir plaukų segtukas Tm 40 (papildomas S1b pav.). Dėl to buvo filtruojami papildomi 6570 pradmenų, liko 433 priekiniai pradmenys ir 444 atvirkštiniai pradmenys, iš kurių 136 buvo iš tos pačios padėties dviejose gijose.

Gruntavimo specifiškumo vertinimas (PSE)

Svarbus „ThermoAlign“ aspektas yra algoritminis ir kiekybinis metodas, naudojamas apibūdinti netikslines hibridizacijos vietas. Kaip algoritmo, skirto nustatyti klaidingo nustatymo galimybę, BLASTn lygiavimas kiekvienai netaikinei atitikčiai yra redaguojamas į termolygiavimus (viso ilgio, be tarpų pradmenų ir šablonų išlygiavimus), kurie leidžia reikšmingai ir tiksliai įvertinti Tm reikia apskaičiuoti pradmeniui (3 pav.). Gimtosios BLASTn išlygos, turinčios ≥70% sekos tapatumo (kurios dažniausiai yra sutrumpintos vietinės išlygos), turėjo vidurkį Tm kad buvo 7 ° C aukštesnė nei jų termolygiavimas (3b pav.). Tačiau, Tm 10,8% (n = 18,834) BLASTn išlygiavimų buvo mažesnis nei jų terminis išlyginimas (3b pav.). Skirtumo diapazonas Tm BLASTn lygiavimui, palyginti su atitinkamu termolygiavimu, buvo nuo –14 °C iki 272 °C. Atsižvelgiant į ryšį tarp neatitikimų skaičiaus ir Tm, 3c, d pav. Parodė, kad neatitikimų skaičius, nors ir koreliuoja su termoreguliacija Tm, nėra tinkamas tarpinis serveris, leidžiantis nustatyti netinkamo paruošimo galimybę. Net esant daugybei neatitikimų, Tm surišimui ne tikslinėse vietose gali būti PGR būdinga temperatūra (pvz., & gt60 ° C 3c pav.). Be to, ne tikslo Tm ne visada gali būti pakankamai toli nuo tikslo Tm kad įvyktų specifinis gruntavimas (3d pav.). 3d pav. Duomenimis, ≈80% termoreguliacijų turėjo tikslą Tm & gt 10 ° C nuo tikslo Tm.

(a.1) Pilno ilgio pradmenų sekų pavyzdžiai. (a.2) Aukščiausio lygio BLASTn aukšto įvertinimo segmentų poros (HSP) suderinimas dviem netaikinėms sekoms (apatinė grandis) apdorojama į (a.3) terminis išlyginimas užpildant galus (be tarpų BLASTn) arba pašalinant tarpus ir užpildant galus (tarpais BLASTn) originalią BLASTn HSP išlygiavimą. b) 877 pradmenų kandidatams, kuriuos UOD modulis išvedė į 24 kb sritį, aprašytą tekste, Tm buvo apskaičiuotas kiekvienam aukščiausio lygio BLASTn HSP išlygiavimui ir atitinkamam termoreguliavimui. c) Naudojant termoreguliacijų pogrupį, suformuotą iš neužfiksuotų BLASTn HSP (n = 169 404 išlygiavimai), grafikas rodo ryšį tarp tikslo Tm termoreguliacijoms, palyginti su bendru neatitikimų skaičiumi. d) Naudojant tą patį duomenų pogrupį c) diagrama rodo skirtumą tarp tikslinio Tm ir netikslinis Tm termoreguliacijų, palyginti su bendru neatitikimų skaičiumi.

Grunto poros pasirinkimas (PPS)

Iš 877 oligonukleoltidų, kurie, kaip tikimasi, stabiliai hibridizuojasi ir specifiškai pradės taikinį etaloniniame genome, buvo nustatyta, kad 2818 pradmenų porų derinių yra suderinami su standartine PGR. Parametrų nustatymai, naudojami PPS (papildomas failas S2), apėmė +10 °C skirtumo reikalavimą Tm tarp grunto su apatiniu Tm tam tikros poros ir didžiausias nukrypimas nuo tikslo Tm bet kuriam iš dviejų pradmenų. Sumažinus šią slenkstį, pradmenų aptikimo greitis gali padidėti, tačiau reikia atsižvelgti į apatinę ribą, kuriai esant realiame PGR gali atsirasti netikslinių amplikonų. Nustačius +6 ° C, PPS modulio 24 kb regionui pasirinktų pradmenų porų skaičius padidėjo iki 4 189. Koreguodami šią ribą kartu su viršutine riba Tm UOD naudojamas diapazonas taip pat gali padidinti atradimo greitį. Didinant Tm svyruoja nuo +5 °C (pokytis nuo 64–74 °C iki 62–77 °C), išlaikant +10 °C maksimalų neteisingo užpildymo skirtumą, leido identifikuoti 4103 pradmenų poras per UOD → PSE → PPS dujotiekį.

Naudojant 877 pradmenis iš viršaus, buvo naudojamas nukreipto grafiko metodas, siekiant nustatyti mažiausią pradmenų porų skaičių (trumpiausias kelias), užtikrinantis didžiausią aprėptį tiksliniame regione. Amplikono dydžio diapazono nustatymas buvo kritinis veiksnys aprėpties dydžiui, kurį galima pasiekti čia nagrinėjamame regione (papildoma S2 lentelė). Dėl mažesnių amplikonų dydžių diapazonas buvo palyginti mažas, o didžiausių dydžių diapazonų (≥ 15 kb) - nebuvo. Didžiausias aprėptis buvo pasiekta amplikonų dydžiams nuo 5 iki 15 kb. Tačiau, priminus, kad A/T galo filtras prarado daugiau nei tūkstantį pradmenų, neskaitant šio filtro, laukiamas aprėptis padidėjo nuo daugiausiai 61,8% (su filtru) iki 88,7% (be filtro).

Empirinis pradmenų specifiškumo įvertinimas

„ThermoAlign“ sukurtos gruntų poros buvo išbandytos naudojant standartines standartinio PGR ir didelio nuotolio PGR sąlygas (žr. Skyrių „Metodai“). Atliekant standartinę PGR, buvo išbandytos 46 pradmenų poros, susietos su septyniais genais, esančiais šešiose kukurūzų chromosomose (papildomas failas S3). Naudojant nukreipto grafiko analizės metodą PPS, šios pradmenų poros buvo suprojektuotos plytelėms nuo 1 kb prieš srovę iki 1 kb pasroviui nuo kiekvieno geno. Trisdešimt aštuonios iš šių pradmenų porų sukūrė amplikoną, ir kiekvienai iš jų buvo pastebėtas vienas specifinis laukiamo dydžio amplikonas, nė vienoje iš išbandytų pradmenų porų nebuvo aptikta netikslinių amplikonų [1 pav. 4a parodyta 29 iš 46 pradmenų porų, iš kurių dviejų nepavyko sustiprinti (6:7 048 348 ir 7: 128 406 874) rezultatai.

Produktai iš dviejų papildomų genų, amplifikuotų naudojant standartinį PGR, bet ne ilgo nuotolio PGR (kaip aprašyta tekste), nerodomi. Etiketėse nurodomas tikslinio lokuso chromosomų skaičius, pradinio pradmens vieta ir numatomas produkto dydis. Išsami informacija apie kiekvieną pradmenį pateikiama papildomame faile S3. a) Standartiniai PGR produktai buvo išmatuoti be gryninimo po PGR ir į kiekvieną šulinėlį buvo įkelta maždaug 7,5 ng. Dviem reakcijoms, kuriose nebuvo produkto, buvo naudojamas tūris, lygus vidutiniam pakrautam tūriui. Sudėtinės reakcijos, susidedančios iš pradmenų porų, atitinkančių kiekvieną tam tikro geno rinkinį, buvo įkeliamos kartu su pradmenimis, priklausančiais tam pačiam rinkiniui. b) Ilgo nuotolio PGR produktai, gauti iš reakcijų be (-) ir su (+) betainu. PGR produktai buvo kiekybiškai įvertinti be gryninimo po PGR ir į kiekvieną šulinėlį buvo įdėta ≈29 ng. Trims reakcijoms, kurių metu nebuvo produkto, į šulinį buvo pakrautas tas pats tūris, kuris buvo naudojamas atitinkamai betaino reakcijai. Neigiamai kontrolei į šulinį buvo pakrautas didžiausias visų reakcijų tūris. Neigiama kontrolė buvo sudaryta iš pagrindinio mišinio, pradmenų poros TA_1_25390617_27_F ir TA_1_25395472_24_R (papildomas failas S3) be DNR šablono. Juostos su fono ištepimu buvo susijusios su reakcijomis, kurių metu reikėjo įkelti didesnį produkto kiekį, kad būtų pasiektas standartizuotas produkto kiekis visose juostose.

„ThermoAlign“ integruoja „MultiPLX 41“, tuo pačiu tinkindamas įvestį ir išvestį, kad gautų dvi multipleksų grupes, suderinamas su persidengiančių plytelių kelių stiprinimu. Kiekvienam iš septynių tikslinių genų, išbandytų naudojant standartinį PGR, esant „normaliems“ griežtumo nustatymams, „MultiPLX“ nustatė multipleksus, kuriuose buvo ne daugiau kaip dvi pradmenų poros (buvo galimybė sujungti net penkias pradmenų poras). Amplikonai, pagaminti naudojant multipleksinį PGR, paprastai atitiko tuos, kuriuos pagamino kiekviena pradmenų pora atskirai (viena pradmenų pora viename multipleksų rinkinyje nepavyko multipleksinės reakcijos metu) ir nebuvo pastebėta jokių alternatyvių amplikonų (4a pav.).

Penkiems iš septynių pirmiau minėtų genų kiekvienam genui buvo sukurti 0, 1–5, 0 kb amplikono plytelių klojimo keliai (nepriklausomai nuo standartinių PGR pradmenų papildomo failo S3) ir išbandyti naudojant didelio nuotolio PGR. Kiekvienam genui buvo nustatytos dvi pradmenų poros, kurios plytelės per visą geno ilgį (viena išimtis: naudojant nustatymus, pradmenų porų nerasta, kurios apimtų visą P450 geną 3 chromosomoje). Panašiai kaip ir standartinis PGR, ne visos dešimt pradmenų porų pagamino amplikoną, bet septynios, kurios pagamino vieną iškilų tikėtino dydžio amplikoną (4b pav.). Ilgo nuotolio PGR amplikonams, kurių nepavyko sustiprinti arba kurių derlius buvo mažas, daugiau reakcijos produkto buvo įkelta į gelį, kad būtų normalizuoti produktai palyginimui. Tai parodė tam tikrą fono ištepimą, kuris buvo didesnis nei neigiama kontrolė, o tai rodo, kad atliekant ilgo nuotolio PGR įvyko tam tikras atsitiktinis netikslinis amplifikacija (galbūt dėl ​​megapradmenų amplifikacijos 14 ).

Dėl etaloninio genomo priklausomybės nuo pradmenų dizaino ir dėl to, kad kai kurios standartinės PGR ir ilgo nuotolio PGR reakcijos nesugebėjo sukurti amplikonų, suabejojome, ar šios nesėkmingos reakcijos atsirado dėl sekos surinkimo netikslumų. Darant prielaidą, kad ilgo nuotolio PGR pradmenų poros, gaminančios konkretų laukiamo dydžio amplikoną, yra tikslaus surinkimo požymis, šiam klausimui išspręsti buvo panaudota standartinių PGR amplikonų, įdėtų šiuose ilgo nuotolio PGR amplikonuose, gamyba.

Dvidešimt devynios standartinės PGR pradmenų poros buvo suprojektuotos pagal tuos pačius penkis genus, ištirtus tolimojo nuotolio PGR, ir buvo įdėtos į bent vieną iš numatytų tolimojo PGR amplikonų. Kai kurie standartiniai PGR amplikonai buvo įdėti į dviejų tolimojo PGR amplikonų persidengiančias dalis, kur viena iš pradmenų porų pagamino produktą, o kita-ne. Neatsižvelgiant į tas standartines PGR pradmenų poras, viena iš 21 standartinių PGR pradmenų porų nepavyko pagaminti amplikono regionuose, kuriuose amplikonas buvo pagamintas naudojant tolimojo nuotolio PGR. Priešingai, visos penkios standartinės PGR pradmenų poros sukūrė amplikoną regionuose, kuriuose ilgo nuotolio PGR nebuvo sukurtas amplikonas. Ryšys tarp sėkmingų ir nesėkmingų standartinio ir tolimojo PGR reakcijų nebuvo reikšmingas (Fisher's Exact Test, p = 1.0), kuris nesukėlė surinkimo klaidų kaip PGR gedimų priežasties.

Atsižvelgiant į galimybę, kad pradmenų sekos sudėtis arba amplifikacijos taikinys paveikė sėkmę 14 , betaino pridėjimas prie reakcijų lėmė, kad visos 10 ilgo nuotolio PGR pradmenų porų pagamino specifinį laukiamo dydžio produktą (4b pav.). Vėlesni standartinių PGR pradmenų porų su betainu bandymai leido atkurti vieną specifinį amplikoną dviem lizdinėms poroms, kurios nepavyko, nesant betaino, be keturių pradmenų porų iš pradinio 46 rinkinio. Tačiau šie produktai sustiprėjo prastai (duomenys neskelbtini). Papildomas PCR optimizavimas galėtų pagerinti šių pradmenų porų amplifikacijos efektyvumą. Reakcijų amplikonai, kurie buvo atkurti pridedant betainą tolimojo nuotolio PGR, turėjo didesnį vidutinį GC kiekį-3,2 procentinio punkto pradmenims ir 7,8 procentinio punkto tikėtiniems amplikonams (B73 etaloninė genomo seka). Panašiai standartinės PGR reakcijos, kurios buvo atkurtos naudojant betainą (atsižvelgiant į visas 46 pradmenų poras), turėjo didesnį vidutinį pradinių ląstelių GC kiekį (3,7 procentinio punkto) ir tikėtinus amplikonus (19,7 procentinio punkto).

Norėdami patvirtinti, kad amplikonai atitinka tikslinius lokusus, devyni iš dešimties ilgo nuotolio PGR produktų, parodytų 4b pav., Buvo sujungti ir suskirstyti viena molekule, sekant realiuoju laiku. Pradmenų pagrindu sukurtas klasterizavimo ir sekos analizės metodas sukūrė tiksliai devynias konsensuso sekas, kurios buvo tobulai identiškos laukiamai sekai (1 lentelė S4 papildomas failas).


METODAI IR ĮGYVENDINIMAS

Oli2go darbo eiga pavaizduota 1 paveiksle. Tolesniuose poskyriuose išsamiai aprašomos pagrindinės kiekvieno žingsnio ypatybės.

„oli2go“ programinės įrangos apžvalga. (A) Iliustruoja darbo eigą, pradedant nuo įvesties n DNR sekos, po to - multipleksinis dizainas, kuris atliekamas nepriklausomai kiekvienai įvesties sekai. Vėliau grunto dimerio tikrinimas atliekamas naudojant visus pradinius, pagamintus naudojant multipleksinę konstrukciją. Pagrindinėje išvestyje yra kiekvienos įvesties sekos pradmenys ir zondai FASTA formatu. (B) Pateikiama daugiau informacijos apie multipleksinio zondo ir pradmenų projektavimo veiksmus, kurie apima k– Daugiau atrankų, Tm skaičiavimai, plaukų segtukų tikrinimai, zondo ir pradmenų specifiškumo patikrinimai, taip pat zondo ir pradmenų susiejimas kiekvienai įvesties sekai atskirai. (C) Vizualizuoja pradmenų dimero patikrą, kai tikrinami visi pradmenys, nukreipti į visas įvesties sekas, atsirandančias dėl ankstesnio multiplekso dizaino, dėl pradmenų dimero susidarymo.

„oli2go“ programinės įrangos apžvalga. (A) Iliustruoja darbo eigą, pradedant nuo įvesties n DNR sekos, po to - multipleksinis dizainas, kuris atliekamas nepriklausomai kiekvienai įvesties sekai. Vėliau grunto dimerio tikrinimas atliekamas naudojant visus pradinius, pagamintus naudojant multipleksinę konstrukciją. Pagrindinėje išvestyje yra kiekvienos įvesties sekos pradmenys ir zondai FASTA formatu. (B) Pateikiama daugiau informacijos apie multipleksinio zondo ir pradmenų projektavimo veiksmus, kurie apima k– Daugiau atrankų, Tm skaičiavimai, plaukų segtuko patikrinimai, zondo ir pradmenų specifiškumo patikrinimai, taip pat zondo ir pradmenų poravimas kiekvienai įvesties sekai atskirai. (C) Vizualizuoja pradmenų dimero patikrą, kai tikrinami visi pradmenys, nukreipti į visas įvesties sekas, atsirandančias dėl ankstesnio multiplekso dizaino, dėl pradmenų dimero susidarymo.

Įvestis

Interneto įrankio „oli2go“ pagrindinis puslapis naudojamas įvesties sekoms įkelti ir projektavimo parametrams nurodyti. Sekos turi būti pateiktos FASTA formatu, įkeliant arba naudojant tam skirtą įvesties laukelį. Duomenys turi apimti mažiausiai dvi sekas, nes oli2go sukurtas taip, kad būtų galima apdoroti daugiau nei vieną seką multipleksinėms reakcijoms. Sekos, kuriose yra dviprasmiškų nukleotidų, palaikomos, tačiau jas reikia naudoti atsargiai, nes kiekviena kintama padėtis sekoje padidina skaičiavimo etapų skaičių. Kadangi kiekvienos galimos kintamosios pozicijos specifiškumo patikrinimai atliekami, pailgėja veikimo laikas. Nustatyti įvesties parametrai yra būtini grunto ir zondo konstrukcijai ir dimerizacijai tikrinti. Priklausomai nuo naudojimo atvejo, numatytieji parametrai turėtų būti derinami prasmingai. Keliuose straipsniuose išsamiai aprašomas optimizuotų pradmenų ir zondo projektavimo parametrų pasirinkimas (3, 4, 17, 18). Be to, „oli2go“ palaiko galimybę generuoti dviejų dalių hibridizacijos zondus, naudojamus bandymuose, pagrįstuose ligomis.

Failo paruošimas

Įvesties sekos pirmiausia sulygiuojamos naudojant atskirą Nacionalinio biotechnologijos informacijos centro (NCBI) pagrindinio vietinio derinimo paieškos įrankio (BLAST) 2.7.0 ir naujesnės versijos versiją ir išsamų duomenų bazių rinkinį (1 lentelė). Šios duomenų bazės yra sekų failų rinkinys, apimantis >100 milijonų sekų iš bakterijų, virusų, grybų, archėjų, bestuburių, aplinkos mėginių, pirmuonių, augalų ir viso genomo šautuvų (WGS) projektų, atsisiųstas iš NCBI failų perdavimo protokolo (FTP) serverio. . Vartotojas pasirenka duomenų bazes failų paruošimui ir zondo specifiškumo tikrinimui. Į BLAST rezultatus įeina visi įvykiai, kurie rodo & gt90% sekos panašumą su užklausos seka ir sudaro pagrindą zondų specifiškumui patikrinti.

NCBI duomenų bazės šaltiniai, naudojami zondo specifiškumui patikrinti

Šaltinis. Sekų skaičius . Duomenų bazės dalis.
Bakterijos 7 658 345 7.55%
Aplinkos pavyzdžiai 7 276 975 7.18%
Bestuburiai 27 651 271 27.27%
Patentuotos sekos 31 140 928 30.71%
Augalai 3 798 824 3.75%
Virusai 1 837 439 1.81%
Archėja 38 310 0.04%
Grybai 3 889 143 3.84%
Pirmuonys 3 880 518 3.83%
WGS projektų sekos 14 220 046 14.02%
Bendras sekų kiekis 101 391 799 100.00%
Šaltinis. Sekų skaičius . Duomenų bazės dalis.
Bakterijos 7 658 345 7.55%
Aplinkos pavyzdžiai 7 276 975 7.18%
Bestuburiai 27 651 271 27.27%
Patentuotos sekos 31 140 928 30.71%
Augalai 3 798 824 3.75%
Virusai 1 837 439 1.81%
Archėja 38 310 0.04%
Grybai 3 889 143 3.84%
Pirmuonys 3 880 518 3.83%
WGS projektų sekos 14 220 046 14.02%
Bendras sekų kiekis 101 391 799 100.00%

Išvardytas sekų skaičius ir jų dalis visame duomenų telkinyje.

Šaltinis . Sekų skaičius . Duomenų bazės dalis.
Bakterijos 7 658 345 7.55%
Aplinkos pavyzdžiai 7 276 975 7.18%
Bestuburiai 27 651 271 27.27%
Patentuotos sekos 31 140 928 30.71%
Augalai 3 798 824 3.75%
Virusai 1 837 439 1.81%
Archėja 38 310 0.04%
Grybai 3 889 143 3.84%
Pirmuonys 3 880 518 3.83%
WGS projektų sekos 14 220 046 14.02%
Bendras sekų kiekis 101 391 799 100.00%
Šaltinis. Sekų skaičius . Duomenų bazės dalis.
Bakterijos 7 658 345 7.55%
Aplinkos pavyzdžiai 7 276 975 7.18%
Bestuburiai 27 651 271 27.27%
Patentuotos sekos 31 140 928 30.71%
Augalai 3 798 824 3.75%
Virusai 1 837 439 1.81%
Archėja 38 310 0.04%
Grybai 3 889 143 3.84%
Pirmuonys 3 880 518 3.83%
WGS projektų sekos 14 220 046 14.02%
Bendras sekų kiekis 101 391 799 100.00%

Išvardytas sekų skaičius ir jų dalis visame duomenų telkinyje.

Grunto ir zondo pasirinkimas

Pradmenų ir zondų pasirinkimas prasideda nuo sukūrimo k-mer, pradedant nuo mažiausio vartotojo nustatyto pradmens ir zondo dydžio iki didžiausio, naudojant žingsnio dydį 1. Vėliau Tm skaičiuojamas kiekvienam k-mer ( 16, 19). Kandidatai, kur Tm yra nustatytame diapazone, tada tikrinama, ar nesusidaro plaukų segtukas. Plaukų segtukų tikrinimas atliekamas naudojant „Primer3“ nukleotidų termodinaminio derinimo įrankį „ntthal“ (12). Ši programinė įranga naudoja SantaLucia pasiūlytas termodinaminių parametrų lenteles antrinei struktūrai apskaičiuoti Tm ir ΔG stabiliausio dvipusio (16). Oligonukleotidai yra priimtini, jei jų antrinė struktūra Tm ir ΔG vertė yra mažesnė už vartotojo nustatytas ribas.

Zondas specifiškumo patikrinimas

Zondo specifiškumo patikrinimas yra vienas iš pagrindinių oli2go bruožų. Šis žingsnis analizuoja kiekvieną galimą zondo kandidatą su BLAST pagal vartotojo apibrėžtas duomenų bazes (1 lentelė). Gauti derinimo įvykiai lyginami su tikslinės sekos įvykiais, sugeneruotais failo paruošimo darbo eigoje. Bus priimti tik tie zondai, kurie jungiasi prie tų pačių sekų kaip ir jų tikslinė seka.

Grunto apibrėžimas ir specifiškumo patikrinimas

Konkretūs zondai, gauti remiantis ankstesniu specifiškumo patikrinimu, yra naudojami siekiant surasti galimus pirminius ir atvirkštinius pradmenų kandidatus, kurie yra šalia hibridizacijos oligonukleotido. Zondo aptikimo galimybė priklauso nuo susijusių pradmenų specifiškumo ir ankstesnės DNR amplifikacijos reakcijos. „Oli2go“ išleis tinkamas pradmenų poras (kiekvienoje po vieną priekinį ir atvirkštinį pradmenis), kurios sukuria nustatyto dydžio diapazono produktą, nesudaro jokių antrinių struktūrų ir rodo minimalų Δ skirtumąG vertybes. Pradmenų specifiškumo patikrinimas atliekamas siekiant sumažinti pradmenų prisijungimo prie žmogaus fono DNR riziką. Pradiniai kandidatai yra suderinami naudojant „Burrows-Wheeler Aligner“ (BWA) prie žmogaus etaloninio genomo, atsisiunčiamo iš NCBI FTP serverio (20).

Grunto dimerio patikrinimas

Kryžminis dimeris arba pradmenų dimerio tikrinimas yra svarbus projektavimo žingsnis siekiant optimizuoti pradmenų veikimą multipleksinėse reakcijose. „Oli2go“ naudoja „Primer3“ ntthal ir vartotojo apibrėžtą ΔG ir Tm vertės, kad būtų galima patikrinti kryžminį dimerizaciją. Konkrečios priekinio ir atvirkštinio pradmenų poros, atsirandančios dėl ankstesnės projektavimo užduoties, sudaro paskutinio darbo eigos etapo įvestį. Jis prasideda nuo įvesties sekos, kurioje yra mažiausiai specifinių pradmenų. Šie pradmenys tikrinami pagal visus kitus galimus kitų įvesties sekų pradmenis. Pirmieji rezultatai apima pradmenų poras, kurios neviršija kryžminės dimerizacijos slenksčių. If the results contain at least one primer pair for each sequence, each one is checked against the other primers in the results. Finally, for each input sequence one primer pair forming no cross dimerization with all other sequences is returned.

Išvestis

The output is presented on a separate web-page and includes a table showing the resulting primers and probes, their Tm’s, product sizes, hairpin Tm’s, and ΔG vertybes. The table also contains web links to NCBI’s online BLAST and Primer-BLAST to perform additional analysis. This table can also be downloaded as comma-separated values (CSV) file. Furthermore, primer and probe sequences as well as the initial input sequences are available in FASTA format. The used design parameters can be downloaded as text file.

Įgyvendinimas

The software workflow runs on a Linux server (64 CPUs, 256GB RAM). The main software packages used for the implementation are BLAST 2.7.0+, ntthal (which is part of Primer3 2.3.7), BWA, and Python 2.7 together with the Biopython library ( 21). In order to maximize the utilization of the server resources, most of the workflow steps are running in parallel using multithreading. The highly responsive user interface is implemented using Bootstrap 3.3.7 and enables the user to use oli2go on almost any device capable of entering the internet via browser ranging from Laptops, Tablets to Smartphones. Oli2go is freely accessible to all users at http://oli2go.ait.ac.at/.


A new feature was added to Primer-BLAST.

Tue, 29 Sep 2020 12:00:00 EST

We have added a new function to Primer-BLAST that helps users design primers common for a group of highly similar sequences.

Many users want to test if a gene is expressed but they don’t know or they don't care which transcripts are expressed. However, they do want primers to cover all transcript variants. Additionally, some users would like to have primers to cover a group of highly related bacteria strains.

Given a group of highly similar sequences, Primer-BLAST attempts to generate primers that are common for all sequences in this group. To find such primers, it uses BLAST to align the longest sequence among the group to the rest to find common regions which are then used to limit the locations of primers. The longest sequence is also used as the representative template sequence.

See the NCBI Insights post for an example search and more details.


Family-Specific Degenerate Primer Design: A Tool to Design Consensus Degenerated Oligonucleotides

Designing degenerate PCR primers for templates of unknown nucleotide sequence may be a very difficult task. In this paper, we present a new method to design degenerate primers, implemented in family-specific degenerate primer design (FAS-DPD) computer software, for which the starting point is a multiple alignment of related amino acids or nucleotide sequences. To assess their efficiency, four different genome collections were used, covering a wide range of genomic lengths: Arenavirus (

nucleotides), Baculovirus (

bp), Lactobacillus sp. (

bp), and Pseudomonas sp. ( to

bp). In each case, FAS-DPD designed primers were tested computationally to measure specificity. Designed primers for Arenavirus ir Baculovirus were tested experimentally. The method presented here is useful for designing degenerate primers on collections of related protein sequences, allowing detection of new family members.

1. Įvadas

The polymerase chain reaction (PCR), one of the most important analytical tools of molecular biology, allows a highly sensitive detection and specific genotyping of environmental samples, specially important in the metagenomic era [1]. A large list of genome typing applications includes arbitrarily primed PCR [2] (AP-PCR), random amplified primed DNAs [3] (RAPDs), PCR restriction fragment length polymorphism [4] (PCR-RFLP), and direct amplification of length polymorphism [5] (DALP). All of these techniques require a high quality and purity of the specific target template, because any available DNA could be substrate for the amplification step. In view of this, genotyping procedures of large genomes or complex samples are more reliable if they are based on DNA amplification using specific oligonucleotides. Therefore, primer design is crucial for efficient and successful amplification.

Several primer design programs are available (e.g., OLIGO [6], OSP [7, 8], Primer Master [9], PRIDE [10], Primer3 [11], among others). Regardless of each computational working strategy, all of these use a set of common criteria (e.g.,

content, melting temperature, etc.) to evaluate the quality of primer candidates in a specific target region selected by the user. Alternative programs are aimed at more specific purposes, such as selection of primers that bind to conserved genomic regions based on multiple sequence alignments [12, 13], primer design for selective amplification of protein-coding regions [14], oligonucleotide design for site-directed mutagenesis [15], and primer design for hybridization [16]. Usually, the design of truly specific primers requires the information of the complete nucleotide sequence. This is the starting point for most of the programs described in the literature. However, the need of designing specific primers is not always accompanied by the complete knowledge of the target genome sequence.

A primer, or more generally any DNA sequence, is called specific if it represents a unique sequence and is called degenerate if it represents a collection of unique sequences. For example, the amino acid sequence “YHP” could be coded by “TATCATCCC,” “TACCATCCA,” or “TACCACCCG,” among others all of these are unique sequences that can be summarized in a “degenerate” nucleotide sequence “TAYCARCCN,” using IUPAC code. Operatively, the use of a degenerate primer implies the use of a population of specific primers that cover all the possible combinations of nucleotide sequences coding for a given protein sequence. Also, primers including modified bases can be used. Some modified bases can match different bases.

Although the increase in degeneracy rises the chance of unspecific annealing of the designed primers, it also increases the probability of finding unknown divergent variants of a sequence family. This dual behavior must be taken into account during the design. Algorithmic search of primers that include degenerated positions is usually defined as the degenerate primer design (DPD) problem. In recent years, several methods were developed to solve DPD problem. Each one has a specific scope or is designed to solve a variant of the problem, but all of them aim to minimize the number of degenerations of the resulting primers.

The DPD problem was expressed in different ways by many researchers. Linhart and Shamir [17] presented the maximum coverage DPD problem (MC-DPD), with the goal of finding a primer that covers the maximum number of input sequences. The selection of primers is constrained by limiting the maximum degeneracy. They also stated the minimum degeneracy DPD problem (MD-DPD), in which the objective is finding a primer with the minimum degeneracy that covers all the input sequences. To solve MC-DPD they have developed the HYDEN program [18]. Wei et al. [19] developed the DePiCt program that uses hierarchical clustering of protein blocks to design the primers. Rose et al. [20] developed a method for hybrid degenerate-nondegenerate primers, where the 3′ region is degenerated and its 5′ region is a consensus clamp. It was implemented in CODEHOP [21] and iCODEHOP [22] programs and was used to search new members of protein families and for identification and characterization of viral genomes. Balla and Rajasekaran [23] described a method for a variant of MD-DPD that tolerates mismatch errors, implemented in the minDPS program. The programs PT-MIPS and PAMPS address mainly the problem of multiple degenerate primer design. The aim of these programs is finding the minimum number of degenerate primers that cover all the input sequences, taking into account that none of them may be more degenerated than an input value.

In this study a new method for solving the DPD problem is proposed, in which the focus is shifted away from the global minimum degenerated primer in favor of maximizing a score value which contains degeneracy but weighted by its proximity to the 3′ end of the primer. This minimizes the degeneracy at that end while allowing more freedom in the remaining positions. Hereby, the best scoring primers may not be the less degenerated, but take into account a biological restraint that is not so heavily considered in other methods. The 3′ end is the essential anchoring site because it is where the polymerase initiates its activity. From a strategic point of view, a decision must be made whether or not to allow degeneracy at this end. The presence of degeneracy at the 3′ end probably assures a greater diversity of sequences to be detected. However, at the same time, it diminishes the proportion of primer specific for a given sequence. Therefore, we decided to be very strict in the search of conserved regions and minimize the amount of degeneracy incorporated at this end. If the input set of sequences is sufficiently large, it is highly probable that a region identified as conserved among all known sequences will likewise be conserved in any new member of the family.

2. Scoring and Primer Search Strategy

The method presented here can be used starting with DNA or protein sequence alignments (Figure 1(a)). If the input was DNA, sequences were aligned to obtain one global degenerate DNA consensus. If the input was a protein alignment, each protein of the alignment is backtranslated into a degenerate DNA sequence. All the degenerate DNA sequences were combined in one global degenerate DNA consensus. This consensus sequence covers all the putative input sequences that could be the origin of each protein sequence (Figure 1(b)). Also, the consensus sequence may code for amino acids that were not detected in the known sequences. This is inevitable given the kind of degeneracy of the genetic code.


a)
b)

Nuorodos

Richardson AO, Palmer JD: Horizontal gene transfer in plants. J Exp Bot. 2007, 58 (1): 1-9.

Acuna R, Padilla BE, Florez-Ramos CP, Rubio JD, Herrera JC, Benavides P, Lee SJ, Yeats TH, Egan AN, Doyle JJ: Adaptive horizontal transfer of a bacterial gene to an invasive insect pest of coffee. Proc Natl Acad Sci JAV. 2012, 109 (11): 4197-4202.

Davies J, Davies D: Origins and evolution of antibiotic resistance. Microbiol Mol Biol Rev. 2010, 74 (3): 417-433. 10.1128/MMBR.00016-10.

Ochman H, Lawrence JG, Groisman EA: Lateral gene transfer and the nature of bacterial innovation. Gamta. 2000, 405 (6784): 299-304. 10.1038/35012500.

Dobrindt U, Hochhut B, Hentschel U, Hacker J: Genomic islands in pathogenic and environmental microorganisms. Nat Rev Microbiol. 2004, 2 (5): 414-424. 10.1038/nrmicro884.

Keeling PJ, Palmer JD: Horizontal gene transfer in eukaryotic evolution. Nat Rev Genet. 2008, 9 (8): 605-618. 10.1038/nrg2386.

Feschotte C, Pritham EJ: DNA transposons and the evolution of eukaryotic genomes. Annu Rev Genet. 2007, 41: 331-368. 10.1146/annurev.genet.40.110405.090448.

Schaack S, Gilbert C, Feschotte C: Promiscuous DNA: horizontal transfer of transposable elements and why it matters for eukaryotic evolution. Tendencijos Ecol Evol. 2010, 25 (9): 537-546. 10.1016/j.tree.2010.06.001.

Cho Y, Qiu YL, Kuhlman P, Palmer JD: Explosive invasion of plant mitochondria by a group I intron. Proc Natl Acad Sci JAV. 1998, 95 (24): 14244-14249. 10.1073/pnas.95.24.14244.

Bergthorsson U, Adams KL, Thomason B, Palmer JD: Widespread horizontal transfer of mitochondrial genes in flowering plants. Gamta. 2003, 424 (6945): 197-201. 10.1038/nature01743.

Won H, Renner SS: Horizontal gene transfer from flowering plants to Gnetum. Proc Natl Acad Sci JAV. 2003, 100 (19): 10824-10829. 10.1073/pnas.1833775100.

Bergthorsson U, Richardson AO, Young GJ, Goertzen LR, Palmer JD: Massive horizontal transfer of mitochondrial genes from diverse land plant donors to the basal angiosperm Amborella. Proc Natl Acad Sci JAV. 2004, 101 (51): 17747-17752. 10.1073/pnas.0408336102.

Davis CC, Wurdack KJ: Host-to-parasite gene transfer in flowering plants: phylogenetic evidence from Malpighiales. Mokslas. 2004, 305 (5684): 676-678. 10.1126/science.1100671.

Mower JP, Stefanovic S, Young GJ, Palmer JD: Plant genetics: gene transfer from parasitic to host plants. Gamta. 2004, 432 (7014): 165-166.

Davis CC, Anderson WR, Wurdack KJ: Gene transfer from a parasitic flowering plant to a fern. Proc Biol Sci. 2005, 272 (1578): 2237-2242. 10.1098/rspb.2005.3226.

Diao X, Freeling M, Lisch D: Horizontal transfer of a plant transposon. PLoS Biol. 2006, 4 (1): e5-10.1371/journal.pbio.0040005.

Barkman TJ, McNeal JR, Lim SH, Coat G, Croom HB, Young ND, Depamphilis CW: Mitochondrial DNA suggests at least 11 origins of parasitism in angiosperms and reveals genomic chimerism in parasitic plants. BMC Evol Biol. 2007, 7: 248-10.1186/1471-2148-7-248.

Goremykin VV, Salamini F, Velasco R, Viola R: Mitochondrial DNA of Vitis vinifera and the issue of rampant horizontal gene transfer. Mol Biol Evol. 2009, 26 (1): 99-110.

Yoshida S, Maruyama S, Nozaki H, Shirasu K: Horizontal gene transfer by the parasitic plant Striga hermonthica. Mokslas. 2010, 328 (5982): 1128-10.1126/science.1187145.

Sanchez-Puerta MV, Cho Y, Mower JP, Alverson AJ, Palmer JD: Frequent, phylogenetically local horizontal transfer of the cox1 group I Intron in flowering plant mitochondria. Mol Biol Evol. 2008, 25 (8): 1762-1777. 10.1093/molbev/msn129.

Christin PA, Edwards EJ, Besnard G, Boxall SF, Gregory R, Kellogg EA, Hartwell J, Osborne CP: Adaptive evolution of C(4) photosynthesis through recurrent lateral gene transfer. Curr Biol. 2012, 22 (5): 445-449. 10.1016/j.cub.2012.01.054.

Vallenback P, Jaarola M, Ghatnekar L, Bengtsson BO: Origin and timing of the horizontal transfer of a PgiC gene from Poa to Festuca ovina. Mol Phylogenet Evol. 2008, 46 (3): 890-896. 10.1016/j.ympev.2007.11.031.

Hepburn NJ, Schmidt DW, Mower JP: Loss of Two Introns from the Magnolia tripetala Mitochondrial cox2 Gene Implicates Horizontal Gene Transfer and Gene Conversion as a Novel Mechanism of Intron Loss. Mol Biol Evol. 2012, 29 (10): 3111-3120. 10.1093/molbev/mss130.

Park JM, Manen JF, Schneeweiss GM: Horizontal gene transfer of a plastid gene in the non-photosynthetic flowering plants Orobanche and Phelipanche (Orobanchaceae). Mol Phylogenet Evol. 2007, 43 (3): 974-985. 10.1016/j.ympev.2006.10.011.

Xi Z, Bradley RK, Wurdack KJ, Wong KM, Sugumaran M, Bomblies K, Rest JS, Davis CC: Horizontal transfer of expressed genes in a parasitic flowering plant. BMC genomika. 2012, 13 (1): 227-10.1186/1471-2164-13-227.

Birschwilks M, Haupt S, Hofius D, Neumann S: Transfer of phloem-mobile substances from the host plants to the holoparasite Cuscuta sp. J Exp Bot. 2006, 57 (4): 911-921. 10.1093/jxb/erj076.

Tomilov AA, Tomilova NB, Wroblewski T, Michelmore R, Yoder JI: Trans-specific gene silencing between host and parasitic plants. Plant J. 2008, 56 (3): 389-397. 10.1111/j.1365-313X.2008.03613.x.

Westwood JH, Roney JK, Khatibi PA, Stromberg VK: RNA translocation between parasitic plants and their hosts. Pest Manag Sci. 2009, 65 (5): 533-539. 10.1002/ps.1727.

Louis S, Delobel B, Gressent F, Rahioui I, Quillien L, Vallier A, Rahbe Y: Molecular and biological screening for insect-toxic seed albumins from four legume species. Plant Sci. 2004, 167 (4): 705-714. 10.1016/j.plantsci.2004.04.018.

Louis S, Delobel B, Gressent F, Duport G, Diol O, Rahioui I, Charles H, Rahbe Y: Broad screening of the legume family for variability in seed insecticidal activities and for the occurrence of the A1b-like knottin peptide entomotoxins. Phytochemistry. 2007, 68 (4): 521-535. 10.1016/j.phytochem.2006.11.032.

Gelly JC, Gracy J, Kaas Q, Le-Nguyen D, Heitz A, Chiche L: The KNOTTIN website and database: a new information system dedicated to the knottin scaffold. Nucleic Acids Res. 2004, 32 (Database issue): D156-D159.

Clark RJ, Jensen J, Nevin ST, Callaghan BP, Adams DJ, Craik DJ: The engineering of an orally active conotoxin for the treatment of neuropathic pain. Angew Chem Int Ed Engl. 2010, 49 (37): 6545-6548. 10.1002/anie.201000620.

Wang X, Connor M, Smith R, Maciejewski MW, Howden ME, Nicholson GM, Christie MJ, King GF: Discovery and characterization of a family of insecticidal neurotoxins with a rare vicinal disulfide bridge. Nat Struct Biol. 2000, 7 (6): 505-513. 10.1038/75921.

Jackson PJ, McNulty JC, Yang YK, Thompson DA, Chai B, Gantz I, Barsh GS, Millhauser GL: Design, pharmacology, and NMR structure of a minimized cystine knot with agouti-related protein activity. Biochemija. 2002, 41 (24): 7565-7572. 10.1021/bi012000x.

Clark RJ, Daly NL, Craik DJ: Structural plasticity of the cyclic-cystine-knot framework: implications for biological activity and drug design. Biochem J. 2006, 394 (Pt 1): 85-93.

Combelles C, Gracy J, Heitz A, Craik DJ, Chiche L: Structure and folding of disulfide-rich miniproteins: insights from molecular dynamics simulations and MM-PBSA free energy calculations. Baltymai. 2008, 73 (1): 87-103. 10.1002/prot.22054.

Silverman AP, Levin AM, Lahti JL, Cochran JR: Engineered cystine-knot peptides that bind alpha(v)beta(3) integrin with antibody-like affinities. J Mol Biol. 2009, 385 (4): 1064-1075. 10.1016/j.jmb.2008.11.004.

Lewis GP: Legumes of the World. 2005, Kew: Royal Botanic Gardens

Joel DM: The new nomenclature of Orobanche and Phelipanche. Weed Res. 2009, 49: 6-7.

Schneeweiss GM: Correlated evolution of life history and host range in the nonphotosynthetic parasitic flowering plants Orobanche and Phelipanche (Orobanchaceae). J Evol Biol. 2007, 20 (2): 471-478. 10.1111/j.1420-9101.2006.01273.x.

Soltis DE, Smith SA, Cellinese N, Wurdack KJ, Tank DC, Brockington SF, Refulio-Rodriguez NF, Walker JB, Moore MJ, Carlsward BS: Angiosperm phylogeny: 17 genes, 640 taxa. Am J Bot. 2011, 98 (4): 704-730. 10.3732/ajb.1000404.

Parker C: Observations on the current status of Orobanche and Striga problems worldwide. Pest Manag Sci. 2009, 65 (5): 453-459. 10.1002/ps.1713.

Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ: Gapped BLAST ir PSI-BLAST: naujos kartos baltymų duomenų bazių paieškos programos. Nucleic Acids Res. 1997, 25 (17): 3389-3402. 10.1093/nar/25.17.3389.

Westwood JH, Yoder JI, Timko MP, dePamphilis CW: The evolution of parasitism in plants. Trends Plant Sci. 2010, 15 (4): 227-235. 10.1016/j.tplants.2010.01.004.

Goodstein DM, Shu S, Howson R, Neupane R, Hayes RD, Fazo J, Mitros T, Dirks W, Hellsten U, Putnam N: Phytozome: a comparative platform for green plant genomics. Nucleic Acids Res. 2012, 40 (Database issue): D1178-D1186.

Wojciechowski MF, Lavin M, Sanderson MJ: A phylogeny of legumes (Leguminosae) based on analysis of the plastid matK gene resolves many well-supported subclades within the family. Am J Bot. 2004, 91 (11): 1846-1862. 10.3732/ajb.91.11.1846.

Lavin M, Herendeen PS, Wojciechowski MF: Evolutionary rates analysis of Leguminosae implicates a rapid diversification of lineages during the tertiary. Syst Biol. 2005, 54 (4): 575-594. 10.1080/10635150590947131.

Gracy J, Le-Nguyen D, Gelly JC, Kaas Q, Heitz A, Chiche L: KNOTTIN: the knottin or inhibitor cystine knot scaffold in 2007. Nucleic Acids Res. 2008, 36 (Database issue): D314-D319.

Westwood JH: The Parasitic Plant Genome Project: New Tools for Understanding the Biology of Orobanche and Striga. Piktžolės Sci. 2012, 60 (2): 295-306. 10.1614/WS-D-11-00113.1.

Schneeweiss GM, Colwell A, Park JM, Jang CG, Stuessy TF: Phylogeny of holoparasitic Orobanche (Orobanchaceae) inferred from nuclear ITS sequences. Mol Phylogenet Evol. 2004, 30 (2): 465-478. 10.1016/S1055-7903(03)00210-0.

Schneeweiss GM, Palomeque T, Colwell AE, Weiss-Schneeweiss H: Chromosome numbers and karyotype evolution in holoparasitic Orobanche (Orobanchaceae) and related genera. Am J Bot. 2004, 91 (3): 439-448. 10.3732/ajb.91.3.439.

Manen JF, Habashi C, Jeanmonod D, Park JM, Schneeweiss GM: Phylogeny and intraspecific variability of holoparasitic Orobanche (Orobanchaceae) inferred from plastid rbcL sequences. Mol Phylogenet Evol. 2004, 33 (2): 482-500. 10.1016/j.ympev.2004.06.010.

Nickrent D: The Parasitic Plant Connection. http://www.parasiticplants.siu.edu/,

Johnson F: Transmission of plant viruses by dodder. Phytopathology. 1941, 31 (7): 649-656.

Bennett CW: Studies of dodder transmission of plant viruses. Phytopathology. 1944, 34 (10): 905-932.

Roney JK, Khatibi PA, Westwood JH: Cross-species translocation of mRNA from host plants into the parasitic plant dodder. Augalų fiziolis. 2007, 143 (2): 1037-1043.

David-Schwartz R, Runo S, Townsley B, Machuka J, Sinha N: Long-distance transport of mRNA via parenchyma cells and phloem across the host-parasite junction in Cuscuta. Naujasis Phytol. 2008, 179 (4): 1133-1141. 10.1111/j.1469-8137.2008.02540.x.

Olmstead RG, dePamphilis CW, Wolfe AD, Young ND, Elisons WJ, Reeves PA: Disintegration of the Scrophulariaceae. Am J Bot. 2001, 88 (2): 348-361. 10.2307/2657024.

Edgar RC: MUSCLE: a multiple sequence alignment method with reduced time and space complexity. BMC bioinformatika. 2004, 5: 113-10.1186/1471-2105-5-113.

Stamatakis A: RAxML-VI-HPC: maximum likelihood-based phylogenetic analyses with thousands of taxa and mixed models. Bioinformatika. 2006, 22 (21): 2688-2690. 10.1093/bioinformatics/btl446.

Drummond AJ, Rambaut A: BEAST: Bayesian evolutionary analysis by sampling trees. BMC Evol Biol. 2007, 7: 214-10.1186/1471-2148-7-214.

Sanderson MJ: r8s: inferring absolute rates of molecular evolution and divergence times in the absence of a molecular clock. Bioinformatika. 2003, 19 (2): 301-302. 10.1093/bioinformatics/19.2.301.

Gracy J, Chiche L: Optimizing structural modeling for a specific protein scaffold: knottins or inhibitor cystine knots. BMC bioinformatika. 2010, 11: 535-10.1186/1471-2105-11-535.

Pond SL, Frost SD, Muse SV: HyPhy: hypothesis testing using phylogenies. Bioinformatika. 2005, 21 (5): 676-679. 10.1093/bioinformatics/bti079.

Li H, Durbin R: Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatika. 2009, 25 (14): 1754-1760. 10.1093/bioinformatics/btp324.

Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R: The Sequence Alignment/Map format and SAMtools. Bioinformatika. 2009, 25 (16): 2078-2079. 10.1093/bioinformatics/btp352.

Quinlan AR, Hall IM: BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatika. 2010, 26 (6): 841-842. 10.1093/bioinformatics/btq033.


Medžiagos

It is noteworthy that the design of the degenerate primer pair reported in this present study was effectively executed by the synergy of different software programs and web servers. The software programs used here include the open-sourced Highly Degenerate primer (HYDEN) design program accessible from (http://acgt.cs.tau.ac.il/hyden/hyden_license.html) [7], FastPCR v6.7 (http://primerdigital.com/Fastpcr.html) [14], Geneious Prime software version2020.1.2 (www.geneious.com/prime/). The degenerate primer pair reported in this study was designed on a hp personal computer composed of a 64-bit operating system, ×64-based processor, 2 CPUs, and a storage of 500 GB. The material used in this study were 88 catA genes from authentic bacterial strains known to possess the catabolic gene. The gene sequences were downloaded in FASTA format from NCBI database accessible from (https://ncbi.nlm.nih.gov). Files interconversion from the extension .txt to FASTA format was achieved through an open-sourced web server accessible from (http://www.hiv.lanl.gov/content/sequence/FORMAT_CONVERSION/form.html).


Diskusija

We developed and curated a reference database for 67 fish species, belonging to 54 genera that are widespread across the Neotropical realm, and used it to develop a 12S mini-barcode marker and estimate a genetic distance threshold value for Neotropical fish species delimitation. Having a reference database associated with mini-barcode primer sets specific for Neotropical species is an important asset for DNA metabarcoding, especially when analyzing eDNA samples from such megadiverse fauna 21,22 .

The taxonomic resolution of 12S full and mini barcodes libraries provided enough molecular polymorphism to differentiate all 67 morpho-species. Moreover, the 12S full-length barcode (ca. 565 bp) was sufficient to discriminate all 70 MOTUs, which was in accordance with previous molecular (COI based) identifications of the same specimens 28 . Interestingly, the mini-barcode region’s (i.e. 193 bp—NeoFish_3) taxonomic resolution performed similarly to the full-length database, providing the same number of MOTUs when applying the GMYC and genetic distances thresholds analyses (70 MOTUs). The other analyses of the mini-barcode dataset overestimated the number of MOTUs (bPTP with 76) or underestimated it (ABGD with 67 MOTUs).

When performing genetic distance threshold analysis using the full-length library, we obtained a threshold value (0.40%, Fig. 4a) similar to our mini-barcode region (0.55%, Fig. 4b). Fish species delimitation threshold values based on the 12S region are an important reference for future studies using this marker, but they may need to establish a priori reference value when interpreting genetic distance data, such as the 2% widely used for COI 53 . Although we have analyzed several genera from all major Neotropical fish taxa, it is important to note that its value will be more robust and better reflect the real divergence between species when more species are added to our reference database.

Species delimitation and taxonomic resolution analyses revealed the potential of NeoFish_3 amplicons to reliably identify species, since there was no relevant disparity between full-length and mini barcode libraries for these analyses. Similar results were obtained for the COI gene, as a comparison between full-length and mini barcodes, especially when it was used in degraded samples. This demonstrates that the latter is informative for species-level sorting of: (1) major eukaryotic groups and archival specimens 45 (2) moth and wasp museum specimens 54 , and (3) several bird species 55 . However, few congeneric species have been analyzed in this study, and thus, to overcome this putative drawback, future analyses should include a higher number of species from the same genus to provide even more robust results.

SWAN analysis showed that the target NeoFish_3 amplicon would be the best region for taxonomic differentiation of species since it recovered the best indices in all established criteria (Fig. 2). However, we did not analyze the whole 12S gene of all species to proper compare the NeoFish_3 to other previously used amplicons (MifishU and Teleo1) using characteristics such as taxonomic resolution and best primer site. The target 12S rRNA gene region used to build our reference database represents approximately 60% of the 12S full-length gene (952 bp) (Fig. 1a) and includes only a small fragment of the 12S region amplified by the MiFishU marker and also the initial region of the forward Teleo1 (Fig. 1b).

In vitro tests showed that the newly developed NeoFish_3 marker is efficient and thus, was able to amplify the target region of the 12S rRNA gene from 22 tissue DNA extracts and environmental DNA recovered from an aquarium containing one fish species (Supplementary Table S1 Fig. S1). However, further evaluation of amplification success with samples obtained from Neotropical river basins using a DNA metabarcoding approach for a whole fish community is recommended, as different types of environmental samples will vary in patterns of DNA degradation and exposure to inhibitors 33 . Although 67 fish species represent a low percentage of the Neotropical freshwater fish species, they nevertheless account for the main Neotropical orders, since we include DNA of species from Characiformes, Cyprinodontiformes, Gymnotiformes, Perciformes, Siluriformes, and Synbranchiformes.

Amplification of non-target organisms has been previously reported as a drawback of universal eDNA available primer sets that led to the use of human blocking primers to avoid cross amplification. When comparing amplification of non-target taxa to previously designed primers sets (Teleo1 and MiFishU), a better specificity of NeoFish_3 was detected with our in silico PCR analysis. For Teleo1 and MiFishU the amplification rate for Mammalia, including Homo sapiens, was over 1000 sequences (Table 2), while the NeoFish_3 had no cross amplification of these. Moreover, when using the Teleo1 and MiFishU markers to assess fish communities diversity in French Guiana 21 and Japan 31 , both papers report amplification of DNA from insects and mammals when analyzing eDNA samples. Such untargeted amplification and detection in eDNA studies may hamper the identification of rare species since it may consume most of the DNA sequences obtained 29,56 . However, before assuming that NeoFish_3 outperformed other 12S mini-barcode markers, in situ tests would be needed to check if there would indeed be lower amplification of non-targeted species.

Herein, we applied a powerful framework for the development and validation of a fish-specific primer set together with a custom reference database aimed at DNA metabarcoding analysis in the Neotropical realm. Species delimitation analyses strongly suggest that even when using a short region of the 12S mitochondrial region, we could discriminate each taxon to the species level. In addition, we were able to set an interspecific distance-based threshold for species delimitation that would be helpful throughout bioinformatics metabarcoding short reads analysis. Thus, our custom reference database and mini-barcodes markers are an important asset for an ecoregion scale DNA based biodiversity evaluation, such as eDNA metabarcoding, that can help with the complex task of conserving the megadiverse Neotropical ichthyofauna.


Žiūrėti video įrašą: Primer3plus (Gruodis 2022).