reciprocal_smallest_distance is een paarsgewijze orthologie algoritme dat de wereldwijde sequentiealignering en maximum likelihood evolutionaire afstand tussen sequenties om nauwkeurig orthologa tussen genoom detecteert gebruikt.
Het installeren van een tarball
Downloaden en uitpakken van de laatste versie van GitHub:
cd ~
krul -L https://github.com/downloads/todddeluca/reciprocal_smallest_distance/reciprocal_smallest_distance-VERSION.tar.gz | Tar xvz
Installeer reciprocal_smallest_distance, en zorg ervoor dat Python 2.7 gebruiken:
cd reciprocal_smallest_distance-VERSIE
python setup.py installeren
Met behulp van RSD om Othologs zoeken
Het volgende voorbeeld commando's tonen de belangrijkste manieren om rsd_search draaien. Elke aanroeping van rsd_search vereist het opgeven van de locatie van een FASTA geformatteerd opeenvolging bestand voor twee genomen, genaamd de query en het onderwerp genomen. Hun volgorde is willekeurig, maar als je de optie --ids gebruiken, moet de id's komen uit de query genoom. U moet een bestand naar de resultaten van de orthologen gevonden door de RSD algoritme schrijven specificeren. Het formaat van de output bestand bevat één orthologon per regel. Elke regel bevat de zoeksequentie id, onderwerp sequence id, en de afstand (berekend door codeml) tussen de sequenties. U kunt een bestand met ids met de optie --ids optioneel opgeven. Dan RSD zal alleen naar orthologen voor die ids. Met behulp van --divergence en --evalue, heeft u de mogelijkheid van het gebruik van verschillende drempels van de standaardinstellingen.
Hulp krijgen over hoe rsd_search, rsd_blast, of rsd_format draaien:
rsd_search -h
rsd_blast -h
rsd_format -h
Vind orthologa tussen alle sequenties in de query en het onderwerp genomen, met behulp van standaard divergentie en eValue drempels
voorbeelden rsd_search -q / genoom / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genoom = voorbeelden / genoom / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
Vind orthologa gebruik van meerdere non-default divergentie en eValue drempels
voorbeelden rsd_search -q / genoom / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genoom = voorbeelden / genoom / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.several.orthologs.txt
--de 0,2 1e-20 --de 0,5 0,00001 --de 0,8 0,1
Het is niet nodig om een FASTA bestand voor BLAST formatteren of berekenen BLAST raakt omdat rsd_search doet het voor je.
Maar als u van plan op het runnen van rsd_search meerdere keren voor dezelfde genomen, met name voor grote genomen, kunt u tijd besparen door gebruik rsd_format aan de FASTA bestanden en rsd_blast preformatting om precomputing de BLAST raakt. Bij het uitvoeren van rsd_blast, zorg ervoor dat u een --evalue gebruiken zo groot als de grootste eValue drempel u van plan bent om te geven aan rsd_search.
Hier is hoe je een paar FASTA bestanden te formatteren in de plaats:
rsd_format -g voorbeelden / genoom / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
rsd_format -g voorbeelden / genoom / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
En hier is hoe de FASTA bestanden te formatteren, waardoor de resultaten in een andere directory (de huidige directory in dit geval)
rsd_format -g voorbeelden / genoom / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa -d.
rsd_format -g voorbeelden / genoom / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa -d.
Hier is hoe om vooruit te berekenen en achteruit blast klappen (met behulp van de standaard eValue):
rsd_blast -v -q voorbeelden / genoom / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genoom = voorbeelden / genoom / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
--forward-treffers q_s.hits --reverse-treffers s_q.hits
Hier is hoe om vooruit te berekenen en achteruit blast raakt voor rsd_search, gebruik genomen die al zijn geformatteerd voor ontploffing en een niet-standaard eValue
rsd_blast -v -q Mycoplasma_genitalium.aa
--subject-genoom = Mycobacterium_leprae.aa
--forward-treffers q_s.hits --reverse-treffers s_q.hits
--no-formaat --evalue 0,1
Vind orthologen van alle sequenties in de query en onderwerp genomen middels genomen reeds geformatteerd voor blast
rsd_search -q Mycoplasma_genitalium.aa
--subject-genoom = Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
--no-formaat
Vind orthologen van alle sequenties in de query en onderwerp genomen met treffers reeds berekend. Merk op dat --no-formaat is aanwezig, want sinds de explosie treffers reeds berekend het genoom hoeven niet te worden geformatteerd voor explosie.
rsd_search -v --query-genoom Mycoplasma_genitalium.aa
--subject-genoom = Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.default.orthologs.txt
--forward-treffers q_s.hits --reverse-treffers s_q.hits --no-formaat
Zoek orthologen specifieke sequenties in het genoom zoekopdracht. Voor het vinden van orthologa voor slechts een paar sequenties, met behulp van --no-blast-cache kan versnellen berekening. YMMV.
voorbeelden rsd_search -q / genoom / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genoom = voorbeelden / genoom / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o voorbeelden / Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
--ids voorbeelden / Mycoplasma_genitalium.aa.ids.txt --no-blast-cache
Output Formats
Orthologen kunnen worden opgeslagen in verschillende formaten met behulp van de --outfmt mogelijkheid rsd_search. Het standaard formaat, --outfmt -1, verwijst naar --outfmt 3. Geïnspireerd door Uniprot DAT-bestanden, een set van orthologen begint met een parameters lijn, dan heeft 0 of meer orthologon lijnen, heeft dan een einde lijn. De parametes zijn de query genoom, het onderwerp genoom naam, divergentie drempel, en eValue drempel. Elke orthologon is op een enkele lijn een opsomming van de zoeksequentie id, het onderwerp sequence id, en de maximale schatting waarschijnlijkheid afstand. Dit formaat kan orthologa voor meerdere sets van parameters in een enkel bestand, evenals sets van parameters zonder orthologen vertegenwoordigen. Daarom is het geschikt voor rsd_search bij het specificeren van meerdere divergentie eValue drempelwaarden.
Hier is een voorbeeld met 2 parametercombinaties, waarvan geen orthologen:
PA tLACJO tYEAS7 t0.2 T1E-15
OF tQ74IU0 tA6ZM40 t1.7016
OF tQ74K17 tA6ZKK5 t0.8215
//
PA tMYCGE tMYCHP t0.2 T1E-15
//
De originele formaat van RSD, --outfmt 1, is voorzien voor achterwaartse compatibiliteit. Elke regel bevat een ortholoog, voorgesteld als onderwerp sequence id, zoeksequentie id, en de maximale schatting waarschijnlijkheid afstand. Het kan slechts een enkele set van orthologen vertegenwoordigen in een bestand.
Voorbeeld:
A6ZM40 tQ74IU0 t1.7016
A6ZKK5 tQ74K17 t0.8215
Ook voorzien voor achterwaartse compatibiliteit is een indeling die intern wordt gebruikt door Roundup (http://roundup.hms.harvard.edu/) die is als het origineel RSD-formaat, met uitzondering van de id-kolom zoeksequentie wordt voordat het onderwerp sequentie id.
Voorbeeld:
Q74IU0 tA6ZM40 t1.7016
Q74K17 tA6ZKK5 t0.8215
Eisen
- Python
- NCBI BLAST 2.2.24
- PAML 4.4
- kalign 2,04
Reacties niet gevonden