Outils bioinformatiques

Trans-NanoSim

Trans-NanoSim est un outil qui simule les lectures de séquences avec des caractéristiques techniques et spécifiques au transcriptome tirées des données de séquençage Nanopore. Cet outil est une alternative économique au séquençage de transcriptomes en laboratoire. Grâce à une comparaison avec d’autres simulateurs de lectures Nanopore, nous montrons l’avantage unique et la robustesse de Trans-NanoSim pour capturer les caractéristiques de l’ADN complémentaire du Nanopore et des lectures directes d’ARN. Des informations plus détaillées se retrouvent dans Hafezqorani S. et al. 2020. Pour accéder à NanoSim : https://github.com/bcgsc/NanoSim

ORCA

L’environnement bioinformatique ORCA est une image Docker qui contient des centaines d’outils bioinformatiques ainsi que leurs dépendances. L’image ORCA et l’infrastructure de serveur qui l’accompagne offrent un environnement bioinformatique complet pour l’éducation et la recherche. L’environnement ORCA sur un serveur est mis en œuvre à l’aide de conteneurs Docker, mais sans exiger que les utilisateurs interagissent directement avec Docker ; cela convient donc aux novices qui ne maîtrisent peut-être pas encore la gestion des conteneurs. ORCA a été utilisé avec succès pour fournir un environnement privé de bioinformatique à des collaborateurs externes d’un grand institut de génomique, pour enseigner un cours de premier cycle en bioinformatique à l’intention des biologistes et pour constituer une suite prête à l’emploi en bioinformatique pour un marathon de programmation. L’utilisation d’ORCA élimine le temps consacré au débogage des problèmes d’installation de logiciels, ce qui permet de mieux consacrer le temps disponible à l’éducation et à la recherche. Des informations plus détaillées sont disponibles dans Jackman et al 2019. Accédez à ORCA ici: https://hub.docker.com/r/bcgsc/orca/

RapidACi

RapidACi est un logiciel R destiné au traitement en lots des courbes de réponse rapide au dioxyde de carbone (A-Ci) générées par les systèmes portables LI-COR®. C’est un outil pour accélérer les mesures de phénotypage par photosynthèse. Des informations plus détaillées sont disponibles dans Coursolle et al 2019. Accédez à RapidACi ici: https://github.com/ManuelLamothe/RapidACi

ntEdit

À l’ère de la génomique moderne, les assemblages de séquences de génomes sont devenus aisés à obtenir. Cependant, selon la méthodologie utilisée, les ébauches d’assemblage peuvent contenir un nombre considérable d’erreurs de bases. ntEdit est une application de génomique ajustable permettant de polir les ébauches d’assemblage de génomes. ntEdit simplifie le polissage et l’ « haploïdisation » des séquences de gènes et de génomes grâce à sa conception de filtre de Bloom réutilisable. Nous prévoyons que ntEdit aura d’autres applications dans le positionnement rapide des polymorphismes simples de nucléotides entre les génomes de différents individus ou espèces. Nous avons généré des données de séquences d’épinette 17 fois redondantes à partir de sources de séquences haploïdes (mégagamétophytes de graines) et les avons utilisées pour éditer nos assemblages pseudo-haploïdes des génomes de l’épinette de l’intérieur et de l’épinette blanche (chacun de 20 Gbp) en <4 et <5h, respectivement, résultant en 50 millions éditions (substitutions et insertions-délétions) à un taux de 0,0024. Des informations plus détaillées sont fournies dans Warren et al 2019. Accéder à ntEdit ici: https://github.com/bcgsc/ntEdit.

Tigmint

Tigmint est un outil logiciel permettant de corriger les erreurs d’assemblage au sein des lectures de grandes molécules telles que celles générées par la plate-forme Chromium Genomics 10X. L’utilité de Tigmint est de corriger les assemblages provenant d’outils d’assemblage multiples, ainsi que d’utiliser des lectures Chromium pour corriger et échafauder les assemblages de séquençage de longues molécules uniques. Pour plus d’informations, consultez Jackman et al 2018. Pour accéder à Tigmint: https://github.com/bcgsc/tigmint.

ARKS

Les informations de séquençage à longue distance générées par les lectures de séquences liées, telles que celles provenant de 10× Genomics (10xG), aident à résoudre les répétitions de séquences génomiques et permettent d’obtenir des assemblages intérimaires de génomes précis et contigus. Nous présentons ARKS, une méthodologie sans alignement d’échafaudage du génome à l’aide de lectures de séquences liées, qui utilise les lectures liées pour organiser les assemblages du génome en des versions intérimaires contigües. Notre approche se démarque des autres échafaudeurs à lectures de séquences liées, y compris le nôtre (ARCS), car il utilise une approche de cartographie se basant sur les kmers. La stratégie de cartographie de kmers présente un certain nombre d’avantages par rapport aux méthodes d’alignement de lectures, notamment une meilleure convivialité et un traitement plus rapide, car elle évite le formatage des séquences d’entrée et l’indexation des assemblages intérimaires de séquences. Le recours à des kmers au lieu d’alignements de lectures pour les séquences appariées assouplit les exigences en matière de flux de calcul et réduit considérablement le temps d’exécution. Pour plus d’informations, consultez Coombe et al 2018. Pour accéder à ARKS: https://github.com/bcgsc/arks.

ARCS

Un nouvel outil a été développé, qui utilise les informations des codes à barres contenues dans les lectures de séquences liées pour améliorer la contigüité des assemblages intérimaires de génomes. Par exemple, l’outil a permis d’améliorer par un facteur de six la contiguïté d’un assemblage de génome d’Homo sapiens obtenu par ABySS, en se basant sur des données de séquençage Chromium avec couverture modérée (25X). Nous nous attendons à ce qu’ARCS ait une grande utilité dans l’exploitation des informations de codes à barres contenues dans les données de lecture de séquences liées pour intégrer les séquences de haute qualité dans les assemblages intérimaires de génomes. Pour plus d’informations, consultez Yeo et al 2018. Pour accéder à ARCS: https://github.com/bcgsc/ARCS/.

ChopStitch

Une nouvel algorithme a été mis au point pour identifier de novo les limites d’exons présumés et inférer les patrons d’épissage en utilisant un transcriptome assemblé et des données de séquençage du génome entier par méthode shotgun (WGSS). ChopStitch identifie les limites exon-exon dans les données d’ARN-Seq assemblées de novo à l’aide d’un filtre Bloom qui représente le spectre k-mer des lectures de WGSS. L’algorithme prend également en compte les substitutions de bases dans les séquences de transcription qui peuvent être dérivées d’erreurs de séquençage ou d’assemblage, de variations d’haplotypes ou d’événements présumés d’édition d’ARN. Pour plus d’informations, consultez Khan et al 2018. Pour accéder à ChopStitch: https://github.com/bcgsc/ChopStitch.

ABySS 2.0

ABySS 2.0 est la deuxième version de notre algorithme d’assemblage de séquences phares. Il améliore l’efficacité des ressources d’ABySS et fournit un support pour les technologies émergentes de séquençage, y compris celles de 10x Genomics (Pleasanton, CA), Pacific Biosciences (PacBio, Menlo Park, CA) et Oxford Nanopore Technologies (ONT, Oxford, Royaume-Uni). Nous avons démontré que ABySS 2.0 et ses algorithmes associés peuvent assembler des génomes humains à des échafaudages à l’échelle des chromosomes, en utilisant des ressources de calcul facilement disponibles sur des serveurs modernes. Pour plus d’informations, consultez Jackman, Vandevalk et al 2017. Pour accéder à ABySS 2.0: https://github.com/bcgsc/abyss.

Kollector

Kollector est une approche d’algorithme d’assemblage ciblé sans alignement permettant d’effectuer l’assemblage de séquences d’intérêt localement. Un cas d’utilisation typique de l’algorithme est l’assemblage de locus géniques d’organismes non-modèles en utilisant un ensemble de séquences de transcrits. Les séquences résultantes peuvent être facilement utilisées pour des recherches biologiques plus ciblées, par exemple pour étudier des éléments cis-régulateurs. Pour plus d’informations, consultez Kucuk et al 2017. Pour accéder à Kollector: https://github.com/bcgsc/kollector.

ntCard

ntCard permet une fonction bioinformatique fondamentale d’analyse du contenu en séquences de grands volumes de données brutes de séquençage. Il fournit des statistiques pour estimer la fréquence d’erreur de séquençage, la taille du génome et le contenu de répétitions en profilant le spectre k-mer des données d’entrée. ntCard implique un algorithme de calcul efficace qui peut traiter 90 fois la couverture du giga-génome de l’épinette en 30 minutes en utilisant 500 Mo de RAM. Pour plus d’informations, consultez Mohamadi, Khan et Birol, 2017. Pour accéder à ntCard: https://github.com/bcgsc/ntCard.

ntJoin

ntJoin, est un outil qui exploite la synténie structurelle entre une ébauche d’assemblage et une ou plusieurs séquences de référence pour rendre contigu et corriger l’assemblage par rapport aux séquences de référence. Au lieu d’alignements, ntJoin utilise une approche simple de cartographie basée sur une structure graphique de données générée à partir d’esquisses de minimiseur ordonnées. L’outil peut être utilisé dans une variété d’applications, y compris l’amélioration d’une ébauche d’assemblage avec un génome de référence, d’un assemblage à lectures courtes avec une ébauche d’assemblage à lectures longues, et d’une ébauche d’assemblage avec un assemblage d’une espèce étroitement liée. Des informations plus détaillées sont disponibles dans Coombe et al 2020. Pour accéder à ntJoin: Bioinformatics 36 (12): 3885-3887.

PhysIr

Physlr permet de construire une carte physique de novo à l’aide de lectures liées de 10X Genomics ou stLFR. Cette carte physique peut ensuite être utilisée pour échafauder un assemblage existant afin d’obtenir une contiguïté à l’échelle chromosomique. Des informations plus détaillées sont disponibles dans Afshinfard et al 2022. Pour accédez à Physir : https://github.com/bcgsc/physlr

ntHash

Le fractionnement a été largement utilisé pour l’indexation, l’interrogation et la recherche rapide de similitude dans de nombreuses applications bioinformatiques, notamment l’alignement de séquences, l’assemblage de génomes et de transcriptomes, le comptage des k-mers et la correction d’erreurs. Par conséquent, l’accélération des opérations aurait un impact substantiel dans la réalité, rendant les applications bioinformatiques plus rapides et plus efficaces. ntHash est un algorithme de fractionnement adapté au traitement des séquences d’ADN et d’ARN. Il fonctionne mieux lors du calcul des valeurs de fractionnement pour les k-mers adjacents dans la séquence soumise à l’analyse, et il performe un ordre de grandeur plus rapidement que les alternatives les plus performantes dans les cas d’utilisations typiques. Des informations plus détaillées peuvent être consultées dans Mohamadi et al 2016. Pour accéder à ntHash : https://github.com/bcgsc/nthash

LongStitch

La production d’assemblages génomiques de novo de haute qualité est d’importance fondamentale pour l’étude des génomes d’organismes modèles et non modèles. Ces dernières années, le séquençage à lectures longues a grandement amélioré l’assemblage et à l’échafaudage des génomes, un processus pour lequel les séquences assemblées sont ordonnées et orientées grâce à l’utilisation d’informations à longue portée. Les lectures longues sont aussi meilleures pour couvrir les régions génomiques répétitives que les lectures courtes, et ont donc une utilité considérable pour résoudre les régions problématiques et aider à générer des assemblages préliminaires plus complets. Nous présentons donc LongStitch, qui est un pipeline modifiable qui corrige et échafaude les assemblages préliminaires de génomes en utilisant exclusivement de longues séquences de lecture. Des informations plus détaillées peuvent être consultées dans Coombe et al 2021. Pour accéder à longStitch: https://github.com/bcgsc/longstitch

RNA-Bloom

La détection et la découverte d’isoformes dans les cellules individuelles sont difficiles en raison de lacunes techniques inhérentes aux données de scRNA-seq, alors que les méthodes existantes d’assemblage de transcriptomes sont principalement conçues pour les échantillons d’ARN en vrac. Pour relever ce défi, nous avons développé RNA-bloom, un algorithme d’assemblage qui exploite le riche contenu informatif découlant de la juxtaposition de plusieurs transcriptomes unicellulaires et ce, afin de reconstruire des isoformes spécifiques aux cellules. L’assemblage avec RNA-Bloom peut être guidé par une séquence de référence ou sans référence, permettant ainsi la découverte non biaisée de nouvelles isoformes ou de transcrits étrangers. Des informations plus détaillées peuvent être consultées dans Nip et al 2019. Pour accéder à RNA-Bloom : https://github.com/bcgsc/rnabloom

XMatchView

Dans les études de génomique, la représentation visuelle des séquences d’ADN est d’une importance primordiale. Lorsqu’il est affiché avec des informations supplémentaires ou des pistes indiquant la position de gènes ou encore, les alignements de séquences d’intérêt, ces représentations visuelles facilitent notre compréhension du génome et de la structure des gènes. Ils deviennent alors des outils puissants pour évaluer les relations entre diverses données de séquences. XmatchView et XMatchView-conifer sont deux applications en Python qui permettent de comparer visuellement des génomes et d’évaluer leur synténie. Le logiciel représente une robuste application de l’algorithme sensible de Smith-Waterman pour les alignements d’ADN. Des informations plus détaillées peuvent être consultées dans Warren et al 2018. Accéder à XMatchView : https://github.com/bcgsc/xmatchview