Inférence directe et contrôle de la structure de la population génétique à partir des données de séquençage d'ARN
Biologie des communications volume 6, Numéro d'article : 804 (2023) Citer cet article
2275 Accès
21 Altmétrique
Détails des métriques
Les données RNAseq peuvent être utilisées pour déduire des variantes génétiques, mais leur utilisation pour estimer la structure génétique d’une population reste sous-explorée. Ici, nous construisons un outil informatique disponible gratuitement (RGStraP) pour estimer les composants principaux génétiques basés sur RNAseq (RG-PC) et évaluer si les RG-PC peuvent être utilisés pour contrôler la structure de la population dans les analyses d'expression génique. En utilisant des échantillons de sang total provenant de populations népalaises peu étudiées et de l'étude Geuvadis, nous montrons que les RG-PC avaient des résultats comparables à ceux des génotypes appariés basés sur des matrices, avec une concordance élevée des génotypes et des corrélations élevées des composants génétiques principaux, capturant des sous-populations au sein de l'ensemble de données. Dans l'analyse différentielle de l'expression génique, nous avons constaté que l'inclusion de RG-PC en tant que covariables réduisait l'inflation statistique des tests. Notre article démontre que la structure génétique de la population peut être directement déduite et contrôlée à l’aide des données RNAseq, facilitant ainsi de meilleures analyses rétrospectives et futures des données transcriptomiques.
Le séquençage de l'ARN (RNAseq) a révolutionné notre compréhension du transcriptome, offrant à la fois une méthode de quantification précise de l'expression des gènes ainsi que l'identification de sites d'épissage alternatifs spécifiques et de transcriptions spécifiques à un type de cellule1,2. Son application s'étend au milieu clinique, nous permettant d'élucider davantage des maladies complexes et d'identifier des biomarqueurs potentiels dans les maladies transmissibles et non transmissibles3.
Pourtant, les études utilisant RNAseq prennent rarement en compte la variation génétique germinale également contenue dans les ensembles de lectures RNAseq. Les études qui n'exploitent pas ces informations peuvent être vulnérables aux biais et aux confusions, telles que la stratification de la population, qui peuvent affecter la transcription entre les groupes4,5,6,7. Pour surmonter ce problème, les chercheurs se sont généralement appuyés sur des données sur l’ensemble du génome ou sur la séquence du génome entier (WGS) correspondant aux mêmes individus atteints de RNAseq. Cela permet aux chercheurs de déployer des approches pour contrôler la stratification de la population, telles que le calcul des composantes génétiques principales (PC) et leur utilisation comme covariables dans les modèles d'association statistique ultérieurs8,9,10. Les PC génétiques sont considérés comme représentant la structure génétique latente au sein et entre les populations, ce qui introduit une confusion en raison de différences d'environnement social11 ou (dans le cas d'une expression génétique différentielle) en raison de l'hétérogénéité des locus de caractères quantitatifs entre les groupes. Cependant, la nécessité d'un réseau pangénomique ou WGS pour correspondre aux données RNAseq est potentiellement inutile et peut même ne pas être possible dans des contextes où les ressources sont limitées, comme les pays à revenu faible et intermédiaire (PRFI) avec des populations très diverses et peu étudiées.
Il a été démontré que des appels de génotype peuvent être effectués à partir de données RNAseq à l'aide d'outils tels que GATK12,13,14. L'approche consistant à utiliser les données RNAseq pour capturer la structure génétique a été appliquée à des fins d'élevage et d'agriculture15,16,17,18, par exemple pour étudier la structure, l'histoire et l'adaptation de la population de l'orge domestiquée (Hordeum vulgare)17. Bien que la preuve de concept et l'utilité ultérieure des génotypes basés sur RNAseq aient été démontrées, comme pour les variantes spécifiques à un tissu19, son application pour déduire la structure de la population humaine semble prometteuse mais reste relativement sous-explorée20.
Les objectifs de cette étude sont de (i) démontrer que les génotypes basés sur RNAseq peuvent capturer la structure de la population génétique d'une population humaine diversifiée mais peu étudiée, et (ii) montrer que l'utilisation de composants principaux génétiques basés sur RNAseq (RG-PC) peut contrôler efficacement la structure de la population dans l’analyse d’association. Ici, nous avons recruté et généré des données RNAseq sur sang total de 376 individus du Népal, un pays enclavé situé dans l'Himalaya avec plus de 125 groupes ethniques21,22. Nous avons développé un pipeline d'analyse RNAseq (RGStraP) pour calculer les composants génétiques principaux directement à partir des données RNAseq, puis avons validé les performances de RGStraP avec des données de génotypes pangénomiques provenant des mêmes individus népalais. Nous avons également testé le pipeline sur des échantillons du consortium Geuvadis, qui contient 465 échantillons avec des données appariées génotype-ARNseq provenant de cinq des 1 000 populations de génomes23. Enfin, nous montrons la validité de l’ajustement des RG-PC dans une analyse d’association pour identifier l’expression génique spécifique au sexe. Dans l’ensemble, notre étude établit que la structure de la population humaine, en particulier celle d’une population peu étudiée mais diversifiée, peut être efficacement capturée et contrôlée directement à l’aide des données RNAseq.