Inférence directe et contrôle de la structure de la population génétique à partir des données de séquençage d'ARN

Biologie des communications volume 6, Numéro d'article : 804 (2023) Citer cet article

2275 Accès

21 Altmétrique

Détails des métriques

Les données RNAseq peuvent être utilisées pour déduire des variantes génétiques, mais leur utilisation pour estimer la structure génétique d’une population reste sous-explorée. Ici, nous construisons un outil informatique disponible gratuitement (RGStraP) pour estimer les composants principaux génétiques basés sur RNAseq (RG-PC) et évaluer si les RG-PC peuvent être utilisés pour contrôler la structure de la population dans les analyses d'expression génique. En utilisant des échantillons de sang total provenant de populations népalaises peu étudiées et de l'étude Geuvadis, nous montrons que les RG-PC avaient des résultats comparables à ceux des génotypes appariés basés sur des matrices, avec une concordance élevée des génotypes et des corrélations élevées des composants génétiques principaux, capturant des sous-populations au sein de l'ensemble de données. Dans l'analyse différentielle de l'expression génique, nous avons constaté que l'inclusion de RG-PC en tant que covariables réduisait l'inflation statistique des tests. Notre article démontre que la structure génétique de la population peut être directement déduite et contrôlée à l’aide des données RNAseq, facilitant ainsi de meilleures analyses rétrospectives et futures des données transcriptomiques.

Le séquençage de l'ARN (RNAseq) a révolutionné notre compréhension du transcriptome, offrant à la fois une méthode de quantification précise de l'expression des gènes ainsi que l'identification de sites d'épissage alternatifs spécifiques et de transcriptions spécifiques à un type de cellule1,2. Son application s'étend au milieu clinique, nous permettant d'élucider davantage des maladies complexes et d'identifier des biomarqueurs potentiels dans les maladies transmissibles et non transmissibles3.

Pourtant, les études utilisant RNAseq prennent rarement en compte la variation génétique germinale également contenue dans les ensembles de lectures RNAseq. Les études qui n'exploitent pas ces informations peuvent être vulnérables aux biais et aux confusions, telles que la stratification de la population, qui peuvent affecter la transcription entre les groupes4,5,6,7. Pour surmonter ce problème, les chercheurs se sont généralement appuyés sur des données sur l’ensemble du génome ou sur la séquence du génome entier (WGS) correspondant aux mêmes individus atteints de RNAseq. Cela permet aux chercheurs de déployer des approches pour contrôler la stratification de la population, telles que le calcul des composantes génétiques principales (PC) et leur utilisation comme covariables dans les modèles d'association statistique ultérieurs8,9,10. Les PC génétiques sont considérés comme représentant la structure génétique latente au sein et entre les populations, ce qui introduit une confusion en raison de différences d'environnement social11 ou (dans le cas d'une expression génétique différentielle) en raison de l'hétérogénéité des locus de caractères quantitatifs entre les groupes. Cependant, la nécessité d'un réseau pangénomique ou WGS pour correspondre aux données RNAseq est potentiellement inutile et peut même ne pas être possible dans des contextes où les ressources sont limitées, comme les pays à revenu faible et intermédiaire (PRFI) avec des populations très diverses et peu étudiées.

Il a été démontré que des appels de génotype peuvent être effectués à partir de données RNAseq à l'aide d'outils tels que GATK12,13,14. L'approche consistant à utiliser les données RNAseq pour capturer la structure génétique a été appliquée à des fins d'élevage et d'agriculture15,16,17,18, par exemple pour étudier la structure, l'histoire et l'adaptation de la population de l'orge domestiquée (Hordeum vulgare)17. Bien que la preuve de concept et l'utilité ultérieure des génotypes basés sur RNAseq aient été démontrées, comme pour les variantes spécifiques à un tissu19, son application pour déduire la structure de la population humaine semble prometteuse mais reste relativement sous-explorée20.

Les objectifs de cette étude sont de (i) démontrer que les génotypes basés sur RNAseq peuvent capturer la structure de la population génétique d'une population humaine diversifiée mais peu étudiée, et (ii) montrer que l'utilisation de composants principaux génétiques basés sur RNAseq (RG-PC) peut contrôler efficacement la structure de la population dans l’analyse d’association. Ici, nous avons recruté et généré des données RNAseq sur sang total de 376 individus du Népal, un pays enclavé situé dans l'Himalaya avec plus de 125 groupes ethniques21,22. Nous avons développé un pipeline d'analyse RNAseq (RGStraP) pour calculer les composants génétiques principaux directement à partir des données RNAseq, puis avons validé les performances de RGStraP avec des données de génotypes pangénomiques provenant des mêmes individus népalais. Nous avons également testé le pipeline sur des échantillons du consortium Geuvadis, qui contient 465 échantillons avec des données appariées génotype-ARNseq provenant de cinq des 1 000 populations de génomes23. Enfin, nous montrons la validité de l’ajustement des RG-PC dans une analyse d’association pour identifier l’expression génique spécifique au sexe. Dans l’ensemble, notre étude établit que la structure de la population humaine, en particulier celle d’une population peu étudiée mais diversifiée, peut être efficacement capturée et contrôlée directement à l’aide des données RNAseq.

0.05 and a pairwise LD threshold of r2 < 0.05 struck the optimal balance of offering the most variants for analysis and the highest correlation between RNAseq- and array-based genetic PCs (Supplementary Fig. 2). From the total of 4,921,472 genetic variants, 152,072 SNPs passed the MAF filter (MAF > 0.05), and 36,440 SNPs further passed the LD filter (LD < 0.05). Genetic variants from paired genomic data are available for 299 out of the initial 376 individuals; a total of 552,758 SNPs were identified and passed initial quality control filters (Methods), of which 315,615 SNPs and 29,943 SNPs then passed MAF > 0.05 and further LD < 0.05 filters, respectively. Out of the 299 samples with both RNAseq and paired array genotypes, 280 of them passed quality control and were used for further downstream analyses./p>0.90 concordances. b Canonical correlation analysis between ten RG-PCs and ten array PCs showed significant (Wilks’ Lambda, p-value < 0.05) correlations for the first 7 canonical variates (CVs) between the two sets. The first 3 CVs from 10 RG-PCs strongly captured the genetic information from array PCs (Rc1 = 0.946, Rc2 = 0.864, Rc3 = 0.853), in which the cumulative proportion of shared variance between the two sets reached up to 0.956 from just the 3 CVs./p> 0.05) variants, of which 4887 passed the LD filter (LD < 0.05) and were used to calculate RG-PCs. We also calculated genetic PCs from the 29,943 paired genotype array SNPs as a measure of true genetic structure to be compared against RG-PCs. To assess the consistency of inferred population structure between the two approaches, we calculated Spearman correlation between genetic PCs from paired genotype array SNPs and the RG-PCs. PC1 of both RNAseq and array sets correlated strongly with each other (|ρ| = 0.93), followed by RG-PC3 and PC2 from array data (|ρ| = 0.61) and RG-PC2 and PC3 from array data (|ρ| = 0.6) (Supplementary Fig. 4). As expected, the genetic PCs of one approach do not exclusively correspond to only one PC of the other approach, as can be seen with significant correlations of a single array PC with several RG-PCs. To investigate this further, we performed canonical correlation analysis between the top 10 array PCs and the RG-PCs and found that the RG-PCs fully explained the variance of the top 10 array PCs (Fig. 2b)./p> 0.05) to account for differences in sequencing depths. Only autosomal genes were included in the analyses./p> 1) in the set without considering genetic PCs, and the number decreased to 3 when including either array or RG-PCs. This demonstrates how RG-PCs control for population stratification in downstream RNAseq analysis similar to the genetic PCs calculated from paired array genotypes, reducing significant associations that reflected variations in population structure instead of the biology of interest./p>38.5 °C temperature or history of fever for >72 h. From the total blood sample volumes (≤16 mL for patients >16 years of age, ≤7 mL for ≤16 years), aliquots were subjected to (i) bacteriological culture to identify presence of Salmonella enterica serovars Typhi (S. Typhi); (ii) storage in PAXgene tubes for later RNA extraction; and (iii) DNA extraction and subsequent human genotyping. Blood was also collected from healthy participants in the serosurvey (≤8 mL for patients >16 years of age, ≤7 mL for ≤16 years), from which aliquots were also subjected to (i) serological analysis; (ii) PAXgene storage for RNA analysis; and (iii) DNA extraction./p> 0.05 in at least 20% of the samples from the analyses. Differential gene expression (DGE) analyses was done contrasting males and females using edgeR43,44, taking into account age, disease group, and sequencing batches; we ran the analyses with and without populations structure PCs as an additional covariate to then compare how genetic structure may stratify gene expression. From both results, we also plotted the Q-Q plot and calculated the systematic inflation (m), which is the ratio of the median of the empirically observed chi-squared test statistics (in our case, results of DGE analysis with RG-PCs) to the expected median chi-squared test statistics (results of DGE analysis without RG-PCs), to quantify the stratification due to population structure in gene expression data./p>