Données collaboratives HGDP-CEPH

Pour se mettre en conformité avec le Règlement Général sur la Protection des Données (RGPD), le CEPH a mis en œuvre une nouvelle base de données

de fréquences alléliques qui est une refonte complète de l'ancienne base génotypique incluant de nouvelles données comme celles générées sur la puce

Global Screening Array (GSAMD-24v1-0_20011747_A1) d'Illumina.

Les données de fréquences alléliques de 2 millions de SNP sont ainsi disponibles sur chacune des populations et groupes de populations du panel HGDP-CEPH.

Malgré tous nos efforts de vérification et de test, il peut encore subsister quelques bugs dans l'interface ainsi que quelques erreurs. Merci d'adresser vos remarques

et corrections au Coordinateur du programme HGDP-CEPH.

Pour être en conformité avec le rÃ¨glement général sur la protection des données (RGPD), la Fondation Jean Dausset - CEPH ne distribue plus sur son site web les génotypes des individus du panel HGDP-CEPH.

La Fondation Jean Dausset - CEPH met à disposition de la communauté scientifique les informations présentant la diversité génétique en termes de fréquences alléliques, agrégées par population (52) et groupes de populations (7).

Les fréquences alléliques ont été calculées en prenant en compte les individus appartenant au sous panel H952 comprenant uniquement des individus non apparentés.

Nous distribuons ainsi des informations sur plus de 2 millions de variants ce qui représente plus de 100 millions de fréquences alléliques pour les 52 populations du panel et plus de 14 millions de fréquences alléliques pour les 7 groupes de populations.

Ces données sont accessibles en interrogeant la base de données par variant, par gène, par position ou intervalle de localisation.

Procédure d'intégration des données

Pour présenter des informations à jour et cohérentes, les différentes soumissions ont été normalisées.
Cette intégration a pour but de:

Unifier les différentes soumissions pour un même marqueur en conservant l'identifiant fourni par chaque collaborateur

Mettre à jour les positions génomiques originales des soumissions (GRCh36 ou GRCh37) vers GRCh37 et GRCh38

Normaliser le codage des allèles et de leurs fréquences entre collaborateurs pour un même marqueur

Vérifier le référencement dans dbSNP des identifiants (rs number) indiqués par les collaborateurs

La première étape est la vérification dans dbSNP:

Le marqueur est présent dans dbSNP => positions GRCh37 et GRCh38 mises à jour d'après les positions dbSNP.
Le marqueur a été retiré de dbSNP => positions GRCh37 et GRCh38 calculées avec UCSC liftOver d'après la position (GRCh36 ou GRCh37) fournie par le collaborateur, le rs number fourni est conservé s'il est utilisé comme identifiant de soumission.
Le marqueur a été fusionné avec un autre rs number => positions GRCh37 et GRCh38 mises à jour d'après dbSNP, rs number mis à jour, le rs number original est conservé s'il est utilisé comme identifiant de soumission.
Le marqueur n'a pas d'identifiant dbSNP => recalcul des positions avec l'outil liftOver de l'UCSC => recherche par position et allèles dans dbSNP, ajout du rs number si une correspondance est trouvée.

Si un même marqueur est codé différemment dans les données provenant de différents collaborateurs (exemple courant: polymorphisme A/G soumis comme : G/A, T/C ou C/T), dans la base de données, les allèles sont ordonnés alphabétiquement (après complémentation des séquences des allèles si besoin) et les fréquences recalculées en cas d'inversion d'ordre des d'allèles. Par exemple :

Nomenclature dans la base	Fréquence du premier allèle
A/G	0.35
Nomenclature de soumission
G/A	0.65
C/T	0.65
T/C	0.35

Données présentes dans la base

Ces données proviennent des soumissions suivantes :

Série 1 générée par 25 collaborateurs
Agrégation des données génotypiques HGDP V3

5 millions de SNPs,

un polymorphisme de délétion/duplication de gène (CYP2C6).

Série2 générée par l'Université de Stanford
Génotypes de 660.918 SNP (Illumina HuHap 650k) répartis sur les autosomes, les chromosomes X et Y, la région pseudoautosomale et l'ADN mitochondrial typés sur 1043 individus représentant toutes les populations du panel (Li JZ et al. Science 319: 1100-4, 2008).

Série 3 générée par l'Université du Michigan (UMich-NIH)
Génotypes de 525.910 tag SNPs (Illumina HuHap550k) générés sur les ADN de 485 individus appartenant à 9 populations du panel. (Jakobsson M et al. Nature 451: 998-1003, 2008).

Série 4 générée par l'Institut Max Planck, Leipzig: MPI-EVA
Génotypes de 488.755 SNPs (Affymetrix GeneChip Human Mapping 500 K Array Set), typés sur 255 individus provenant de 52 populations du panel (5 ADN par population López Herráez D et al. PLoS One. 2009 Nov 18;4(11):e7888).
La fusion des données générées sur les plateformes Illumina et Affymetrix, permet d'obtenir les génotypes de 939.383 SNPs uniques pour 250 individus.

Série 9 générée par l'Institut Max Planck, Leipzig: MPI-EVA-Néandertal/aa-capture
Données de reséquençage d'environ 14000 régions codant chez l'homme pour des protéines obtenues sur 50 populations du panel (Burbano HA et al. Science 328 : 723-725, 2010). Les séquences peuvent être téléchargées sur le site : www.ebi.ac.uk/ena/data/view/ERX004007 Le lien entre séquences index pour le multiplexage et identifiant HGDP correspondant est obtenu en cliquant sur “View XML” en haut à gauche de la page web.

Série 11 générée par le Harvard Genetic Department
Données de 629.443 SNP (Affymetrix Axiom® Human Origins Array Plate) générées sur 934 individus HGDP-CEPH non-apparentés. Ces données sont décrites dans une lettre d'application (Lu et al.) disponible sur le site : http://media.affymetrix.com/support/technical/appnotes/axiom_hu_origins_appnote.pdf

Série 15 générée par l'Institute for Translational Genomics and Population Sciences, Los Angeles Biomedical Research Institute at Harbor/UCLA Medical Center
Données de génotypage (Illumina ImmunoChip) de 143.945 marqueurs générées sur 889 individus issus de l'ensemble des 52 populations du panel HGDP-CEPH. Association of NOD2 and IL23R with Inflammatory Bowel Disease in Puerto Rico (Veroushka Ballester,Xiuqing Guo,Roberto Vendrell,Talin Haritunians,Alexandra M. Klomhaus,Dalin Li,Dermot P. B. McGovern,Jerome I. Rotter,Esther A. Torres,Kent D. Taylor).

Série 16 générée par l'Institute of Clinical Pharmacology, University Medical Center Goettingen, Allemagne
Données de génotypage et de séquençage de 21 SNP codants pour des substitutions d'aminoacides dans le gène OCT1, sur 962 individus issus de l'ensemble des 52 populations du panel HGDP-CEPH (Tina Seitz, Robert Stalmann, Nawar Dalila, Jiayin Chen, Sherin Pojar, Joao N. Dos Santos Pereira, Ralph Krätzner, Jürgen Brockmöller and Mladen V. Tzvetkov Global genetic analyses reveal strong inter-ethnic variability in the loss of activity of the organic cation transporter OCT1 Genome Medicine 2015, 7:56 doi:10.1186/s13073-015-0172-0).

Série 20 générée par le CEPH et le CNRGH
Génotypage de la puce Illumina GSAMD-24v1-0_20011747_A1 sur 1013 individus (11 paires de duplicats) du panel HGDP - CEPH, 687 572 SNPs génotypés.

Données collaboratives accessibles en dehors de la base de données

Série 1bis générée par le Department of Genetics and Evolutionary Biology, Instituto de Biociências, Universidade de São Paulo, São Paulo, São Paulo, Brazil.
Inbreeding is observed in almost all the populations of the panel HGDP-CEPH with different levels of inbreeding and frequencies. (PMID: 21364699)

Accès aux données de la publication

Série 5 générée par l'Université de Washington (UWash-NIH)
Données pour 6538 CNV (longueur entre 225 et 5.470.050 bp) générées sur 883 individus HGDP-CEPH non-apparentés et sélectionnés parmi l'ensemble des populations. Un sous-groupe de 98 CNV a été validé par CGH array sur 12 ADN du panel (Itsara A et al. Amer J Hum Genet 84: 148-161, 2009). Les données relatives à cette étude sont disponibles sur les sites www.ebi.ac.uk/dgva/page.php ou www.ncbi.nlm.nih.gov/dbvar (étude numéro : nstd27).

Série 6 générée par l'Université du Michigan (UMich-NIH)
Données pour 3436 CNV (longueur entre 2.019 et 998.213 bp) générées sur 438 individus HGDP-CEPH appartenant à 9 populations (intensité de SNP et seuil de qualité de l'algorithme PennCNV). Les données relatives à cette étude sont disponibles sur les sites www.ebi.ac.uk ou www.ncbi.nlm.nih.gov/dbvar (nstd30).

Série 7 générée par l'Université du Nouveau Mexique (UNM)
Séquences de la région D-loop de l'ADN mitochondrial pour l'ensemble des 1063 individus du panel HGDP-CEPH. Le nombre de bases séquencées varie par individu entre 1021 et 1047 (moyenne 1044,4, médiane 1045). Ces séquences sont disponibles sur le site : www.ncbi.nlm.nih.gov.

Série 8 générée par l'Institut Max Planck, Leipzig : MPI-EVA-Néandertal/Denisova
Données de reséquençage du génome (plateforme Illumina GAII, couverture de 4-6x) générées dans le cadre du Neandertal Genome Project (Green RE et al. Science 328: 710-722, 2010) pour 5 individus HGDP-CEPH :

HGDP00778 (Han),
HGDP00542 (Papou),
HGDP00927 (Yoruba),
HGDP01029 (San)
HGDP00521 (Français).

Données de reséquençage du génome (plateforme Illumina GAII, couverture de 1-1,9x) générées dans le cadre de la caractérisation d'un homme archaïque de la grotte de Denisova en Sibérie (Reich D et al. Nature 468 : 1053-1060, 2010) pour 7 autres individus HGDP-CEPH :

HGDP00456 (Mbuty-Pygmée)
HGDP00998 (Karitiana)
HGDP00665 (Sarde)
HGDP00491 (Melanesien de l'Ile de Bougainville)
HGDP00711 (Cambodgien)
HGDP01224 (Mongol)
HGDP00551 (Papou)

Les séquences génomiques brutes (short reads) de ces individus HGDP-CEPH sont disponibles auprès du NCBI SRA : www.ncbi.nlm.nih.gov/sra/?term=hgdp-ceph : www.ncbi.nlm.nih.gov/sra/?term=hgdp-ceph

Série 10 générée par l'Université Erasmus, Rotterdam
Génotypes de 76 Single Tandem Repeat (STR) générés sur un sous-groupe d'hommes (présentés en nombre de répétitions) (Kayser et al. Am J Hum Genet 74: 1183-1197, 2004 et Shi et al. Mol Biol Evol. 2010 February; 27(2): 385.393). Les procédures de génotypage sont décrites dans Vermeulen et al. Forensic Sci Int Genet 3 : 205-213, 2009 et Ballantyne et al. Forensic Sci Int Genet. 2012 Mar;6(2):208-18.

Série 12 générée par l'Institut Max Planck, Leipzig : MPI-EVA-Denisova
Données de reséquençage du génome, avec une couverture variant entre 24 et 32x pour 10 individus HGDP-CEPH :

HGDP00456 (Mbuty-Pygmée)
HGDP00521 (Français)
HGDP00542 (Papou)
HGDP00665 (Sarde)
HGDP00778 (Han)
HGDP00927 (Yoruba)
HGDP00998 (Karitiana)
HGDP01029 (San)
HGDP01284 (Mandenka)
HGDP01307 (Dai)

Accès aux données (EVA MPG)

Série 13 générée par le Children's Hospital Oakland Research Institute, Oakland, CA
Données génotypiques relatives à la présence ou absence de 16 gènes du locus KIR (Killer Immunoglobulin-like Receptor) générées sur 976 individus HGDP-CEPH (Hollenbach et al 2012 Immunogenetics 64: 719-737).

Série 14 générée par l'Institut Max Planck, Leipzig : MPI-EVA
Données de séquençage de 500Kb de chromosome Y générées sur 623 hommes du panel HGDP-CEPH. Un total de 2228 SNPs a été identifié, le génotype de chaque individu est indiqué pour chacune de ces positions sur le génome humain (référence GRCh37/hg19), Lippold S. et al. 2014.

Série 17 générée par le Département de Génétique du Harvard Medical School, Boston, Massachusetts 02115, USA.
Séquençage de 300 génomes (dont 132 individus issus du panel HGDP) de haute qualité incluant au moins 8.5Mbases absentes du Génome Humain de Référence (The Simons Genome Diversity Project: 300 genomes from 142 diverse populations. Nature. 2016 Sep 21. doi: 10.1038/nature18964).
Accès aux données (Harvard Medical School)

Série 18 générée par l'Unité de génétique forensique, Centre universitaire romand de médecine légale, Ch. de la Vulliette 4, 1000 Lausanne 25, Suisse.
Données de génotypage d'un set de marqueurs DIP-STR. Les haplotypes sont phasés et contiennent chacun une insertion/délétion (DIP) et un marqueur proche de type STR. Moriot, A., Santos, C., Freire-Aradas, A. et al. Inferring biogeographic ancestry with compound markers of slow and fast evolving polymorphisms. Eur J Hum Genet 26, 1697-1707 (2018).

Série 19 générée par le Wellcome Sanger Institute, Hinxton CB10 1SA, UK.
Données de séquençage de 929 individus du panel HGDP-CEPH.
Accès aux données à l'EBI.

PRESENTATION

LABORATOIRE D'EXCELLENCE

PROJETS SCIENTIFIQUES

A LA UNE

RESSOURCES

LABORATOIRES