Présentation | Base de données | Soumission de génotypes | Soumission de séquences | Conditions d'accès | Publications |
Mars 2020, le panel des ADN HGDP-CEPH distribué par le CRB du CEPH a été séquencé par le Wellcome Sanger Institute:Global human genomes reveal rich genetic diversity shaped by complex evolutionary history.Les résultats ont été publiés dans le journal Science le 18 mars 2020. |
Au début des années 2000, avec le soutien des Professeurs Jean Dausset et Gilles Thomas, le Professeur Howard Cann, membre de la Fondation Jean Dausset, a collaboré avec le Professeur Cavalli-Sforza (Université de Stanford, USA) pour mettre en place le panel d'étude de la diversité génétique mondiale du génome humain HGDP-CEPH.
Ce panel HGDP-CEPH est constitué de 1063 lignées cellulaires lymphoblastoïdes correspondant à 1048 individus issus de 52 populations réparties dans le monde entier qui sont conservées dans le Centre de Ressources Biologiques de la Fondation Jean Dausset-CEPH. Il est utilisé dans le cadre de recherches internationales menées par plus d'une centaine de collaborateurs, pour mieux appréhender de nombreuses questions relatives à la génétique des populations, l'histoire des populations humaines modernes ainsi que celle de la diversité de leur génome.
Ces lignées lymphoblastoïdes permettent de préparer de l'ADN, de l'ARN et des culots cellulaires en quantité illimitée pour les distribuer aux laboratoires collaborateurs. Elles ont été établies par diverses équipes de par le monde à partir de prélèvements sanguins, réalisés après l'obtention du consentement des volontaires et la garantie du maintien de leur anonymat. Chaque lignée lymphoblastoïde est identifiée par un code numérique appelé identifiant HGDP. Les informations associées à chacune d'entre-elles sont limitées au sexe, à l'origine géographique et au nom de la population à laquelle elle se réfère.
Les ADN du panel ont été distribués à plus de 110 collaborateurs, répartis principalement en Amérique du Nord, en Europe et en Asie, en vue de projets de génotypage ou de séquençage. Chacun de ces collaborateurs s'est engagé à transmettre les données générées sur le panel au CEPH qui maintient une base de données publique.
Le panel H1063 comprend 13 paires de lignées en duplicat, 2 individus dits génétiquement atypiques et des individus apparentés aux 1
Depuis 2002, date à laquelle la distribution du panel a débuté, les recherches réalisées sur celui-ci ont permis près de 200 publications dans des journaux à comité de lecture et d'impact élevé.
En mars 2020, 929 ADN du panel ont été séquencés en NGS par le Wellcome Sanger Institute.
Envoyer un e-mail au Coordinateur du programme HGDP-CEPH
La base de données est conçue pour recevoir et distribuer publiquement les données relatives aux marqueurs polymorphes de type SNP (Single Nucleotide Polymorphism) et CNV (Copy Number Variation) ainsi que les données de séquences type Sanger générées par les collaborateurs du panel HGDP-CEPH.
La V3.0 de la base de données comprend les séries de données suivantes :
Série1 générée par 17 collaborateurs (base de données HGDP)
Télécharger les données en fichier texte ou accéder à la base de données HGDP.
Série2 générée par l'Université de Stanford
Génotypes de 660.918 SNP (Illumina HuHap 650k) répartis sur les autosomes, les chromosomes X et Y, la région pseudoautosomale et l'ADN mitochondrial typés sur 1043 individus représentant toutes les populations du panel (Li JZ et al. Science 319: 1100-4, 2008).
Consultez la base de données en ligne
Télécharger les données en fichier texte
Série 3 générée par l'Université du Michigan (UMich-NIH)
Génotypes de 525.910 tag SNPs (Illumina HuHap550k) générés sur les ADN de 485 individus appartenant à 9 populations du panel. (Jakobsson M et al. Nature 451: 998-1003, 2008).
Télécharger les données en fichier texte
Série 4 générée par l'Institut Max Planck, Leipzig : MPI-EVA
Génotypes de 488.755 SNPs (Affymetrix GeneChip Human Mapping 500 K Array Set), typés sur 255 individus provenant de 52 populations du panel (5 ADN par population López Herráez D et al. PLoS One. 2009 Nov 18;4(11):e7888).
La fusion des données générées sur les plateformes Illumina et Affymetrix, permet d'obtenir les génotypes de 939.383 SNPs uniques pour 250 individus.
Télécharger les données en fichier texte
Série 5 générée par l'Université de Washington (UWash-NIH)
Données pour 6538 CNV (longueur entre 225 et 5.470.050 bp) générées sur 883 individus HGDP-CEPH non-apparentés et sélectionnés parmi l'ensemble des populations. Un sous-groupe de 98 CNV a été validé par CGH array sur 12 ADN du panel (Itsara A et al. Amer J Hum Genet 84: 148-161, 2009). Les données relatives à cette étude sont également disponibles sur les sites www.ebi.ac.uk/dgva/page.php ou www.ncbi.nlm.nih.gov/dbvar (étude numéro : nstd27).
Télécharger les données en fichier texte
Série 6 générée par l'Université du Michigan (UMich-NIH)
Données pour 3436 CNV (longueur entre 2.019 et 998.213 bp) générées sur 438 individus HGDP-CEPH appartenant à 9 populations (intensité de SNP et seuil de qualité de l'algorithme PennCNV). Les données relatives à cette étude sont également disponibles sur les sites www.ebi.ac.uk ou www.ncbi.nlm.nih.gov/dbvar (nstd30).
Télécharger les données en fichier texte
Série 7 générée par l'Université du Nouveau Mexique (UNM)
Séquences de la région D-loop de l'ADN mitochondrial pour l'ensemble des 1063 individus du panel HGDP-CEPH. Le nombre de bases séquencées varie par individu entre 1021 et 1047 (moyenne 1044,4, médiane 1045). Ces séquences sont disponibles sur le site : www.ncbi.nlm.nih.gov.
Série 8 générée par l'Institut Max Planck, Leipzig : MPI-EVA-Néandertal/Denisova
Données de reséquençage du génome (plateforme Illumina GAII, couverture de 4-6x) générées dans le cadre du Neandertal Genome Project (Green RE et al. Science 328: 710-722, 2010) pour 5 individus HGDP-CEPH :
Données de reséquençage du génome (plateforme Illumina GAII, couverture de 1-1,9x) générées dans le cadre de la caractérisation d'un homme archaïque de la grotte de Denisova en Sibérie (Reich D et al. Nature 468 : 1053-1060, 2010) pour 7 autres individus HGDP-CEPH :
Les séquences génomiques brutes (short reads) de ces individus HGDP-CEPH sont disponibles auprès du NCBI SRA : www.ncbi.nlm.nih.gov/sra/?term=hgdp-ceph
Série 9 générée par l'Institut Max Planck, Leipzig : MPI-EVA-Néandertal/aa-capture
Données de reséquençage d'environ 14000 régions codant chez l'homme pour des protéines obtenues sur 50 populations du panel (Burbano HA et al. Science 328 : 723-725, 2010).
Les séquences peuvent être téléchargées sur le site :
www.ebi.ac.uk/ena/data/view/ERX004007 Le lien entre séquences index pour le multiplexage et identifiant HGDP correspondant est obtenu en cliquant sur “View XML” en haut à gauche de la page web.
Série 10 générée par l'Université Erasmus, Rotterdam
Génotypes de 76 Single Tandem Repeat (STR) générés sur un sous-groupe d'hommes (présentés en nombre de répétitions) (Kayser et al. Am J Hum Genet 74: 1183-1197, 2004 et Shi et al. Mol Biol Evol. 2010 February; 27(2): 385.393). Les procédures de génotypage sont décrites dans Vermeulen et al. Forensic Sci Int Genet 3 : 205-213, 2009 et Ballantyne et al. Forensic Sci Int Genet. 2012 Mar;6(2):208-18.
Télécharger les données en fichier texte
Série 11 générée par le Harvard Genetic Department
Données de 629.443 SNP (Affymetrix Axiom® Human Origins Array Plate) générées sur 934 individus HGDP-CEPH non-apparentés. Ces données sont décrites dans une lettre d'application (Lu et al.) disponible sur le site :
http://media.affymetrix.com/support/technical/appnotes/axiom_hu_origins_appnote.pdf
Télécharger les données en fichier texte
Série 12 générée par l'Institut Max Planck, Leipzig : MPI-EVA-Denisova
Données de reséquençage du génome, avec une couverture variant entre 24 et 32x pour 10 individus HGDP-CEPH :
Série 13 générée par le Children's Hospital Oakland Research Institute, Oakland, CA
Données génotypiques relatives à la présence ou absence de 16 gènes du locus KIR (Killer Immunoglobulin-like Receptor) générées sur 976 individus HGDP-CEPH (Hollenbach et al 2012 Immunogenetics 64: 719-737).
Télécharger les données en fichier texte
Série 14 générée par l'Institut Max Planck, Leipzig : MPI-EVA
Données de séquençage de 500Kb de chromosome Y générées sur 623 hommes du panel HGDP-CEPH. Un total de 2228 SNPs a été identifié, le génotype de chaque individu est indiqué pour chacune de ces positions sur le génome humain (référence GRCh37/hg19), Lippold S. et al. 2014.
Télécharger les données en fichier texte
Série 15 générée par l'Institute for Translational Genomics and Population Sciences, Los Angeles Biomedical Research Institute at Harbor/UCLA Medical Center
Données de génotypage (Illumina ImmunoChip) de 143.945 marqueurs générées sur 889 individus issus de l'ensemble des 52 populations du panel HGDP-CEPH.
Télécharger les données (fichiers binaires plink)
Série 16 générée par l'Institute of Clinical Pharmacology, University Medical Center Goettingen, Allemagne
Données de génotypage et de séquençage de 21 SNP codants pour des substitutions d'aminoacides dans le gène OCT1, sur 962 individus issus de l'ensemble des 52 populations du panel HGDP-CEPH (Tina Seitz, Robert Stalmann, Nawar Dalila, Jiayin Chen, Sherin Pojar, Joao N. Dos Santos Pereira, Ralph Krätzner, Jürgen Brockmöller and Mladen V. Tzvetkov Global genetic analyses reveal strong inter-ethnic variability in the loss of activity of the organic cation transporter OCT1 Genome Medicine 2015, 7:56 doi:10.1186/s13073-015-0172-0).
Série 17 générée par le Département de Génétique du Harvard Medical School, Boston, Massachusetts 02115, USA.
Séquençage de 300 génomes (dont 132 individus issus du panel HGDP) de haute qualité incluant au moins 8.5Mbases absentes du Génome Humain de Référence (The Simons Genome Diversity Project: 300 genomes from 142 diverse populations. Nature. 2016 Sep 21. doi: 10.1038/nature18964).
Série 18 générée par l'Unité de génétique forensique, Centre universitaire romand de médecine légale, Ch. de la Vulliette 4, 1000 Lausanne 25, Suisse.
Données de génotypage d'un set de marqueurs DIP-STR. Les haplotypes sont phasés et contiennent chacun une insertion/délétion (DIP) et un marqueur proche de type STR.
Les génotypes sont représentés par une lettre et un nombre (par exemple S135 ou L142). S et L indiquent l'allèle de l'insertion/délétion de chaque haplotype (Small, Long) et les chiffres 135 et 142 indiquent la taille du STR.
Série 19 générée par le Wellcome Sanger Institute, Hinxton CB10 1SA, UK.
Données de séquençage de 929 individus du panel HGDP-CEPH.
Les utilisateurs du panel qui souhaitent soumettre des données pour la 1
Les données soumises doivent inclure les informations génétiques et génomiques relatives aux marqueurs et aux séquences en suivant :
Les séquences de type Sanger doivent être soumises en format FASTA, Genbank ou FASTQ avec les indications de qualité et de taux d'erreur.
Les séquences de type Illumina, Solid, 454 doivent être soumises à un des centres d'archivage de séquences suivants :
Lorsque vous soumettez des données, un titre d'étude vous est demandé. Merci d'inclure le nom de la ressource dans ce titre “ HGDP-CEPH Human Genome Diversity Panel”. Le nom de l'étude peut être par exemple : “ whole genome resequencing 10x of HGDP-CEPH Human Genome Diversity Panel samples ” Les séquences doivent être identifiées en utilisant l'identifiant anonyme HGDP par exemple : HGDP00989 (www.cephb.fr/common/HGDPid_populations.xls).
Pour chaque soumission, merci d'ajouter au fichier XML un lien à la base de données HGDP-CEPH en format XML.
Pour le SRA du NCBI :
<SAMPLE_LINKS>
<SAMPLE_LINK>http://www.cephb.fr/common/HGDPid_populations.xls
</SAMPLE_LINK>
</SAMPLE_LINKS>
Pour le SRA de l'EBI:
<SAMPLE_ATTRIBUTE>
<TAG>HGDP-CEPH Database Link</TAG>
<VALUE>http://www.cephb.fr/common/HGDPid_populations.xls</VALUE>
</SAMPLE_ATTRIBUTE>
Ces liens nous permettront d'identifier les soumissions de données pour les individus du panel HGDP-CEPH et de les inclure dans la section dédiée à la base de données du panel.
Les ADN du panel HGDP-CEPH sont accessibles à la communauté scientifique sur une base collaborative dans le cadre exclusif de programmes de recherche académique. Les collaborateurs s'engagent à génotyper tous les ADN du panel avec au minimum 50 marqueurs génétiques et à communiquer les résultats au CEPH moins de 6 mois après la fin du génotypage ou de la publication des résultats en citant la Fondation Jean Dausset - CEPH dans les remerciements.
Les données sont intégrées dans une base centralisée au CEPH accessible aux collaborateurs mais aussi à la communauté scientifique internationale. Un panel de référence pour des projets de séquençage est également mis à la disposition des collaborateurs. Les données de séquençage, de type Sanger, générées sur les ADN HGDP-CEPH sont communiquées au CEPH dans les mêmes délais que les données de génotypage pour être intégrées dans la base de données.
Les projets de séquençage de nouvelle génération sont discutés avec le Coordinateur du programme HGDP-CEPH . Les données relatives au séquençage de l'ensemble du génome sont disponibles par un lien avec un site hébergeur (SRA au NCBI ou au DDBJ, ENA à l'EBI). Les collaborateurs s'engagent à ne pas transférer les ADN à d'autres laboratoires sans l'autorisation du Coordinateur du programme HGDP-CEPH .
Pour tout nouveau projet, un résumé du projet de recherche ainsi qu'un accord écrit de collaboration selon les termes mentionnés ci-dessus doivent être transmis au Coordinateur du programme HGDP-CEPH .
Des ARN peuvent également être mis à disposition des collaborateurs pour des études d'expression après acceptation du projet collaboratif.
La Fondation Jean Dausset n'a pas de budget dédié pour réaliser les expansions cellulaires, l'extraction d'ADN ou d'ARN, les quantifications et les contrôles de qualité, la distribution des ADN et ARN. Les matériels biologiques mis à disposition de la communauté scientifique internationale sont ainsi facturés à prix coûtant.
Les demandes de matériels biologiques, validées par le coordinateur de l'étude, sont traitées après réception d'un bon de commande, comprenant les informations suivantes transmises par l'institution du laboratoire demandeur :
Ce bon de commande est transmis par par fax (+33 1 53 72 51 58) ou par email au Responsable du CRB.
Téléchargez les caractéristiques du panel et les conditions d'accès détaillées au format PDF.