Durant des années, les études cas-témoins réalisées dans le but d’identifier des facteurs de risque génétique dans la schizophrénie, à partir de « gènes candidats », ont conduit à des résultats non reproductibles du fait de l’absence de rigueur statistique, notamment de la non prise en compte des tests multiples réalisés. En 2014, le Psychiatric genomics consortium (PGC) constitué par plusieurs dizaines d’équipes internationales a réuni une population d’environ 35 000 patients et 45 000 témoins à partir desquels a été menée une étude d’association à l’échelle, du génome (genome-wide association study, GWAS) [1]. Ce type d’étude explore, sans hypothèse a priori, les associations relevées avec des variants fréquents (en pratique, avec une fréquence de l’allèle mineur supérieure à 5 %) répartis sur l’ensemble des chromosomes. Compte tenu de l’existence de blocs haplotypiques, où ces variants sont en déséquilibre de liaison, on considère que la plupart des régions chromosomiques où sont présents des variants fréquents montrant une association avec la maladie, peuvent être détectées avec une bonne fiabilité par ces approches en génotypant quelques centaines de milliers de variants seulement. En outre, les résultats peuvent être efficacement corrigés pour les tests multiples effectués avec, en corollaire, la nécessité de disposer de tailles d’échantillon très importantes pour parvenir à franchir le seuil de significativité genome-wide. Dans le cas présent, 108 locus associés à la schizophrénie ont été mis en évidence. Identifier une région avec un signal d’association positif n’équivaut toutefois pas à identifier un gène responsable. Dans 10 cas seulement, ce signal a pu être attribué à un variant non synonyme exonique (intéressant un exon). Dans les autres cas le signal était localisé hors des régions codantes, parfois à grande distance de gènes connus, suggérant que les variants détectés par GWAS affectent plus volontiers la régulation de l’expression génique plutôt que la structure protéique. Pour rendre les choses plus complexes encore, plusieurs signaux étaient souvent présents au sein d’une même région, rendant impossible de décider lequel sous-tendait l’effet biologique.
Pour commencer à avancer sur ces questions, Saker et ses collaborateurs [2] ont concentré leurs efforts sur la région donnant le signal d’association le plus fort, une région de 3,6 mégabases située sur le chromosome 6 et correspondant au complexe majeur d’histocompatibilité (CMH). Ils ont montré qu’au sein de cette région contenant notamment les gènes HLA (human leukocyte antigen) hautement polymorphes, l’essentiel du signal était concentré autour des 2 gènes, C4A et C4B, codant le facteur 4 du complément. Cette microrégion est elle-même fort complexe puisque C4A et C4B varient en nombre de copies et existent en version courte ou longue, en raison de la présence, ou non, d’une insertion rétrovirale (HERV, human endogenous retroviruses) dans leur partie non codante. Cette insertion modifie l’expression du gène. Cependant, Sekar et ses collaborateurs sont parvenus à démêler cet écheveau en reliant ces caractéristiques structurales à des niveaux d’expression des gènes. Ils ont ensuite montré que différents niveaux de risque pour la schizophrénie étaient liés à différentes combinaisons entre le nombre de copies de C4 et le statut HERV : globalement, plus le niveau prédit d’expression de C4A est haut, plus le risque croît.