Dans la foulée du séquençage de génomes complets, la conception et l’exploitation de nouvelles approches expérimentales à haut débit, en combinaison avec de nouvelles méthodes mathématiques et informatiques, ouvrent la voie au décryptage des réseaux de régulation contrôlant les processus cellulaires. Parmi les différents niveaux de régulation impliqués, les mécanismes de contrôle de la transcription sont particulièrement importants et étudiés de manière intensive. Les outils de génomique fonctionnelle les plus répandus - les puces à ADN - visent précisément à caractériser les niveaux d’ARN messagers produits au sein des cellules, des tissus ou des organismes étudiés, dans différentes conditions de culture, situations pathologiques ou contextes génétiques [ 1] (→).
(→). m/s 2004, n° 4, p. 487
Sur la base de jeux de données de transcriptome et des séquences génomiques, il s’agit d’arriver à inférer les mécanismes de régulation transcriptionnelle sous-jacents. Une approche qui a donné de bons résultats chez plusieurs micro-organismes (levure, colibacille) consiste à classer les profils transcriptionnels en classes relativement homogènes (clustering), pour ensuite rechercher des motifs (oligonucléotides ou matrices consensus) sur-représentés de manière significative dans les régions promotrices des gènes d’une même classe [ 2]. Souvent, les motifs ainsi mis en évidence correspondent à des sites de fixation connus pour des facteurs de transcription. D’autres motifs sont inconnus, mais éventuellement susceptibles de fixer des facteurs transcriptionnels par des mécanismes encore méconnus.
Plusieurs hypothèses sous-tendent ce type de travaux bio-informatiques. D’une part, les motifs recherchés doivent se trouver principalement à proximité des sites d’initiation de la transcription ou, lorsque ces derniers sont méconnus (comme dans le cas de la levure), dans une région bien délimitée en amont de la première fenêtre de lecture de chaque unité transcriptionnelle. Ces régions s’étendent typiquement de quelques centaines à un millier de paires de bases pour les micro-organismes les plus étudiés. D’autre part, les motifs étant généralement extraits séparément, le signal permettant à un facteur de transcription de reconnaître la plupart des régions promotrices associées à un profil transcriptionnel doit être suffisamment fort, suggérant un mécanisme de régulation relativement simple, dominé par un seul ou un petit nombre de facteurs de transcription.
Dans le cas des organismes eucaryotes pluricellulaires, les connaissances encore très partielles des mécanismes de régulation transcriptionnelle contredisent clairement ces deux hypothèses. En effet, chez les animaux et les plantes modèles étudiés, qui sont dotés de régions non codantes beaucoup plus étendues (Tableau I), plusieurs études montrent que les éléments cis-régulateurs sont nettement plus dispersés et surtout beaucoup plus complexes, combinant de nombreux sites de fixation (plusieurs dizaines) pour plusieurs facteurs de transcription différents (facilement une demi-douzaine). Cette situation constitue un véritable défi pour les bio-informaticiens et les biostatisticiens qui, en interaction étroite avec les biologistes expérimentaux, s’attèlent au développement de méthodes susceptibles de permettre la délimitation des régions non codantes effectivement impliquées dans la régulation transcriptionnelle, ainsi que l’extraction de règles d’organisation de combinaisons de motifs pour former des modules de régulation transcriptionnelle susceptibles de rendre compte de la fixation coopérative de plusieurs facteurs de transcription.
Tableau I. |
À cet égard, dans un numéro récent de la revue Cell, M.A. Beer et S. Tavazoie ont publié un protocole d’analyse innovant, combinant une méthode de classification (clustering) des données de transcriptome, un logiciel de découverte de motifs, ainsi qu’une méthode d’apprentissage probabiliste permettant la définition de règles logiques pour la combinaison de motifs de régulation élémentaires [ 3]. D’abord appliquée à la levure (S. cerevisiae), puis, de manière plus prospective, au nématode (C. elegans), cette méthode a conduit à la prédiction de profils d’expression transcriptionnelle directement comparables avec les profils expérimentaux initialement analysés. Enfin, elle a permis d’inférer des hypothèses précises sur des mécanismes de régulation transcriptionnelle, en principe susceptibles d’être vérifiées expérimentalement.