La grammaire de la vie

Portfolio

La grammaire de la vie

by Antoine Danchin

La génétique, et désormais la génomique, envahissent la Une de journaux de papier, et jusqu’au journal télévisé lui-même. Mais sait-on réellement ce que cela signifie, ce qu’est la génétique des génomes ?

On sait (mais sait-on vraiment ?) ce que sont les gènes. Ce sont ces objets abstraits sous-jacents à la transmission des caractères observables des individus (couleur et forme des fleurs, couleur de la peau des yeux et des cheveux…), dont l’existence a été postulée par Mendel et ses successeurs. Depuis la découverte de l’ADN en 1944 on sait aussi qu’en tant qu’objets matériels les gènes sont des enchaînements de motifs chimiques de quatre (et seulement quatre) types différents au sein d’une molécule géante qui enchaîne elle même les gènes.

L’infinie légèreté du symbolique
Comme nous le rappelle Italo Calvino : “Il De rerum natura di Lucrezio è la prima grande opera di poesia in cui la conoscenza del mondo diventa dissoluzione della compattezza del mondo, percezione di cio che è infinitamente minuto et mobile e leggero. Lucrezio vuole scrivere il poema della materia ma ci avverte subito che la vera realtà di questa materia è fatta di corpuscoli invisibili.
Cette légèreté de l’être même de la vie, son insignifiance matérielle, vient de l’absence complète de parenté physico-chimique entre les effecteurs de la vie — principalement les coenzymes et les protéines — et ce qui fait la nature même des gènes, les acides nucléiques. Le lien entre la mémoire héréditaire, l’ADN, et les protéines, est un lien symbolique. Mais ce lien est réalisé concrètement par un processus physico-chimique, par de vraies molécules, dans une instanciation parfaitement matérielle. Il n’y a aucun rapport entre la chimie des acides nucléiques et celle des protéines, et n’importe quelles molécules de bases, pour peu qu’elles puissent s’enchaîner de façon colinéaire et combinatoire en donnant naissance à un principe de complémentarité et à une règle codée de transposition de l’une à l’autre, auraient pu jouer le rôle qu’elles jouent aujourd’hui. Il y a là un profond mystère — resté mystère pendant des millénaires — dont on commence à comprendre la nature au travers de l’étude de la structure symbolique des objets biologiques : tout se passe comme si l’on avait affaire à un texte originel, transcrit, puis traduit. Et le mystère qui reste encore est le retour concret, physique, depuis cette syntaxe d’une transcription et d’une traduction dont on commence à bien connaître les règles, vers une sémantique, celle qui donne leur signification aux objets biologiques et aux relations qu’ils entretiennent, et conduit à l’existence des organismes vivants, tels qu’on peut les étudier de manière macroscopique. Remarquons ici que la propriété spécifique du symbolique est d’être, en puissance, source de sens, de signification.
Il y a donc une grammaire de la vie. Comme la grammaire des langues est abstraite, celle de la vie l’est aussi. Et l’on ne peut donc que s’étonner du peu d’ambition intellectuelle (témoin de leur ignorance de ce qu’est la vie) de ceux qui la cherchent ailleurs dans l’Univers, en ne s’interrogeant que sur les molécules qui, sur Terre, forment la vie, sans penser, bien sûr, qu’il est infiniment probable, même si la vie existe, qu’elle n’ait pas la même forme que la vie terrestre… Dans ce qui suit nous allons d’abord en rappeler les premières règles syntaxiques, puis montrer — en laissant évidemment une place immense à ce qui reste inconnu aujourd’hui — comment ces règles, avec des règles nouvellement découvertes, permettent un aller et retour réel, concret, entre le niveau symbolique, et les objets naturels de la physique et de la chimie qui constituent les organismes vivants.
La première loi de la vie est la complémentarité : elle fonde la réplication de l’ADN, un brin de la double hélice spécifiant entièrement l’autre brin. Chaque brin est fait de l’enchaînement de quatre motifs chimiques voisins mais distincts, les bases de l’ADN qui se spécifient l’une l’autre d’un brin à son complémentaire. Cette loi, en première approximation, est purement syntaxique : elle ne prend pas en compte la signification du texte véhiculé par la molécule d’ADN.
En considérant ensuite l’orientation du flux de l’information (mais en notant que cela n’implique nullement qu’à ce flux corresponde un flux réel des objets biologiques), l’ADN qui forme la collection organisée des gènes d’un organisme, son génome, prescrit la synthèse d’autres molécules d’une famille chimique voisine, les ARN. Il existe pour cela une syntaxe : des points de repères dans l’ADN indiquent le début des régions à transcrire (ce sont les régions promotrices), comme d’autres points de repère en indiquent la fin (ce sont les terminateursde la transcription). La règle de transcription est simple, elle est fondée sur la même règle de complémentarité que celle qui préside à la réplication. Elle conserve l’enchaînement des quatre motifs de base de l’ADN, en n’en changeant la nature chimique que de façon fine. Ainsi, si l’on ne juge que du texte formé de l’enchaînement des quatre bases possibles, la transcription ne fait qu’extraire une partie du texte original, en produisant à un moment donné, et selon une dynamique liée au développement de la cellule, un sous-ensemble de ce texte. Dans certains types cellulaires (en particulier les cellules à noyau) cet ensemble de transcrits évolue, dans le noyau. Sous l’action de mécanismes moléculaires encore bien mal compris, des encarts (les introns), parfois très longs, s’excisent en raboutant leurs extrémités (les exons). Ce processus est appelé “ épissage ”. Il conduit à ne laisser qu’un produit de transcription plus court, un ARN messager, qui, sortant du noyau, va être la matrice d’un nouveau processus de réécriture, que nous allons voir maintenant. Jusque-là-là, tout se passe comme on le fait dans la lecture d’un magazine : choix des articles, mise à l’écart des encarts publicitaires.
Notons une particularité remarquable du processus : une même région de l’ADN peut donner lieu non seulement à plusieurs transcrits mais à plusieurs produits d’épissage, qui peuvent être différents (et par conséquent assurer des fonctions différentes). Il y a intrication des niveaux de lecture du texte génomique. Les règles syntaxiques correspondantes sont pour l’instant à peu près totalement incomprises. On voit qu’elles se couplent directement à un premier niveau où apparaît la sémantique. Transposons en effet ce phénomène à la langue :
“ Si tu veux écouter ton père, mon cher enfant, et suivre mes conseils, n’imite pas ces charlatans. Laisse ces gens-là, travaille, car ils sont paresseux. Ils ne savent enseigner l’utile. ”
peut devenir :
“ Si tu veux écouter ton enfant, imite ces gens-là, car ils savent enseigner l’utile. ”
Mais c’est avec une réécriture à un niveau supérieur du texte génomique, la traduction, que se produit la majeure partie de l’introduction de la sémantique de la vie. En effet une fois repéré le début du message dans l’ARN à traduire), le texte est lu par suites successives de trois lettres (ou codons), en créant un enchaînement de motifs chimiques différents de ceux de l’ARN, des acides aminés. Cet enchaînement, constituant une protéine, se termine lorsque la machine de traduction, le ribosome, rencontre un codon en indiquant la fin (UAA, UAG ou UGA en général). Cette loi de correspondance (symbolique, mais effectivement réalisée dans la pratique par une machine physico-chimique) est appelée le code génétique. Comme il y a 61 codons (parmi les 64 possibles) spécifiant les vingt acides aminés, trois codons pour un acide aminé, en moyenne, ce code est redondant. La suite des codons de chaque gène spécifie de façon univoque la suite des caractères distinctifs du produit du gène, les acides aminés d’une protéine. Comme ces codons sont redondants, chaque gène possède un usage des codons qui lui est propre. La fréquence d’usage de chaque codon d’un acide aminé donné varie selon le gène : par exemple GCC, GCU, GCA et GCG spécifient tous l’acide aminé alanine, mais certains gènes utilisent plus souvent GCC et GCU, alors que d’autres sont anormalement riches en GCA.
Peut-on déceler des règles dans l’usage des codons des gènes d’un organisme ? L’expérience montre qu’il existe plusieurs classes de gènes qui se distinguent par leur usage du code. Or cela suppose l’existence, en permanence, d’un biais sélectif qui contraint le choix de cet usage particulier du code au cours de l’évolution de l’espèce considérée. En effet si l’usage des codons était indifférent, les mutations spontanées qui se manifestent nécessairement au cours du temps auraient tendance à le rendre indifférencié, proportionnellement au nombre des codons correspondant à chacun des acides aminés et à la composition moyenne en bases du génome.
De quelle pression peut-il s’agir ? Il n’est certainement pas aisé de répondre à cette question. C’est en passant de la métaphore alphabétique qui décrit les génomes et leur expression à sa réalité physique, ce qui se passe dans la cellule que nous pourrons entrevoir une explication. Le texte génomique et sa signification sont en réalité reliés profondément à une architecture, réelle même si elle est minuscule. On ne peut ici en donner le détail, mais tout ce qu’on peut observer montre que les gènes ne sont pas distribués au hasard dans le texte génomique, mais leur position est en rapport avec leur mode d’expression selon la nature de l’environnement, et avec leur localisation dans les divers compartiments de la cellule. Cela se résume d’une façon particulièrement frappante : le plan de la cellule est dans le chromosome.
La fuite impossible et nécessaire
Alice au Pays des Merveilles s’en étonne : la Reine Rouge ne cesse de courir, mais reste à la même place. C’est au prix de cette course folle que les organismes vivants, croissant et se multipliant, subsistent et colonisent la Terre. C’est que ces systèmes matériels ne sont statiques ni par leurs mouvements – même les plantes envoient leurs graines au loin –, ni par les transformations chimiques qui s’y opèrent. Il en résulte que la Terre qui les porte change sans cesse. Mais si elle change alors, comme l’aurait dit le capitaine fameux qui fut victime de la bataille de Pavie, c’est que les conditions nécessaires à leur survive changent elles aussi. Tout organisme vivant doit s’adapter lui-même au changement, mais doit surtout donner naissance à une chaîne ininterrompue de changements adaptatifs.
Cette contrainte opère dans la grammaire de la vie. On voit souvent écrit qu’une part importante de l’ADN est sans signification, qu’il s’agit d’ADN “ poubelle ” (“ junk DNA ” pour les auteurs anglo-saxons). Il est permis d’en douter, même si cet ADN correspond à des éléments mobiles qui s’échangent de génome à génome, ou à des séquences répétées. Or, même les répétitions, dont on dit souvent qu’elles expriment une redondance, ne le sont pas toujours. Que dire, du sens de la phrase en français : “ les poules du couvent couvent ** ? On peut encore penser que, dans bien des cas, cet ADN agit en créant des dispositifs de synchronisation, ou encore des minuteurs. Bien sûr l’envahissement d’un génome par une séquence qui s’y répète peut avoir, a priori, un caractère purement contingent et neutre, être le résultat d’un accident. Mais a posteriori, il est peu probable que la répartition de ces séquences dans le texte génomique reste aléatoire. Elle obéit à des contraintes qui préservent l’harmonie de l’architecture et de la dynamique cellulaire. Et ce faisant elle se trouve au cours de l’évolution prête à accueillir une nouvelle fonction, par sa présence même. Et au surplus, précisément en raison du caractère contingent de l’envahissement initial, il y a bien des chances pour que, lorsqu’elle apparaît, cette nouvelle fonction ait le caractère symbolique nécessité essentielle dans la définition de ce qu’est la vie.
La puissance créatrice de la récursivité
Mais il y a beaucoup plus d’inventivité encore dans l’organisation de la grammaire de la vie. Cette grammaire même contient, en soi, la possibilité de création. En effet, si l’on reprend simplement la métaphore alphabétique qui décrit le génome et les règles de son expression, avec la règle de correspondance du code génétique, on se trouve en présence d’une situation connue de l’arithmétique, celle du concept de programme, ou d’algorithme.
Kurt Gödel en 1931, cherchant à montrer que l’arithmétique n’est qu’une tautologie, démontrait l’opposé. L’enchaînement des propositions de la théorie des nombres entiers (celles qui traitent des enchaînements de symboles et de leur combinatoire au moyen des opérations du calcul élémentaire et de la logique du premier ordre), dès qu’il fait intervenir la récursivité (l’appel à soi-même), peut produire de l’irréductible à soi-même. L’espace de la signification des propositions arithmétiques n’est pas clos, mais ouvert, à l’infini. Et cela est une propriété potentielle intrinsèque de toutes les propositions construites comme des algorithmes, dès qu’intervient la récursivité. Dans ce contexte, un algorithme dont toutes les conditions d’établissement sont connues, et se déroulant de façon parfaitement déterminée, est par essence imprévisible, en ce sens que son aboutissement n’est connu qu’au moment même où s’achève la procédure qui se déroule. On ne peut, par avance, sauter aux conclusions.
L’image de la récursivité, difficile à concevoir mentalement, est illustrée de façon saisissante dans les dessins d’Escher, ou dans la musique de Bach, comme l’a montré Douglas Hofstadter. Se trouver au sein du monde qu’on explore est à la fois une impuissance fondamentale, et une force créatrice infinie. Ce que montrent ces incarnations, visuelles ou auditives, c’est qu’il est possible de partir du domaine purement abstrait du concept (celui de l’arithmétique) et de le rendre opératoire et concret. C’est précisément ce qui se passe dans la genèse des organismes vivants, où se déroule un constant aller et retour entre le domaine abstrait du symbolique des enchaînements de bases dans les acides nucléiques, ou d’acides aminés dans le protéines, et la construction de la cellule. Mais cela est plus général encore.
Jusqu’ici nous avons implicitement considéré le génome en relation avec la seule cellule, et nous avons dit le plan de la cellule s’y trouve inscrit d’une manière telle que l’expression du programme génétique peut produire de l’ontologiquement neuf. Mais si l’on étend cette réflexion aux organismes plus compliqués que sont les plantes et les animaux, on découvre que les processus constructifs qui conduisent à la morphogenèse des organismes multicellulaires différenciés sont eux aussi des processus algorithmiques. Il y a longtemps qu’on cherche à expliquer ces formes. En raison de l’existence de nombreuses structures reproductibles en physique (arborescences, cellules, cercles et sphères, etc. ) bien des penseurs ont cherché dans un certain nombre de principes physiques ou mathématiques la genèse des formes en biologie. La vie ne ferait retrouver que ce qui gouverne les principes de la physique. Cette attitude platonicienne terriblement réductrice a longtemps prévalu. Elle est encore parfois en vogue chez ceux qui ignorent tout de la biologie, parce qu’on n’a pas compris d’une part le rôle essentiellement symbolique des fonctions édificatrices, ou de celles qui assurent le contrôle, et d’autre part l’idée que la forme importante qui se conserve chez les organismes vivants est non la forme finale, mais celle de l’algorithme de construction. L’idée même de programme, celle des algorithmes et de leur capacité à construire, n’a été vraiment explorée que récemment.
C’est la mouche du vinaigre, la drosophile, qui est sans doute le meilleur exemple de ce que la génétique peut apporter pour expliquer la genèse des formes chez les insectes, puis par extension chez les vertébrés. Il existe des milliers de mutants de cet organisme. Un grand nombre affecte son plan de développement. L’étude génétique établit qu’une organisation hiérarchisée de la fonction d’une série de gènes contrôle la transition initiale depuis l’œuf jusqu’à la formation d’un embryon segmenté. À partir de l’étude de mutants, il a été possible de dresser la carte du devenir des cellules et des segments de l’embryon, établissant ainsi un premier guide des interactions entre certains gènes et leurs produits. On découvrit d’abord que c’est l’organisation de l’œuf lui-même qui joue le premier rôle pour dicter la suite des modifications de forme que subira l’embryon. Et, alors que cette organisation pouvait paraître mystérieuse et improbable, ce que nous venons de voir — le plan de la cellule est dans le chromosome — nous dit simplement que l’œuf est une cellule comme une autre, donc organisée par la position des gènes dans les chromosomes. En particulier un certain nombre d’ARN messagers essentiels se trouvent placés dans des compartiments spécifiques de l’œuf, où ils vont jouer le rôle de facteurs déclenchant la suite des événements caractéristiques de l’embryogenèse.
On possède aujourd’hui la cartographie précise du lieu de l’action de nombreux gènes et de la façon dont ils interagissent pour conduire à la segmentation de l’embryon et à la formation des deux axes principaux de l’organisation de l’insecte. Ces synthèses sont limitées dans le temps, et c’est tout un scénario de successions de produits doués d’activité catalytique et de produits de contrôle, qui donne lieu, exactement comme le font les routines d’un algorithme, au déroulement spatio-temporel du plan de l’organisme. Dans tous les cas il s’agit de processus extrêmement simples individuellement, mais dont l’enchaînement est, lui, compliqué du fait de sa compartimentation dans l’espace et dans le temps. C’est la combinatoire d’éléments de contrôle, dont la diversité est pourtant limitée, qui est très riche. Comme partout en biologie, on retrouve à ce stade précoce du développement de l’embryon la possibilité de variations infinies apportée par la combinatoire.
La plupart d’entre elles sont connues. Elles rendent compte de la façon dont l’embryon s’organise en segments et se différencie en ces éléments qui donneront la tête, le thorax et l’abdomen de l’adulte. Ce qui est remarquable est que les gènes concernés sont organisés selon une cascade hiérarchisée de contrôle, des gènes maîtres permettant l’expression de gènes en aval, selon une logique et un ordre chronologique absolus. Au cours de ce développement certaines cellules sont programmées pour disparaître, laissant ainsi la place à d’autres cellules, différenciées différemment, qui n’auraient pu autrement se développer. Ce sont des routines appropriées (un algorithme peut parfaitement décider de l’effacement d’une structure temporairement mise en place, comme les échafaudages en architecture par exemple) qui organisent le rythme et les modes de la morphogenèse. De façon remarquable, dans le cas des insectes comme la mouche drosophile, on a trouvé que les gènes de contrôle de la différenciation cellulaire, les homéogènes, sont situés sur les chromosomes de façon à constituer un ensemble orienté de la queue vers la tête, la représentation de chaque segment de l’insecte étant formé d’un ensemble génétique situé à la même place dans le texte du génome que dans la mouche adulte. Ce qui préexiste n’est pas l’organisme lui-même, c’est la préformation d’un algorithme de développement. Il y a bien un “ drosophiloculus ” dans la drosophile, mais ce n’est pas la forme qui est transmise héréditairement, c’est son programme de construction. L’expression successive de gènes de contrôle, activés ou réprimés un à un, permet la morphogenèse (en respectant et en utilisant, bien sûr, les contraintes de la physique, comme les règles de symétrie globale, par exemple). Certaines mutations mettent en évidence des formes — comme celle du thorax et de l’aile, ou de la patte — qui n’ont pas grand-chose de “ naturel ” selon les principes de la morphogenèse physique ou mathématique —, mais surtout elles montrent que la modification d’un seul gène permet la formation d’un organe complet et bien formé, sans que sa localisation soit conservée dans le corps. Ainsi l’expérience montre que l’altération de la succession des homéogènes suffit à altérer le patron morphogénétique : on peut par exemple faire apparaître des antennes à la place des pattes, ou doubler la paire d’aile, faisant ressembler la drosophile à un hyménoptère.
Mais que dire des mammifères, où la structure segmentée est moins visible que chez les insectes ? Il suffit de regarder nos côtes et nos vertèbres pour nous rendre compte de la conservation locale de bien des propriétés du corps d’un segment au suivant. Or on a découvert que des gènes de contrôle homologues de ceux de la drosophile, des homéogènes, existent aussi chez la souris. Ces complexes Hox sont si voisins de ceux de la drosophile que non seulement la séquence des acides aminés des protéines qu’ils codent est très semblable d’un gène à l’autre, mais que les gènes eux-mêmes et les promoteurs reconnus pas leurs produits sont clairement apparentés ! L’organisation est si hiérarchisée que l’altération d’un seul gène produit des animaux sans tête. Cependant il existe une différence significative entre les vertébrés et les insectes. Au lieu de trouver un seul ensemble linéaire correspondant au patron de l’insecte, on trouve quatre ensembles linéaires, ordonnés exactement comme chez la mouche, et correspondant aussi au développement de l’animal de la queue vers la tête. Tout se passe comme si le “ muriculus ” (ou l’“ homunculus ”) était constitué d’un ensemble à quatre dimensions comme les portées de la partition musicale d’un quatuor. L’insecte serait le fruit d’un instrument isolé, alors que c’est d’un petit orchestre qu’il s’agit lorsqu’on passe au vertébré. Cette découverte rend compte de la plus grande complexité des mammifères, comparés aux insectes : l’algorithme de construction provient de la combinaison de quatre procédures homologues mises en œuvre simultanément.
Nous découvrons ainsi que de la cellule à l’organisme entier il existe une structuration systématique qui répartit les différents constituants dans l’espace et dans le temps, et que cela est non pas inscrit seulement dans les gènes isolément mais dans la façon dont ils sont organisés les uns par rapport aux autres pour former le texte d’un programme qui définit la mise en place de leurs produits et des édifices qui les organisent. Ce qui fait la totalité de l’organisme n’est pas une forme inscrite dans les principes mystérieux auxquels fait appel le vitalisme, mais dans le programme de mise en forme. C’est ainsi que peut se faire de façon systématique l’ajustement entre la réalité changeante du milieu, et la conservation d’une mémoire qui se perpétue, semblable à elle-même. Il n’y a pas d’archétype de la forme, mais conservation de ce qui la produit, et, la produisant en tenant compte de l’environnement, à chaque nouvelle fois l’adapte. Ainsi la grammaire de la vie ajuste-t-elle sans cesse la permanence et le changement. Elle prévoit l’avenir parce qu’elle n’a pas besoin de savoir tout ce qu’il sera, mais qu’il lui suffira d’en extraire des caractéristiques spécifiques — pour peu qu’elles n’impliquent pas un changement radical — qui lui permettra de s’y développer.

Notes

**  Le logiciel que j’utilise pour écrire cette phrase me signale d’ailleurs ici une erreur … qui n’en est évidemment pas une !

http://www.normalesup.org/~adanchin/causeries/grammaire.html