4.1 Approche intuitive
Nous avons vu dans la partie 2 qu'un processus textuel pouvait être modélisé comme une chaîne de Markov d'ordre k, c'est-à-dire un automate probabiliste émettant à chaque instant un symbole pris dans un alphabet fini en fonction des k symboles constituant son contexte immédiat. Dans la partie 1, nous avons montré comment estimer les paramètres d'un modèle (probabilités, en l'occurrence de transition) à partir des fréquences observées dans un échantillon (en l'occurrence séquentiel). Cependant, il subsiste un paramètre pour lequel nous n'avons pas encore mentionné de méthode d'estimation: l'ordre k.
Dans l'absolu, il paraît naturel de choisir k aussi élevé que possible. Pour modéliser correctement une langue naturelle, par exemple, il est vraisemblable qu'aucun ordre k ne soit suffisamment élevé (voir à ce sujet l'argumentation de [Chomsky 69], notamment partie 3); c'est ce qui conduit [Shannon 48] à parler d'approximations dans ce cas. Mais dans la mesure où les paramètres sont toujours estimés à partir d'un échantillon fini, on est contraint de tenir compte de la limite absolue donnée par la longueur n de l'échantillon. En pratique, il est même nécessaire d'utiliser une valeur moindre puisqu'un texte de taille n ne contient qu'un unique n-gramme naturellement non représentatif.
Quelle que soit la limite de représentativité dépendant de la taille de l'échantillon et du nombre de symboles de l'alphabet (pour une taille fixée, un échantillon est d'autant plus représentatif que l'alphabet est petit), on considère généralement que la simplicité d'un modèle est une propriété souhaitable. Ainsi, dans le cas de la séquence considérée dans l'exercice 3.1 a), même si l'on dispose d'un échantillon arbitrairement grand, rien ne sert de construire un modèle d'ordre supérieur à 1, puisque la seule connaissance du dernier symbole observé suffit à dissiper toute incertitude sur le suivant. Et dans la perspective d'une formalisation, qui dit incertitude dit entropie...


