3.2 Entropies conditionnelle et résiduelle d'ordre k
Considérons à nouveau l'exemple développé dans l'exercice 2.1. Si l'on se réfère à la solution de l'exercice, on peut calculer par (9) et (10) que les entropies sur les symboles et bigrammes valent respectivement H(X) = H1(X) = 1.56 bits et H2(X) = 2.68 bits. Comment interpréter leur différence 2.68 - 1.56 = 1.12 bits ?
Supposons qu'on cherche à déterminer un bigramme tiré au hasard; l'entropie liée à cette expérience (c'est-à-dire à la distribution jointe Xt-1, Xt ) vaut 2.68 bits. Si l'on connaît le premier symbole ai du bigramme, c'est une distribution conditionnelle qu'on est amené à prendre en compte: P(X | ai) =P(Xt | Xt-1 = ai). L'entropie de cette nouvelle distribution est une entropie conditionnelle (de X étant donné ai) et vaut:
(13)
De façon générale, l'entropie conditionnelle de X étant donné Y vaut:
(14)
qu'on peut concevoir comme une moyenne de l'incertitude sur X pondérée sur les valeurs possibles de Y.
Dans notre exemple, les probabilités de transition sont données par la matrice suivante (voir solutions des exercices) :
|
a |
b |
c |
|
|
a |
.09 |
.32 | .59 |
|
b |
.56 | .15 | .29 |
|
c |
.08 | .88 | .04 |
(15)
On trouve H(Xt | Xt-1) = ( 0.28 * 1.29 ) + ( 0.42 * 1.4 ) + ( 0.3 * 0.64 ) = 1.14 bits, ce qui, à l'erreur d'arrondissement près, s'avère être égal au résultat de la différence H2(X) - H1(X) citée plus haut. En généralisant à un ordre quelconque, on définit l'entropie conditionnelle d'ordre k comme :
(16)
Pour répondre à la question du premier paragraphe, on voit que la différence Hk - Hk-1 s'interprète comme l'incertitude moyenne sur le k-ième symbole d'un k-gramme dont les k - 1 premiers symboles sont connus. Poursuivant sur cette voie, nous définissons encore l'entropie résiduelle d'ordre k (pour k
1) :
(17)
qui s'interprète comme la réduction moyenne d'incertitude sur un symbole selon qu'on connaît le k-gramme précédent plutôt que le k - 1-gramme seulement (voir par exemple [Bavaud 99]).


