3.1 Information, incertitude, entropie
Soit P = pi...pm une distribution de probabilités. Comment qualifier notre incertitude - ou, inversément, l'information dont on dispose sur P ? De façon générale, une propriété souhaitable de toute mesure d'incertitude serait d'être minimale ssi toutes les probabilités sont concentrées dans une seule modalité (cas déterministe: pi = 1 , 1
l
m ), et maximale si toutes les probabilités sont égales (équiprobabilité: p1 = ... = pm = 1/m ). Shannon [48] a démontré que l'entropie H(pi...pm) présente ces propriétés (et d'autres que nous ne discuterons pas ici, voir [Welsh 88]) :
(11)
NB: ici comme dans le reste du texte, nous utilisons le logarithme en base 2 (sauf mention explicite). L'entropie ainsi définie est donc mesurée en bits. Elle est minimale et nulle pour une distribution déterministe, et maximale et égale à m bits pour une distribution équiprobable.
Exemples:
-
H(1 /10, 9/10) = - (1/10 log 1/10 + 9/10 log 9/10) = - (- 0.33 - 0.14 ) = 0.47 bits ;
-
H(1/3, 2/3) = 0.92 bits ;
-
H(1/2, 1/2) = 2 bits ;
-
H(1/3, 1/3, 1/3) = 3 bits.
En statistique textuelle, la notion d'entropie est généralisée par celle d'entropie d'ordre k, où la sommation se fait sur les k-grammes w
Ak:
(12)


