ARABICA
ARABICA est un programme pour l'apprentissage non-supervisé de la morphologie des langues s'approchant du type introflexionnel, comme l'arabe ou l'hébreu. Sa fonction est de fournir une analyse de chaque mot d'un corpus en termes de racine consonantique et de schème vocalique. A cet effet, il utilise l'algorithme de Sukhotin (1962, 1973) pour identifier les consonnes et voyelles du corpus. Sur la base de cette catégorisation des symboles, il applique des principes d'analogie et de parcimonie pour décomposer les mots en racine et schème, et inférer les règles de combinaisons de ces morphes. Ces règles sont formulées sous la forme d'automates à états finis d'un type particulier, appelés structures RS. ARABICA fait un usage systématique du principe de la longueur de description minimale (angl. minimum description length ou MDL, Rissanen, 1989), et s'inspire en cela du programme LINGUISTICA développé par John Goldsmith (2001, 2006).
ARABICA est implémenté sous la forme d'un script Perl nommé Arabica1.0.pl. Ce programme est un logiciel libre, distribué sous les termes de la GNU General Public License (GPL). Il peut être librement téléchargé sur cette page, ainsi que le corpus de noms arabes utilisé pour son évaluation. Pour plus de détails sur le programme et le corpus, voir le fichier Instructions.txt et Xanthos (2007).
Télécharger ARABICA:
Arabica1.0.zip
(28 Kb)
Références:
Goldsmith, John A. (2001). Unsupervised learning of the morphology of a natural language. Computational Linguistics, 27(2), 153-198.
Goldsmith, John A. (2006). An algorithm for the unsupervised learning of morphology. Natural Language Engineering, 12(4), 353-371.
Rissanen, Jorma. (1989). Stochastic Complexity in Statistical Inquiry. Singapore : World Scientific Publishing Co.
Sukhotin, Boris V. (1962). Eksperimental'noe vydelenie klassov bukv s pomoščju EVM. Problemy strukturnoj lingvistiki, 234, 189-206.
Sukhotin, Boris V. (1973). Méthode de déchiffrage, outil de recherche en linguistique. T.A. Informations, 2, 1-43.
Xanthos, Aris (2007). Apprentissage automatique de la morphologie: le cas des structures racine-schème. Thèse de doctorat non publiée, Université de Lausanne.


