Dans un premier article sur le sujet, je décris une méthode de détection de la langue d'un texte basée sur un calcul statistique de présence de n-gram dans le texte. Cette distribution statistique est alors comparée à des distributions types pré-calculées sur des corpus de texte dans différentes langues. La langue du texte est alors à priori celle du corpus présentant la distribution la plus proche. Comme je l'ai expliqué dans mon premier article, j’ai utilisé NgramJ, une librairie Java open source. Après différents tests avec d'autres librairies, NgramJ reste pour moi la plus efficace.
Cependant, cette méthode n'est pas fiable à 100% et NgramJ est limitée dans sa version actuelle à 26 langues détectables : Bulgare (bg), Tchèque (cz), Danois (da), Allemand (de), Grec (el), Anglais (en) Espagnol (es), Estonien (et), Finlandais (fi), Français (fr), Hongrois (hu), Islandais (is), Italien (it), Lituanien (lt), Letton (lv), Maltais (mt) , Néerlandais (nl), Norvégien (no), Polonais (pl), Portugais (pt), Roumain (ro), Russe (ru) , Slovaque (sk), Slovène (sl), Suédois (sv) et Thaï (th).
Je voudrais proposer 2 pistes pour améliorer NGramJ : la fiabilité de la détection et le nombre de langues détectables.
Lire la suite »


Depuis quelques mois, je consacre un peu de temps à l’écoute de quelques émissions radios dédiées aux nouvelles technologies. Je suis très rarement disponible lors de leurs diffusions donc je me suis abonnés à leurs podcasts afin de les écouter en différé (en faisant les courses par exemple). En voici la liste classée par ordre décroissant de préférence.