Détection de la langue d’un texte (3)

Vendredi 26 mars 2010 par dominique
Posté dans Lucene / Solr, Technique
30 lecture(s) | 0 commentaire

javaDans un premier article sur le sujet, je décris une méthode de détection de la langue d'un texte basée sur un calcul statistique de présence de n-gram dans le texte.  Cette distribution statistique est alors comparée à des distributions types pré-calculées sur des corpus de texte dans différentes langues. La langue du texte est alors à priori celle du corpus présentant la distribution la plus proche. Comme je l'ai expliqué dans mon premier article, j’ai utilisé NgramJ, une librairie Java open source. Après différents tests avec d'autres librairies, NgramJ reste pour moi la plus efficace.

Cependant, cette méthode n'est pas fiable à 100% et NgramJ est limitée dans sa version actuelle à 26 langues détectables : Bulgare (bg), Tchèque (cz), Danois (da), Allemand (de), Grec (el), Anglais (en) Espagnol (es), Estonien (et), Finlandais (fi), Français (fr), Hongrois (hu), Islandais (is), Italien (it), Lituanien (lt), Letton (lv), Maltais (mt) , Néerlandais (nl), Norvégien (no), Polonais (pl), Portugais (pt), Roumain (ro), Russe (ru) , Slovaque (sk), Slovène (sl), Suédois (sv) et Thaï (th).

Je voudrais proposer 2 pistes pour améliorer NGramJ : la fiabilité de la détection et le nombre de langues détectables.

Lire la suite »


Tika 0.6 : compilation et dépendances

Jeudi 11 mars 2010 par dominique
Posté dans Lucene / Solr, Technique
104 lecture(s) | 2 commentaires

tikaTika est une librairie Java qui a pour but l’extraction du texte de toutes sortes de formats de fichiers : PDF, office,  html, … (la liste complète est disponible ici). Afin d’utiliser cette librairie dans vos projets java, il faut en récupérer les sources, les compiler et également récupérer les librairies dont dépend Tika. Voici la procédure à suivre ainsi qu’une astuce pour palier à un problème de compilation.

Lire la suite »


Déconnexions intempestives avec SSH

Lundi 11 janvier 2010 par dominique
Posté dans Debian, Technique
349 lecture(s) | 0 commentaire

ssh1Avec ma connexion Numéricable (mais pas en ADSL avec Free), j’ai rencontré des problèmes de déconnexions SSH intempestives (aussi bien avec Putty qu’avec WinSCP).

La solutions passe par une paramétrage du coté client pour envoyer des packets vides qui serviront à maintenir la connexion en vie.

Avec Putty : Onglet Connections > Seconds between keepalives : « 60″

Sous Linux : Dans « ~/.ssh/config » > « ServerAliveInterval 60″

Dans les cas ou cela est possible, cette configuration peut être réalisée coté serveur : dans « /etc/ssh/sshd_config » > « ClientAliveInterval 60″



Mac OS X et outils de développement

Dimanche 20 décembre 2009 par dominique
Posté dans Mac OS, Productivité, Technique
1,245 lecture(s) | 2 commentaires

icon_xcode_20090824

Le but est de pouvoir développer sous Mac OX (Snow Leopard) des applications AMP (Apache / MySQL / PHP) et des applications Java (dont des servlets dans Tomcat). Dans cet article sont abordées les installations de Apache, PHP, MySQL, Java, Tomcat et Eclipse.

 

 

Xcode

C'est la première étape incontournable pour disposer d'un environnement de développement sous Mac OS. Xcode est disponible sur le DVD de Snow Leopard, mais la dernière version à jour est disponible gratuitement sur le site de Apple (http://developer.apple.com/products/membership.html). Xcode inclut les outils minimums pour créer et debugger des applications pour Mac (ou iPhone).

Lire la suite »


Introduction à Solr – Installation et configuration (2)

Dimanche 10 mai 2009 par dominique
Posté dans Lucene / Solr, Moteur de recherche, Productivité, Technique
3,497 lecture(s) | 1 commentaire

Dans les précédents articles consacrés à Solr, j’en décris les principes (Présentation de Lucene Solr) et  comment installer et configurer de façon très basique Solr afin de pouvoir indexer et rechercher dans le jeu de données de test fourni dans la distribution (Introduction à Solr – Installation et configuration (1)).

Dans ce nouvel article, je vais expliquer plus en détail les points suivants :

  • Le contenu de la distribution
  • Les fichiers de configuration
  • Comment gérer plusieurs indexes ?
  • Comment gérer plusieurs applications ?

Lire la suite »


Choisir un Framework Javascript

Lundi 4 mai 2009 par dominique
Posté dans Productivité, Technique, Web 2.0
3,886 lecture(s) | 5 commentaires

javascriptJe me suis récemment intéressé aux frameworks Javascript et j’ai chercher à savoir lequel mérite le plus que l’on investise du temps à son apprentissage. J’ai commencé par rechercher des comparatifs techniques et des commentaires sur les blogs. Les 3 candidats qui émergent sont : jQuery, Prototype et le semble-t-il prometteur MooTools.

Lire la suite »


Vmware server 2.0 sur hôte OpenSuse 11.1 64 bits

Dimanche 26 avril 2009 par dominique
Posté dans Productivité, Technique, vmware
4,202 lecture(s) | 5 commentaires


vmwareDans cet article, j’explique la mise en place d’une configuration puissante afin d’héberger des serveurs virtuels sous Vmware server 2.0. Les points abordés sont :

  • Choix d’un système d’exploitation pour le serveur Vmware
  • Installation de Linux sur le serveur vmware
  • Installation de Vmware server 2.0
  • Installation des Vmware tools dans les machines invités (guest)
  • Sauvegardes des machines virtuelles
  • Réduction de la taille (shrink) des disques virtuels vmdk

Lire la suite »


Single Sign-On (SSO) avec CAS

Dimanche 25 janvier 2009 par dominique
Posté dans Debian, Technique, Web
6,064 lecture(s) | 7 commentaires

loginComme de souvent, c’est pour un projet en cours que je suis amené à m’intéresser aux solutions de SSO et donc de rédiger cet article.

Qu’est-ce que le SSO ou Single Sign-On ?

Il s’agit d’une technique permettant à un utilisateur de ne procéder qu’à une seule authentification pour accéder à plusieurs applications informatiques sécurisées (généralement des sites Web).  Souvent dans une entreprise, les utilisateurs sont amenés à s’identifier dans différentes applications (intranet, courrier électronique, forums, agendas, …). Sans solution de SSO, il est nécessaire de s’identifier dans chacune de ces applications avec souvent des identifiants différents.

Lire la suite »


Développer et debuguer une servlet avec Eclipse et Tomcat (sans Sysdeo)

Lundi 19 janvier 2009 par dominique
Posté dans Technique, Web
1,951 lecture(s) | 0 commentaire

Dans mon dernier article, je présente le plugin Sysdeo pour Eclipse afin de développer et debuguer une servlet. Il y a plus simple en fait. En effet, en choisissant la distribution « Java EE Developpers » de Eclipse, tout est intégré afin de pouvoir développer toutes sortes d’applications Web Java.

A partir de là, on peut choisir d’utiliser une instance existante de Tomcat et voici un tuto simple afin de créer un projet Web Java sous Eclipse : « Tutorial : développement de Servlets et JSP avec Eclipse WTP ».

On peut également choisir d’utiliser le plugin run-jetty-run pour Eclipse. Voici un article (en Anglais) décrivant la mise en oeuvre de ce plugin afin de debugger vos extensions Solr : Setting up Apache Solr in Eclipse.


Développer et debuguer une servlet avec Eclipse, Tomcat et Sysdeo

Dimanche 4 janvier 2009 par dominique
Posté dans Technique
2,081 lecture(s) | 0 commentaire

J’ai l’habitude de développer en Java avec l’IDE Intellij Idea. J’aime beaucoup cet outil qui est très convivial mais qui a comme gros inconvénient de ne pas être gratuit. Dernièrement j’ai posté quelques articles concernant des développements en Java et je n’ai pas souhaité fournir le code correspondant comme des projets Intellij Idea à cause de ce problème de non gratuité de l’outil. Je me suis donc tout naturellement dirigé vers un standard des solutions Open Source : Eclipse Europa.

Lire la suite »



A propos

Je suis informaticien indépendant. J'interviens principalement dans les domaines de la gestion documentaire et des moteurs de recherches. Ce blog me permet de partager des informations techniques découvertes au cours de mes différents projets ou lors de mes lectures sur le Web.

Dominique - www.eolya.fr

Optimisez la lecture de vos blogs et sites d'information préférés

Crossfeeds est un service Web de mixage et de filtrage de flux RSS. Crossfeeds dispose d'une base de 600.000 flux et offre des fonctionnalités de recherche dans les flux et d'alertes par emails.

http://www.crossfeeds.fr/


Page 1 parmi 41234