Détection de la langue d’un texte (3)

Vendredi 26 mars 2010 par dominique - 30 lecture(s) | 0 commentaire
Posté dans Lucene / Solr, Technique

javaDans un premier article sur le sujet, je décris une méthode de détection de la langue d'un texte basée sur un calcul statistique de présence de n-gram dans le texte.  Cette distribution statistique est alors comparée à des distributions types pré-calculées sur des corpus de texte dans différentes langues. La langue du texte est alors à priori celle du corpus présentant la distribution la plus proche. Comme je l'ai expliqué dans mon premier article, j’ai utilisé NgramJ, une librairie Java open source. Après différents tests avec d'autres librairies, NgramJ reste pour moi la plus efficace.

Cependant, cette méthode n'est pas fiable à 100% et NgramJ est limitée dans sa version actuelle à 26 langues détectables : Bulgare (bg), Tchèque (cz), Danois (da), Allemand (de), Grec (el), Anglais (en) Espagnol (es), Estonien (et), Finlandais (fi), Français (fr), Hongrois (hu), Islandais (is), Italien (it), Lituanien (lt), Letton (lv), Maltais (mt) , Néerlandais (nl), Norvégien (no), Polonais (pl), Portugais (pt), Roumain (ro), Russe (ru) , Slovaque (sk), Slovène (sl), Suédois (sv) et Thaï (th).

Je voudrais proposer 2 pistes pour améliorer NGramJ : la fiabilité de la détection et le nombre de langues détectables.

Lire la suite »

Partager ...
  • Print
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google Bookmarks
  • Add to favorites
  • email
  • LinkedIn
  • Scoopeo
  • Twitter
  • viadeo FR
  • Wikio FR

Tika 0.6 : compilation et dépendances

Jeudi 11 mars 2010 par dominique - 104 lecture(s) | 2 commentaires
Posté dans Lucene / Solr, Technique

tikaTika est une librairie Java qui a pour but l’extraction du texte de toutes sortes de formats de fichiers : PDF, office,  html, … (la liste complète est disponible ici). Afin d’utiliser cette librairie dans vos projets java, il faut en récupérer les sources, les compiler et également récupérer les librairies dont dépend Tika. Voici la procédure à suivre ainsi qu’une astuce pour palier à un problème de compilation.

Lire la suite »

Partager ...
  • Print
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google Bookmarks
  • Add to favorites
  • email
  • LinkedIn
  • Scoopeo
  • Twitter
  • viadeo FR
  • Wikio FR

Indexation multi-lingues avec Lucene et Solr

Mardi 9 mars 2010 par dominique - 130 lecture(s) | 0 commentaire
Posté dans Lucene / Solr, Moteur de recherche

solrUn des challenges lors du passage de Fast ESP à Solr pour le moteur Hurisearch a été de pouvoir indexer et rechercher des documents dans un très grand nombre de langues. Plus de 60 langues sont répertoriées avec par exemple par ordre décroissant d’importance : Anglais, Espagnol, Français, Allemand, Flamand, Russe, Arabe, Slovène, Hébreux, Persan (Farci), Coréen, Tchèque, Chinois, Norvégien, Japonais, Roumain, Catalan, Hongrois, Géorgien, …

Lucene et différentes contributions permettent de disposer d’analyzer et même de « stemmer » pour un grand nombre de ces langues. Avec Solr, le seul moyen pour associer le bon analyzer à chaque langue est d’avoir autant de champs dans le shema qu’il y a de langues possibles et d’associer à chaque champ le bon analyzer. Pour Hurisearch, cela aurait donc fait 60 champs pour le contenu des documents et 60 champs pour les titres. L’autre problème dans ce cas est également de ne pas pouvoir chercher lors d’une même requête dans la totalité des langues  simultanément. Autant dire que ces contraintes et limitations ne sont pas acceptables.

Lire la suite »

Partager ...
  • Print
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google Bookmarks
  • Add to favorites
  • email
  • LinkedIn
  • Scoopeo
  • Twitter
  • viadeo FR
  • Wikio FR

Crawl Anywhere : un crawler Web pour Solr

Dimanche 7 mars 2010 par dominique - 179 lecture(s) | 1 commentaire
Posté dans Lucene / Solr, Moteur de recherche

solrDans le cadre du remplacement de Fast ESP par Solr pour le moteur Hurisearch, un crawler Web était nécessaire. Le but d'un crawler web est à partir d'une adresse Web de découvrir et récupérer toutes les pages d'un site. Un tour d'horizon de ce qui existe en la matière à fait ressortir une liste réduite de candidats : Nutch, Apache Droids et Heritrix.

  • Nutch (bien que faisant partie de la famille Lucene) ne semble de pas être un projet très actif et son intégration à Solr est peu aisée malgré quelques efforts récents.
  • Apache Droids semblait prometteur, mais lui non plus n'est plus actif depuis plus d'un an.
  • Heritrix est de loin de plus poussé de ces 3 crawlers et est un projet actif.

Heritrix semblait être le bon choix, mais entre autres lacunes, il ne possède pas d'interface Web d'administration et de monitoring "user friendly". Ce point étant crucial dans le cadre du projet Hurisearch, nous avons décidé de développer notre propre crawler Web que nous avons baptisé : "Crawl Anywhere". Ce nom peut paraitre prétentieux, mais pouvoir crawler tous types de sources est un réel objectif. De plus, trouver un nom disponible et encore plus un nom de domaine n'est pas chose aisé.

Lire la suite »

Partager ...
  • Print
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google Bookmarks
  • Add to favorites
  • email
  • LinkedIn
  • Scoopeo
  • Twitter
  • viadeo FR
  • Wikio FR

Upgrader Lucene dans Solr 1.4

Dimanche 7 mars 2010 par dominique - 113 lecture(s) | 0 commentaire
Posté dans Lucene / Solr, Moteur de recherche

solrSolr 1.4 utilise Lucene 2.9.0 et depuis sa sortie en novembre 2009, des mises à jours de Lucene sont disponibles. La dernière version de ce dernier est la 2.9.2. Afin de bénéficier de ces mises à jours dans Solr, il est possible de patcher le fichier solr.war.

Lire la suite »

Partager ...
  • Print
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google Bookmarks
  • Add to favorites
  • email
  • LinkedIn
  • Scoopeo
  • Twitter
  • viadeo FR
  • Wikio FR

Déconnexions intempestives avec SSH

Lundi 11 janvier 2010 par dominique - 349 lecture(s) | 0 commentaire
Posté dans Debian, Technique

ssh1Avec ma connexion Numéricable (mais pas en ADSL avec Free), j’ai rencontré des problèmes de déconnexions SSH intempestives (aussi bien avec Putty qu’avec WinSCP).

La solutions passe par une paramétrage du coté client pour envoyer des packets vides qui serviront à maintenir la connexion en vie.

Avec Putty : Onglet Connections > Seconds between keepalives : « 60″

Sous Linux : Dans « ~/.ssh/config » > « ServerAliveInterval 60″

Dans les cas ou cela est possible, cette configuration peut être réalisée coté serveur : dans « /etc/ssh/sshd_config » > « ClientAliveInterval 60″


Partager ...
  • Print
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google Bookmarks
  • Add to favorites
  • email
  • LinkedIn
  • Scoopeo
  • Twitter
  • viadeo FR
  • Wikio FR

Mac OS X et outils de développement

Dimanche 20 décembre 2009 par dominique - 1,245 lecture(s) | 2 commentaires
Posté dans Mac OS, Productivité, Technique

icon_xcode_20090824

Le but est de pouvoir développer sous Mac OX (Snow Leopard) des applications AMP (Apache / MySQL / PHP) et des applications Java (dont des servlets dans Tomcat). Dans cet article sont abordées les installations de Apache, PHP, MySQL, Java, Tomcat et Eclipse.

 

 

Xcode

C'est la première étape incontournable pour disposer d'un environnement de développement sous Mac OS. Xcode est disponible sur le DVD de Snow Leopard, mais la dernière version à jour est disponible gratuitement sur le site de Apple (http://developer.apple.com/products/membership.html). Xcode inclut les outils minimums pour créer et debugger des applications pour Mac (ou iPhone).

Lire la suite »

Partager ...
  • Print
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google Bookmarks
  • Add to favorites
  • email
  • LinkedIn
  • Scoopeo
  • Twitter
  • viadeo FR
  • Wikio FR

Recherche dans Wordpress avec le plugin Solr

Mardi 12 mai 2009 par dominique - 2,932 lecture(s) | 0 commentaire
Posté dans Lucene / Solr, Web 2.0, Wordpress

Je fais la promotion de Solr dans certain de mes articles et donc, je me devais d’utiliser Solr pour la recherche dans ce blog.

J’ai donc installé très simplement Solr sur mon serveur qui dispose déjà de Tomcat (pour les recherches avec Lucene dans l’application Web www.crossfeeds.fr). Pour cette installation, j’ai suivi le procédure utilisant JNDI et décrite dans mon récent article « Introduction à Solr – Installation et configuration (2)« .

Du coté de Wordpress, j’ai utilisé le tout nouveau plugin Solr for WordPress de Matt Weber. J’ai du apporter quelques modifications au plugin principalement pour le traduction en Français. Matt m’a confirmé qu’il allait travailler à simplifier l’internationalisation de son plugin pour les prochaines versions mais aussi simplifier et éclaircir la procédure d’installation. En effet, les étapes 4 et 5 de cette procédure ne sont pas très claires et je vais essayer d’apporter des précisions.

Lire la suite »

Partager ...
  • Print
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google Bookmarks
  • Add to favorites
  • email
  • LinkedIn
  • Scoopeo
  • Twitter
  • viadeo FR
  • Wikio FR

Introduction à Solr – Installation et configuration (2)

Dimanche 10 mai 2009 par dominique - 3,497 lecture(s) | 1 commentaire
Posté dans Lucene / Solr, Moteur de recherche, Productivité, Technique

Dans les précédents articles consacrés à Solr, j’en décris les principes (Présentation de Lucene Solr) et  comment installer et configurer de façon très basique Solr afin de pouvoir indexer et rechercher dans le jeu de données de test fourni dans la distribution (Introduction à Solr – Installation et configuration (1)).

Dans ce nouvel article, je vais expliquer plus en détail les points suivants :

  • Le contenu de la distribution
  • Les fichiers de configuration
  • Comment gérer plusieurs indexes ?
  • Comment gérer plusieurs applications ?

Lire la suite »

Partager ...
  • Print
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google Bookmarks
  • Add to favorites
  • email
  • LinkedIn
  • Scoopeo
  • Twitter
  • viadeo FR
  • Wikio FR

Les émissions radios dédiées aux nouvelles technologies

Dimanche 10 mai 2009 par dominique - 1,512 lecture(s) | 1 commentaire
Posté dans Non classé

podcastDepuis quelques mois, je consacre un peu de temps à l’écoute de quelques émissions radios dédiées aux nouvelles technologies. Je suis très rarement disponible lors de leurs diffusions donc je me suis abonnés à leurs podcasts afin de les écouter en différé (en faisant les courses par exemple). En voici la liste classée par ordre décroissant de préférence.

Lire la suite »

Partager ...
  • Print
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google Bookmarks
  • Add to favorites
  • email
  • LinkedIn
  • Scoopeo
  • Twitter
  • viadeo FR
  • Wikio FR


A propos

Je suis informaticien indépendant. J'interviens principalement dans les domaines de la gestion documentaire et des moteurs de recherches. Ce blog me permet de partager des informations techniques découvertes au cours de mes différents projets ou lors de mes lectures sur le Web.

Dominique - www.eolya.fr

Optimisez la lecture de vos blogs et sites d'information préférés

Crossfeeds est un service Web de mixage et de filtrage de flux RSS. Crossfeeds dispose d'une base de 600.000 flux et offre des fonctionnalités de recherche dans les flux et d'alertes par emails.

http://www.crossfeeds.fr/


Page 1 parmi 712345...Fin »