Indexation multi-lingues avec Lucene et Solr

Mardi 9 mars 2010 par dominique
Posté dans Lucene / Solr, Moteur de recherche
6 lecture(s) | 0 commentaire

solrUn des challenges lors du passage de Fast ESP à Solr pour le moteur Hurisearch a été de pouvoir indexer et rechercher des documents dans un très grand nombre de langues. Plus de 60 langues sont répertoriées avec par exemple par ordre décroissant d’importance : Anglais, Espagnol, Français, Allemand, Flamand, Russe, Arabe, Slovène, Hébreux, Persan (Farci), Coréen, Tchèque, Chinois, Norvégien, Japonais, Roumain, Catalan, Hongrois, Géorgien, …

Lucene et différentes contributions permettent de disposer d’analyzer et même de “stemmer” pour un grand nombre de ces langues. Avec Solr, le seul moyen pour associer le bon analyzer à chaque langue est d’avoir autant de champs dans le shema qu’il y a de langues possibles et d’associer à chaque champ le bon analyzer. Pour Hurisearch, cela aurait donc fait 60 champs pour le contenu des documents et 60 champs pour les titres. L’autre problème dans ce cas est également de ne pas pouvoir chercher lors d’une même requête dans la totalité des langues  simultanément. Autant dire que ces contraintes et limitations ne sont pas acceptables. Lire la suite »



 
 

Crawl Anywhere : un crawler Web pour Solr

Dimanche 7 mars 2010 par dominique
Posté dans Lucene / Solr, Moteur de recherche
37 lecture(s) | 0 commentaire

solrDans le cadre du remplacement de Fast ESP par Solr pour le moteur Hurisearch, un crawler Web était nécessaire. Le but d’un crawler web est à partir d’une adresse Web de découvrir et récupérer toutes les pages d’un site. Un tour d’horizon de ce qui existe en la matière à fait ressortir une liste réduite de candidats : Nutch, Apache Droids et Heritrix.

  • Nutch (bien que faisant partie de la famille Lucene) ne semble de pas être un projet très actif et son intégration à Solr est peu aisée malgré quelques efforts récents.
  • Apache Droids semblait prometteur, mais lui non plus n’est plus actif depuis plus d’un an.
  • Heritrix est de loin de plus poussé de ces 3 crawlers et est un projet actif.

Heritrix semblait être le bon choix, mais entre autres lacunes, il ne possède pas d’interface Web d’administration et de monitoring “user friendly”. Ce point étant crucial dans le cadre du projet Hurisearch, nous avons décidé de développer notre propre crawler Web que nous avons baptisé : “Crawl Anywhere“. Ce nom peut paraitre prétentieux, mais pouvoir crawler tous types de sources est un réel objectif. De plus, trouver un nom disponible et encore plus un nom de domaine n’est pas chose aisé. Lire la suite »



 
 

Upgrader Lucene dans Solr 1.4

Dimanche 7 mars 2010 par dominique
Posté dans Lucene / Solr, Moteur de recherche
16 lecture(s) | 0 commentaire

solrSolr 1.4 utilise Lucene 2.9.0 et depuis sa sortie en novembre 2009, des mises à jours de Lucene sont disponibles. La dernière version de ce dernier est la 2.9.2. Afin de bénéficier de ces mises à jours dans Solr, il est possible de patcher le fichier solr.war. Lire la suite »



 
 

Recherche dans Wordpress avec le plugin Solr

Mardi 12 mai 2009 par dominique
Posté dans Lucene / Solr, Web 2.0, Wordpress
2,833 lecture(s) | 0 commentaire

Je fais la promotion de Solr dans certain de mes articles et donc, je me devais d’utiliser Solr pour la recherche dans ce blog.

J’ai donc installé très simplement Solr sur mon serveur qui dispose déjà de Tomcat (pour les recherches avec Lucene dans l’application Web www.crossfeeds.fr). Pour cette installation, j’ai suivi le procédure utilisant JNDI et décrite dans mon récent article “Introduction à Solr - Installation et configuration (2)“.

Du coté de Wordpress, j’ai utilisé le tout nouveau plugin Solr for WordPress de Matt Weber. J’ai du apporter quelques modifications au plugin principalement pour le traduction en Français. Matt m’a confirmé qu’il allait travailler à simplifier l’internationalisation de son plugin pour les prochaines versions mais aussi simplifier et éclaircir la procédure d’installation. En effet, les étapes 4 et 5 de cette procédure ne sont pas très claires et je vais essayer d’apporter des précisions.

Lire la suite »



 
 

Introduction à Solr - Installation et configuration (2)

Dimanche 10 mai 2009 par dominique
Posté dans Lucene / Solr, Moteur de recherche, Productivité, Technique
3,335 lecture(s) | 1 commentaire

Dans les précédents articles consacrés à Solr, j’en décris les principes (Présentation de Lucene Solr) et  comment installer et configurer de façon très basique Solr afin de pouvoir indexer et rechercher dans le jeu de données de test fourni dans la distribution (Introduction à Solr - Installation et configuration (1)).

Dans ce nouvel article, je vais expliquer plus en détail les points suivants :

  • Le contenu de la distribution
  • Les fichiers de configuration
  • Comment gérer plusieurs indexes ?
  • Comment gérer plusieurs applications ?

Lire la suite »



 
 

Créer un nuage de tags avec Lucene

Mardi 30 décembre 2008 par dominique
Posté dans Lucene / Solr, Moteur de recherche, Technique, Web 2.0
3,798 lecture(s) | 0 commentaire

Dans cet article, je présente une solution afin de générer un nuage de tags (ou nuage de mots clefs) à partir d’un flux de données textuelles. Pour l’exemple, il s’agit de titres d’articles stockés dans un fichier texte.

Le but est d’afficher les mots ou expressions de 2 ou 3 termes les plus fréquents dans les titres. Tous les termes ou expressions ne sont pas à conserver dans le nuage de tag. Une des étapes consiste en un filtrage selon des règles définies dans fichiers de règles : suppression des mots vides (je, le, pour, …), suppression des expressions commençant ou se terminant par un mot vide (”ne mange”, “termes les”, …), suppression des nombres, … Lire la suite »



 
 

Introduction à Solr - Installation et configuration (1)

Lundi 8 décembre 2008 par dominique
Posté dans Lucene / Solr, Moteur de recherche
2,856 lecture(s) | 0 commentaire

logo_home_solrSuite au premier article Présentation de Lucene Solr, je commence aujourd’hui une série d’articles sur la mise en oeuvre de ce moteur de recherche. Les différents sujets abordés seront :

  • L’installation
  • La configuration
  • L’indexation
  • La recherche

Cette première partie a pour but l’installation et la configuration minimum afin de pouvoir rechercher dans les documents d’exemple fournis dans la distribution de Solr. Lire la suite »



 
 

Solr présenté par Grant Ingersoll

Samedi 8 novembre 2008 par dominique
Posté dans Lucene / Solr, Moteur de recherche, Technique, Web
1,259 lecture(s) | 0 commentaire

Dans mon article Présentation de Lucene Solr, j’ai expliqué quelques concepts de Solr et indiqué une liste de liens vers des tutoriaux.

Voici une série de 3 articles (toujours en anglais) d’une très grande qualité écrit par Grant Ingersoll. Les 2 premiers articles sont une présentation détaillée de Solr et le troisième présente les nouveautés de la version 1.3 sortie en septembre dernier.

Mai et Juin 2007 :

Septembre 2008 :

Bonne lecture.



 
 

Présentation de Lucene Solr

Jeudi 18 septembre 2008 par dominique
Posté dans Lucene / Solr, Moteur de recherche
4,674 lecture(s) | 3 commentaires

La nouvelle version 1.3.0 de Solr est enfin disponible. Elle était très attendue des développeurs car la précédente version officielle datait déjà du 6 juin 2007 soit plus d’un an. Comme beaucoup, je travaillais avec les build nocturnes depuis déjà un certain temps.

Cette sortie est l’occasion de présenter Solr à ceux qui ne le connaissent pas encore.

Solr (on prononce “solar”) est une outil open source permettant de mettre en place des fonctionnalités de recherche dans différents types d’applications et notamment des sites web (mais pas seulement). Solr est basé sur Lucene que j’ai présenté dans un précédent article. Cette nouvelle version bénéficie des dernières évolutions de Lucene 2.3.x.

Lire la suite »



 
 

Lucene, le meilleur choix ?

Mardi 26 août 2008 par dominique
Posté dans Lucene / Solr, Moteur de recherche, Technique
5,619 lecture(s) | 0 commentaire

J’ai lu cette semaine sur le blog de  Cédric Champeau un article très intéressant (en anglais) sur Lucene.

Cédric explique tout d’abord comment Lucene est utilisé chez Lingway comme brique de base de leur solution de recherche sémantique. Cédric confirme que Lucene est une bonne librairie Java permettant de mettre en place des outils de recherche puissants, mais il en vient très rapidement à remettre en cause certains aspects de Lucene et se pose la question suivante : Lucene est-il le meilleur choix (open source) pour de futurs développements d’outils de recherche ? Lire la suite »



 
 


A propos

Je suis informaticien indépendant. J'interviens principalement dans les domaines de la gestion documentaire et des moteurs de recherches. Ce blog me permet de partager des informations techniques decouvertes au cours de mes différents projets ou lors de mes lectures sur le Web.

Dominique - www.eolya.fr

Optimisez la lecture de vos blogs et sites d'information préférés

Crossfeeds est un service Web de mixage et de filtrage de flux RSS. Crossfeeds dispose d'une base de 600.000 flux et offre des fonctionnalités de recherche dans les flux et d'alertes par emails.

http://www.crossfeeds.fr/