Indexation multi-lingues avec Lucene et Solr

Mardi 9 mars 2010 par dominique
Posté dans Lucene / Solr, Moteur de recherche
130 lecture(s) | 0 commentaire

solrUn des challenges lors du passage de Fast ESP à Solr pour le moteur Hurisearch a été de pouvoir indexer et rechercher des documents dans un très grand nombre de langues. Plus de 60 langues sont répertoriées avec par exemple par ordre décroissant d’importance : Anglais, Espagnol, Français, Allemand, Flamand, Russe, Arabe, Slovène, Hébreux, Persan (Farci), Coréen, Tchèque, Chinois, Norvégien, Japonais, Roumain, Catalan, Hongrois, Géorgien, …

Lucene et différentes contributions permettent de disposer d’analyzer et même de « stemmer » pour un grand nombre de ces langues. Avec Solr, le seul moyen pour associer le bon analyzer à chaque langue est d’avoir autant de champs dans le shema qu’il y a de langues possibles et d’associer à chaque champ le bon analyzer. Pour Hurisearch, cela aurait donc fait 60 champs pour le contenu des documents et 60 champs pour les titres. L’autre problème dans ce cas est également de ne pas pouvoir chercher lors d’une même requête dans la totalité des langues  simultanément. Autant dire que ces contraintes et limitations ne sont pas acceptables.

Lire la suite »


Crawl Anywhere : un crawler Web pour Solr

Dimanche 7 mars 2010 par dominique
Posté dans Lucene / Solr, Moteur de recherche
179 lecture(s) | 1 commentaire

solrDans le cadre du remplacement de Fast ESP par Solr pour le moteur Hurisearch, un crawler Web était nécessaire. Le but d'un crawler web est à partir d'une adresse Web de découvrir et récupérer toutes les pages d'un site. Un tour d'horizon de ce qui existe en la matière à fait ressortir une liste réduite de candidats : Nutch, Apache Droids et Heritrix.

  • Nutch (bien que faisant partie de la famille Lucene) ne semble de pas être un projet très actif et son intégration à Solr est peu aisée malgré quelques efforts récents.
  • Apache Droids semblait prometteur, mais lui non plus n'est plus actif depuis plus d'un an.
  • Heritrix est de loin de plus poussé de ces 3 crawlers et est un projet actif.

Heritrix semblait être le bon choix, mais entre autres lacunes, il ne possède pas d'interface Web d'administration et de monitoring "user friendly". Ce point étant crucial dans le cadre du projet Hurisearch, nous avons décidé de développer notre propre crawler Web que nous avons baptisé : "Crawl Anywhere". Ce nom peut paraitre prétentieux, mais pouvoir crawler tous types de sources est un réel objectif. De plus, trouver un nom disponible et encore plus un nom de domaine n'est pas chose aisé.

Lire la suite »


Upgrader Lucene dans Solr 1.4

Dimanche 7 mars 2010 par dominique
Posté dans Lucene / Solr, Moteur de recherche
113 lecture(s) | 0 commentaire

solrSolr 1.4 utilise Lucene 2.9.0 et depuis sa sortie en novembre 2009, des mises à jours de Lucene sont disponibles. La dernière version de ce dernier est la 2.9.2. Afin de bénéficier de ces mises à jours dans Solr, il est possible de patcher le fichier solr.war.

Lire la suite »


Introduction à Solr – Installation et configuration (2)

Dimanche 10 mai 2009 par dominique
Posté dans Lucene / Solr, Moteur de recherche, Productivité, Technique
3,497 lecture(s) | 1 commentaire

Dans les précédents articles consacrés à Solr, j’en décris les principes (Présentation de Lucene Solr) et  comment installer et configurer de façon très basique Solr afin de pouvoir indexer et rechercher dans le jeu de données de test fourni dans la distribution (Introduction à Solr – Installation et configuration (1)).

Dans ce nouvel article, je vais expliquer plus en détail les points suivants :

  • Le contenu de la distribution
  • Les fichiers de configuration
  • Comment gérer plusieurs indexes ?
  • Comment gérer plusieurs applications ?

Lire la suite »


Créer un nuage de tags avec Lucene

Mardi 30 décembre 2008 par dominique
Posté dans Lucene / Solr, Moteur de recherche, Technique, Web 2.0
3,910 lecture(s) | 0 commentaire

Dans cet article, je présente une solution afin de générer un nuage de tags (ou nuage de mots clefs) à partir d’un flux de données textuelles. Pour l’exemple, il s’agit de titres d’articles stockés dans un fichier texte.

Le but est d’afficher les mots ou expressions de 2 ou 3 termes les plus fréquents dans les titres. Tous les termes ou expressions ne sont pas à conserver dans le nuage de tag. Une des étapes consiste en un filtrage selon des règles définies dans fichiers de règles : suppression des mots vides (je, le, pour, …), suppression des expressions commençant ou se terminant par un mot vide (”ne mange”, “termes les”, …), suppression des nombres, …

Lire la suite »


Introduction à Solr – Installation et configuration (1)

Lundi 8 décembre 2008 par dominique
Posté dans Lucene / Solr, Moteur de recherche
3,047 lecture(s) | 1 commentaire

logo_home_solrSuite au premier article Présentation de Lucene Solr, je commence aujourd’hui une série d’articles sur la mise en oeuvre de ce moteur de recherche. Les différents sujets abordés seront :

  • L’installation
  • La configuration
  • L’indexation
  • La recherche

Cette première partie a pour but l’installation et la configuration minimum afin de pouvoir rechercher dans les documents d’exemple fournis dans la distribution de Solr.

Lire la suite »


Solr présenté par Grant Ingersoll

Samedi 8 novembre 2008 par dominique
Posté dans Lucene / Solr, Moteur de recherche, Technique, Web
1,317 lecture(s) | 0 commentaire

Dans mon article Présentation de Lucene Solr, j’ai expliqué quelques concepts de Solr et indiqué une liste de liens vers des tutoriaux.

Voici une série de 3 articles (toujours en anglais) d’une très grande qualité écrit par Grant Ingersoll. Les 2 premiers articles sont une présentation détaillée de Solr et le troisième présente les nouveautés de la version 1.3 sortie en septembre dernier.

Mai et Juin 2007 :

Septembre 2008 :

Bonne lecture.


Présentation de Lucene Solr

Jeudi 18 septembre 2008 par dominique
Posté dans Lucene / Solr, Moteur de recherche
4,862 lecture(s) | 3 commentaires

La nouvelle version 1.3.0 de Solr est enfin disponible. Elle était très attendue des développeurs car la précédente version officielle datait déjà du 6 juin 2007 soit plus d’un an. Comme beaucoup, je travaillais avec les build nocturnes depuis déjà un certain temps.

Cette sortie est l’occasion de présenter Solr à ceux qui ne le connaissent pas encore.

Solr (on prononce « solar ») est une outil open source permettant de mettre en place des fonctionnalités de recherche dans différents types d’applications et notamment des sites web (mais pas seulement). Solr est basé sur Lucene que j’ai présenté dans un précédent article. Cette nouvelle version bénéficie des dernières évolutions de Lucene 2.3.x.

Lire la suite »


L’art du référencement web par Camille Roux

Lundi 1 septembre 2008 par dominique
Posté dans Moteur de recherche, Sites à découvrir, Technique
1,190 lecture(s) | 1 commentaire

J’ai regardé avec intérêt une vidéo très didactique de présentation faite par Camille Roux sur « l’art du référencement« .

On y trouve des informations sur le fonctionnement des moteurs de recherche et notamment les différents éléments qui rentrent en ligne de compte dans le positionnement d’un article dans le résultat d’une recherche (pertinence, notoriété).

Les points clés à mettre en pratique pour optimiser son blog sont passés en revu un par un : optimisation des URL (URL rewriting), structure du site, sitemap, robots.txt, page rank, balises html (title, H1, H2, meta), …

L’article où on peut trouver cette vidéo reprend son contenu et est accompagné des slides de la présentation.

A lire et regarder absolument pour bien utiliser un plugin Wordpress du type All In One SEO Pack.


Lucene, le meilleur choix ?

Mardi 26 août 2008 par dominique
Posté dans Lucene / Solr, Moteur de recherche, Technique
5,707 lecture(s) | 0 commentaire

J’ai lu cette semaine sur le blog de  Cédric Champeau un article très intéressant (en anglais) sur Lucene.

Cédric explique tout d’abord comment Lucene est utilisé chez Lingway comme brique de base de leur solution de recherche sémantique. Cédric confirme que Lucene est une bonne librairie Java permettant de mettre en place des outils de recherche puissants, mais il en vient très rapidement à remettre en cause certains aspects de Lucene et se pose la question suivante : Lucene est-il le meilleur choix (open source) pour de futurs développements d’outils de recherche ?

Lire la suite »



A propos

Je suis informaticien indépendant. J'interviens principalement dans les domaines de la gestion documentaire et des moteurs de recherches. Ce blog me permet de partager des informations techniques découvertes au cours de mes différents projets ou lors de mes lectures sur le Web.

Dominique - www.eolya.fr

Optimisez la lecture de vos blogs et sites d'information préférés

Crossfeeds est un service Web de mixage et de filtrage de flux RSS. Crossfeeds dispose d'une base de 600.000 flux et offre des fonctionnalités de recherche dans les flux et d'alertes par emails.

http://www.crossfeeds.fr/


Page 1 parmi 212