MySolrServer propose l’hébergement d’instances Solr

Dimanche 5 juin 2011 par dominique
Posté dans Hébergement, Lucene / Solr, Moteur de recherche, Sites à découvrir

MySorlServer est un nouveau service web qui propose l'hébergement d'instances Solr sous la forme d'abonnements. Solr en mode SaaS répond entre autres à la difficulté pour un propriétaire de blog ou CMS de pouvoir utiliser les plugins ou extensions existantes pour Solr. En effet, disposer d'un hébergement Tomcat ou Jetty pour accueillir un serveur Solr est souvent compliqué voir impossible sans recourir à la location d'un hébergement mutualisé complémentaire ou d'un serveur dédié.

MySolrServer gère la mise en place et le paramétrage des instances Solr de façon transparente et ne nécessite donc pas de compétences Solr particulières. En quelques cliques de souris, une instance pré-paramétrée pour les plugins ou extensions Solr de WordPress, Joomla, eZ Publish ou Drupal est déployée et prête à l'emploi.

Lire la suite »


Crawl Anywhere version 1.1.0 est disponible

Lundi 3 janvier 2011 par dominique
Posté dans Lucene / Solr, Moteur de recherche

Crawl Anywhere est un crawler web, un pipeline de traitement des documents et un indexer Solr. Il offre une interface Web d'administration qui permet de facilement gérer les différentes sources (sites web) à crawler et indexer.

Après plusieurs mises en production chez des clients et les différents retours d'expériences, un certain nombre de nouvelles fonctionnalités ont été ajoutées à Crawl Anywhere. Une liste des principales nouvelles fonctionnalités est disponible sur le wiki dans la release note.


Solr et PHP

Samedi 6 novembre 2010 par dominique
Posté dans Lucene / Solr, Moteur de recherche

solrVoici une présentation slideshare de Solr ainsi que des exemples de code PHP avec l'extension Apache Solr PECL.

Un bon rappel des concepts de base.


Comparaison de moteurs de recherche open source

Jeudi 4 novembre 2010 par dominique
Posté dans Lucene / Solr, Moteur de recherche

Je signale l’intéressante étude A Comparison of Open Source Search Engines (PDF) de Christian Middleton et Ricardo Baeza-Yates parue en 2008. Les moteurs analysés sont : ht://Dig, Indri, IXE, Lucene, MG4J, IBM OmniFind Yahoo! Edition, Omega, SWISH-E, SWISH++, Terrier, XMLSearch et Zettair. Les moteurs qui sortent du lot sont pour un environnement Java: MG4J, Terrier ou Lucene, et pour un environnement C/C++: Swish-E, Swish++, ht://Dig, XMLSearch ou Zettair.

Lucene se distingue dans tous les domaines sauf celui d'indexer une collection de document de 10 Go. Au vu des progrès réalisés par Lucene ces dernières années, je pense que la version actuelle n'aurait aucun problème.
 


Obtenir une compilation nocturne de Solr 3.1 ou Solr 4.0

Mercredi 3 novembre 2010 par admin
Posté dans Lucene / Solr, Moteur de recherche, Technique

solrDepuis le début de l'année les sources de Lucene et Solr ont fusionnées. La prochaine version commune aura pour numéro 4.0. Pour ceux qui veulent déjà tester la version en cours de développement, il faut en récupérer les sources et les compiler (java 1.6 requis). En effet, les liens de téléchargement des compilations nocturnes ne fonctionnent pas. En prérequis, il faut disposer de svn client et de ant.

Il existe actuellement 2 versions en cours de développement : Solr 3.1 et Solr 4.0. Ma compréhension est que :

  • Solr 3.1 est une version plutôt stable qui devrait la prochaine version de Solr et embarquent Lucene 3.1. Sortie possible : mars ou avril 2011.
  • Solr 4.0 est la version de développement (trunk) moins stable et dont le disponibilité dervait être pour 2012.

Pour une explication sur ces 2 versions des sources de Solr, lire ce message de Uwe Schindler : Lucene 3.x branch created et cette discussion : Solr 3.1

Lire la suite »


Crawl Anywhere a son propre site

Dimanche 31 octobre 2010 par dominique
Posté dans Lucene / Solr, Moteur de recherche, Sites à découvrir

Dans un article précédent, j'ai parlé de Crawl Anywhere un crawler Web que j'ai écris dans le cadre du projet Hurisearch (www.hurisearch.org). Crawl Anywhere ayant suscité l'intérêt, j'ai décidé de créer son propre site tout en anglais pour en faire la promotion : http://www.crawl-anywhere.com/.

Si un crawler web avec une vrai interface d'administration vous intéresse, je vous invite à lire ou relire l'article que j'ai écris il y a quelques mois : "Crawl Anywhere : un crawler Web pour Solr" et à aller sur www.crawl-anywhere.com.


Indexation multi-lingues avec Lucene et Solr

Mardi 9 mars 2010 par dominique
Posté dans Lucene / Solr, Moteur de recherche

solrUn des challenges lors du passage de Fast ESP à Solr pour le moteur Hurisearch a été de pouvoir indexer et rechercher des documents dans un très grand nombre de langues. Plus de 60 langues sont répertoriées avec par exemple par ordre décroissant d’importance : Anglais, Espagnol, Français, Allemand, Flamand, Russe, Arabe, Slovène, Hébreux, Persan (Farci), Coréen, Tchèque, Chinois, Norvégien, Japonais, Roumain, Catalan, Hongrois, Géorgien, …

Lucene et différentes contributions permettent de disposer d’analyzer et même de « stemmer » pour un grand nombre de ces langues. Avec Solr, le seul moyen pour associer le bon analyzer à chaque langue est d’avoir autant de champs dans le shema qu’il y a de langues possibles et d’associer à chaque champ le bon analyzer. Pour Hurisearch, cela aurait donc fait 60 champs pour le contenu des documents et 60 champs pour les titres. L’autre problème dans ce cas est également de ne pas pouvoir chercher lors d’une même requête dans la totalité des langues  simultanément. Autant dire que ces contraintes et limitations ne sont pas acceptables.

Lire la suite »


Crawl Anywhere : un crawler Web pour Solr

Dimanche 7 mars 2010 par dominique
Posté dans Lucene / Solr, Moteur de recherche

solrDans le cadre du remplacement de Fast ESP par Solr pour le moteur Hurisearch, un crawler Web était nécessaire. Le but d'un crawler web est à partir d'une adresse Web de découvrir et récupérer toutes les pages d'un site. Un tour d'horizon de ce qui existe en la matière à fait ressortir une liste réduite de candidats : Nutch, Apache Droids et Heritrix.

  • Nutch (bien que faisant partie de la famille Lucene) ne semble de pas être un projet très actif et son intégration à Solr est peu aisée malgré quelques efforts récents.
  • Apache Droids semblait prometteur, mais lui non plus n'est plus actif depuis plus d'un an.
  • Heritrix est de loin de plus poussé de ces 3 crawlers et est un projet actif.

Heritrix semblait être le bon choix, mais entre autres lacunes, il ne possède pas d'interface Web d'administration et de monitoring "user friendly". Ce point étant crucial dans le cadre du projet Hurisearch, nous avons décidé de développer notre propre crawler Web que nous avons baptisé : "Crawl Anywhere". Ce nom peut paraitre prétentieux, mais pouvoir crawler tous types de sources est un réel objectif. De plus, trouver un nom disponible et encore plus un nom de domaine n'est pas chose aisé.

Lire la suite »


Upgrader Lucene dans Solr 1.4

Dimanche 7 mars 2010 par dominique
Posté dans Lucene / Solr, Moteur de recherche

solrSolr 1.4 utilise Lucene 2.9.0 et depuis sa sortie en novembre 2009, des mises à jours de Lucene sont disponibles. La dernière version de ce dernier est la 2.9.2. Afin de bénéficier de ces mises à jours dans Solr, il est possible de patcher le fichier solr.war.

Lire la suite »


Introduction à Solr – Installation et configuration (2)

Dimanche 10 mai 2009 par dominique
Posté dans Lucene / Solr, Moteur de recherche, Productivité, Technique

Dans les précédents articles consacrés à Solr, j’en décris les principes (Présentation de Lucene Solr) et  comment installer et configurer de façon très basique Solr afin de pouvoir indexer et rechercher dans le jeu de données de test fourni dans la distribution (Introduction à Solr – Installation et configuration (1)).

Dans ce nouvel article, je vais expliquer plus en détail les points suivants :

  • Le contenu de la distribution
  • Les fichiers de configuration
  • Comment gérer plusieurs indexes ?
  • Comment gérer plusieurs applications ?

Lire la suite »




Page 1 parmi 212