MySolrServer propose l’hébergement d’instances Solr

Dimanche 5 juin 2011 par dominique
Posté dans Hébergement, Lucene / Solr, Moteur de recherche, Sites à découvrir

MySorlServer est un nouveau service web qui propose l'hébergement d'instances Solr sous la forme d'abonnements. Solr en mode SaaS répond entre autres à la difficulté pour un propriétaire de blog ou CMS de pouvoir utiliser les plugins ou extensions existantes pour Solr. En effet, disposer d'un hébergement Tomcat ou Jetty pour accueillir un serveur Solr est souvent compliqué voir impossible sans recourir à la location d'un hébergement mutualisé complémentaire ou d'un serveur dédié.

MySolrServer gère la mise en place et le paramétrage des instances Solr de façon transparente et ne nécessite donc pas de compétences Solr particulières. En quelques cliques de souris, une instance pré-paramétrée pour les plugins ou extensions Solr de WordPress, Joomla, eZ Publish ou Drupal est déployée et prête à l'emploi.

Lire la suite »


Solr et curl

Vendredi 28 janvier 2011 par dominique
Posté dans Lucene / Solr

solr

 

 

 

 

Voici quelques commandes simples et bien utiles utilisant curl afin de manipuler un index Solr.

  • Supprimer un document à partir de sa valeur de clé unique
  • Supprimer un document à partir d'une requête
  • Vider totalement un index
  • Forcer un commit d'un index
  • Forcer un optimize d'un index

Lire la suite »


Appliquer un patch à Solr

Lundi 24 janvier 2011 par dominique
Posté dans Lucene / Solr

solrLe temps qui s'écoule entre 2 versions de Solr est plutôt long. Dans l'interval, de nombreux correctifs sont réalisés voir même de nouvelles fonctionnalités implémentées. Il est donc parfois nécessaire d'appliquer un patch à Solr (par exemple avec la version 1.4.1, si on veux que le composant spellchecker fonctionne en recherche distribuée, il faut appliquer le patch SOLR-785).

Voici la méthode pour intégrer le patch suivant : https://issues.apache.org/jira/browse/SOLR-785

  • Commencer par récupérer une distribution des sources de Solr (http://www.apache.org/dyn/closer.cgi/lucene/solr/).
  • Décompresser l'archive dans un répertoire. Pour l'exemple on utilise /tmp, ce qui donne un répertoire /tmp/apache-solr-1.4.1
  • Dans /tmp/apache-solr-1.4.1, placer le fichier correspondant au patch (pour le patch SOLR-785, c'est SOLR-785.patch)
  • Patcher
    cd /tmp/apache-solr-1.4.1
    patch -p0 -i SOLR-785.patch
  • Recompiler
    ant clean
    ant dist

Le war compilé est dans le répertoire dist


Crawl Anywhere version 1.1.0 est disponible

Lundi 3 janvier 2011 par dominique
Posté dans Lucene / Solr, Moteur de recherche

Crawl Anywhere est un crawler web, un pipeline de traitement des documents et un indexer Solr. Il offre une interface Web d'administration qui permet de facilement gérer les différentes sources (sites web) à crawler et indexer.

Après plusieurs mises en production chez des clients et les différents retours d'expériences, un certain nombre de nouvelles fonctionnalités ont été ajoutées à Crawl Anywhere. Une liste des principales nouvelles fonctionnalités est disponible sur le wiki dans la release note.


Solr et PHP

Samedi 6 novembre 2010 par dominique
Posté dans Lucene / Solr, Moteur de recherche

solrVoici une présentation slideshare de Solr ainsi que des exemples de code PHP avec l'extension Apache Solr PECL.

Un bon rappel des concepts de base.


Comparaison de moteurs de recherche open source

Jeudi 4 novembre 2010 par dominique
Posté dans Lucene / Solr, Moteur de recherche

Je signale l’intéressante étude A Comparison of Open Source Search Engines (PDF) de Christian Middleton et Ricardo Baeza-Yates parue en 2008. Les moteurs analysés sont : ht://Dig, Indri, IXE, Lucene, MG4J, IBM OmniFind Yahoo! Edition, Omega, SWISH-E, SWISH++, Terrier, XMLSearch et Zettair. Les moteurs qui sortent du lot sont pour un environnement Java: MG4J, Terrier ou Lucene, et pour un environnement C/C++: Swish-E, Swish++, ht://Dig, XMLSearch ou Zettair.

Lucene se distingue dans tous les domaines sauf celui d'indexer une collection de document de 10 Go. Au vu des progrès réalisés par Lucene ces dernières années, je pense que la version actuelle n'aurait aucun problème.
 


Obtenir une compilation nocturne de Solr 3.1 ou Solr 4.0

Mercredi 3 novembre 2010 par admin
Posté dans Lucene / Solr, Moteur de recherche, Technique

solrDepuis le début de l'année les sources de Lucene et Solr ont fusionnées. La prochaine version commune aura pour numéro 4.0. Pour ceux qui veulent déjà tester la version en cours de développement, il faut en récupérer les sources et les compiler (java 1.6 requis). En effet, les liens de téléchargement des compilations nocturnes ne fonctionnent pas. En prérequis, il faut disposer de svn client et de ant.

Il existe actuellement 2 versions en cours de développement : Solr 3.1 et Solr 4.0. Ma compréhension est que :

  • Solr 3.1 est une version plutôt stable qui devrait la prochaine version de Solr et embarquent Lucene 3.1. Sortie possible : mars ou avril 2011.
  • Solr 4.0 est la version de développement (trunk) moins stable et dont le disponibilité dervait être pour 2012.

Pour une explication sur ces 2 versions des sources de Solr, lire ce message de Uwe Schindler : Lucene 3.x branch created et cette discussion : Solr 3.1

Lire la suite »


Crawl Anywhere a son propre site

Dimanche 31 octobre 2010 par dominique
Posté dans Lucene / Solr, Moteur de recherche, Sites à découvrir

Dans un article précédent, j'ai parlé de Crawl Anywhere un crawler Web que j'ai écris dans le cadre du projet Hurisearch (www.hurisearch.org). Crawl Anywhere ayant suscité l'intérêt, j'ai décidé de créer son propre site tout en anglais pour en faire la promotion : http://www.crawl-anywhere.com/.

Si un crawler web avec une vrai interface d'administration vous intéresse, je vous invite à lire ou relire l'article que j'ai écris il y a quelques mois : "Crawl Anywhere : un crawler Web pour Solr" et à aller sur www.crawl-anywhere.com.


Détection de la langue d’un texte (3)

Vendredi 26 mars 2010 par dominique
Posté dans Lucene / Solr, Technique

javaDans un premier article sur le sujet, je décris une méthode de détection de la langue d’un texte basée sur un calcul statistique de présence de n-gram dans le texte.  Cette distribution statistique est alors comparée à des distributions types pré-calculées sur des corpus de texte dans différentes langues. La langue du texte est alors à priori celle du corpus présentant la distribution la plus proche. Comme je l’ai expliqué dans mon premier article, j’ai utilisé NgramJ, une librairie Java open source. Après différents tests avec d’autres librairies, NgramJ reste pour moi la plus efficace.

Cependant, cette méthode n’est pas fiable à 100% et NgramJ est limitée dans sa version actuelle à 26 langues détectables : Bulgare (bg), Tchèque (cz), Danois (da), Allemand (de), Grec (el), Anglais (en) Espagnol (es), Estonien (et), Finlandais (fi), Français (fr), Hongrois (hu), Islandais (is), Italien (it), Lituanien (lt), Letton (lv), Maltais (mt) , Néerlandais (nl), Norvégien (no), Polonais (pl), Portugais (pt), Roumain (ro), Russe (ru) , Slovaque (sk), Slovène (sl), Suédois (sv) et Thaï (th).

Je voudrais proposer 2 pistes pour améliorer NGramJ : la fiabilité de la détection et le nombre de langues détectables.

Lire la suite »


Tika 0.6 : compilation et dépendances

Jeudi 11 mars 2010 par dominique
Posté dans Lucene / Solr, Technique

tikaTika est une librairie Java qui a pour but l’extraction du texte de toutes sortes de formats de fichiers : PDF, office,  html, … (la liste complète est disponible ici). Afin d’utiliser cette librairie dans vos projets java, il faut en récupérer les sources, les compiler et également récupérer les librairies dont dépend Tika. Voici la procédure à suivre ainsi qu’une astuce pour palier à un problème de compilation.

Lire la suite »




Page 1 parmi 3123