Crawl Anywhere a son propre site

Dimanche 31 octobre 2010 par dominique
Posté dans Lucene / Solr, Moteur de recherche, Sites à découvrir

Dans un article précédent, j'ai parlé de Crawl Anywhere un crawler Web que j'ai écris dans le cadre du projet Hurisearch (www.hurisearch.org). Crawl Anywhere ayant suscité l'intérêt, j'ai décidé de créer son propre site tout en anglais pour en faire la promotion : http://www.crawl-anywhere.com/.

Si un crawler web avec une vrai interface d'administration vous intéresse, je vous invite à lire ou relire l'article que j'ai écris il y a quelques mois : "Crawl Anywhere : un crawler Web pour Solr" et à aller sur www.crawl-anywhere.com.


Installation de Munin sur Debian Lenny

Mardi 12 octobre 2010 par dominique
Posté dans Debian, Technique

Cet article décrit l'installation de base du moniteur de ressources Numin, puis fourni un lien sur un article décrivant comment ajouter un plugin pour le monitoring des vhosts apache.

Lire la suite »


Installer Atlassian Jira 4.1 et Confluence 3.3 sur Debian Lenny avec Tomcat 5.5 et MySQL

Lundi 11 octobre 2010 par dominique
Posté dans Debian, Technique

Cet article est un résumé des procédures d'installation de Jira et Confluence telle qu'on peut les trouver sur le site de Atlassian. Il est focalisé sur un environnement Tomcat 5.5 et MySQL.

Lire la suite »


Détection de la langue d’un texte (3)

Vendredi 26 mars 2010 par dominique
Posté dans Lucene / Solr, Technique

javaDans un premier article sur le sujet, je décris une méthode de détection de la langue d’un texte basée sur un calcul statistique de présence de n-gram dans le texte.  Cette distribution statistique est alors comparée à des distributions types pré-calculées sur des corpus de texte dans différentes langues. La langue du texte est alors à priori celle du corpus présentant la distribution la plus proche. Comme je l’ai expliqué dans mon premier article, j’ai utilisé NgramJ, une librairie Java open source. Après différents tests avec d’autres librairies, NgramJ reste pour moi la plus efficace.

Cependant, cette méthode n’est pas fiable à 100% et NgramJ est limitée dans sa version actuelle à 26 langues détectables : Bulgare (bg), Tchèque (cz), Danois (da), Allemand (de), Grec (el), Anglais (en) Espagnol (es), Estonien (et), Finlandais (fi), Français (fr), Hongrois (hu), Islandais (is), Italien (it), Lituanien (lt), Letton (lv), Maltais (mt) , Néerlandais (nl), Norvégien (no), Polonais (pl), Portugais (pt), Roumain (ro), Russe (ru) , Slovaque (sk), Slovène (sl), Suédois (sv) et Thaï (th).

Je voudrais proposer 2 pistes pour améliorer NGramJ : la fiabilité de la détection et le nombre de langues détectables.

Lire la suite »


Tika 0.6 : compilation et dépendances

Jeudi 11 mars 2010 par dominique
Posté dans Lucene / Solr, Technique

tikaTika est une librairie Java qui a pour but l’extraction du texte de toutes sortes de formats de fichiers : PDF, office,  html, … (la liste complète est disponible ici). Afin d’utiliser cette librairie dans vos projets java, il faut en récupérer les sources, les compiler et également récupérer les librairies dont dépend Tika. Voici la procédure à suivre ainsi qu’une astuce pour palier à un problème de compilation.

Lire la suite »


Indexation multi-lingues avec Lucene et Solr

Mardi 9 mars 2010 par dominique
Posté dans Lucene / Solr, Moteur de recherche

solrUn des challenges lors du passage de Fast ESP à Solr pour le moteur Hurisearch a été de pouvoir indexer et rechercher des documents dans un très grand nombre de langues. Plus de 60 langues sont répertoriées avec par exemple par ordre décroissant d’importance : Anglais, Espagnol, Français, Allemand, Flamand, Russe, Arabe, Slovène, Hébreux, Persan (Farci), Coréen, Tchèque, Chinois, Norvégien, Japonais, Roumain, Catalan, Hongrois, Géorgien, …

Lucene et différentes contributions permettent de disposer d’analyzer et même de « stemmer » pour un grand nombre de ces langues. Avec Solr, le seul moyen pour associer le bon analyzer à chaque langue est d’avoir autant de champs dans le shema qu’il y a de langues possibles et d’associer à chaque champ le bon analyzer. Pour Hurisearch, cela aurait donc fait 60 champs pour le contenu des documents et 60 champs pour les titres. L’autre problème dans ce cas est également de ne pas pouvoir chercher lors d’une même requête dans la totalité des langues  simultanément. Autant dire que ces contraintes et limitations ne sont pas acceptables.

Lire la suite »


Crawl Anywhere : un crawler Web pour Solr

Dimanche 7 mars 2010 par dominique
Posté dans Lucene / Solr, Moteur de recherche

solrDans le cadre du remplacement de Fast ESP par Solr pour le moteur Hurisearch, un crawler Web était nécessaire. Le but d'un crawler web est à partir d'une adresse Web de découvrir et récupérer toutes les pages d'un site. Un tour d'horizon de ce qui existe en la matière à fait ressortir une liste réduite de candidats : Nutch, Apache Droids et Heritrix.

  • Nutch (bien que faisant partie de la famille Lucene) ne semble de pas être un projet très actif et son intégration à Solr est peu aisée malgré quelques efforts récents.
  • Apache Droids semblait prometteur, mais lui non plus n'est plus actif depuis plus d'un an.
  • Heritrix est de loin de plus poussé de ces 3 crawlers et est un projet actif.

Heritrix semblait être le bon choix, mais entre autres lacunes, il ne possède pas d'interface Web d'administration et de monitoring "user friendly". Ce point étant crucial dans le cadre du projet Hurisearch, nous avons décidé de développer notre propre crawler Web que nous avons baptisé : "Crawl Anywhere". Ce nom peut paraitre prétentieux, mais pouvoir crawler tous types de sources est un réel objectif. De plus, trouver un nom disponible et encore plus un nom de domaine n'est pas chose aisé.

Lire la suite »


Upgrader Lucene dans Solr 1.4

Dimanche 7 mars 2010 par dominique
Posté dans Lucene / Solr, Moteur de recherche

solrSolr 1.4 utilise Lucene 2.9.0 et depuis sa sortie en novembre 2009, des mises à jours de Lucene sont disponibles. La dernière version de ce dernier est la 2.9.2. Afin de bénéficier de ces mises à jours dans Solr, il est possible de patcher le fichier solr.war.

Lire la suite »


Déconnexions intempestives avec SSH

Lundi 11 janvier 2010 par dominique
Posté dans Debian, Technique

ssh1Avec ma connexion Numéricable (mais pas en ADSL avec Free), j’ai rencontré des problèmes de déconnexions SSH intempestives (aussi bien avec Putty qu’avec WinSCP).

La solutions passe par une paramétrage du coté client pour envoyer des packets vides qui serviront à maintenir la connexion en vie.

Avec Putty : Onglet Connections > Seconds between keepalives : « 60″

Sous Linux : Dans « ~/.ssh/config » > « ServerAliveInterval 60″

Dans les cas ou cela est possible, cette configuration peut être réalisée coté serveur : dans « /etc/ssh/sshd_config » > « ClientAliveInterval 60″



Mac OS X et outils de développement

Dimanche 20 décembre 2009 par dominique
Posté dans Mac OS, Productivité, Technique

icon_xcode_20090824

Le but est de pouvoir développer sous Mac OX (Snow Leopard) des applications AMP (Apache / MySQL / PHP) et des applications Java (dont des servlets dans Tomcat). Dans cet article sont abordées les installations de Apache, PHP, MySQL, Java, Tomcat et Eclipse.

 

 

Xcode

C'est la première étape incontournable pour disposer d'un environnement de développement sous Mac OS. Xcode est disponible sur le DVD de Snow Leopard, mais la dernière version à jour est disponible gratuitement sur le site de Apple (http://developer.apple.com/products/membership.html). Xcode inclut les outils minimums pour créer et debugger des applications pour Mac (ou iPhone).

Lire la suite »




Page 2 parmi 812345...Fin »