Archive pour décembre 2008


 

Créer un nuage de tags avec Lucene

Mardi 30 décembre 2008 par dominique
Posté dans Lucene / Solr, Moteur de recherche, Technique, Web 2.0
3,910 lecture(s) | 0 commentaire

Dans cet article, je présente une solution afin de générer un nuage de tags (ou nuage de mots clefs) à partir d’un flux de données textuelles. Pour l’exemple, il s’agit de titres d’articles stockés dans un fichier texte.

Le but est d’afficher les mots ou expressions de 2 ou 3 termes les plus fréquents dans les titres. Tous les termes ou expressions ne sont pas à conserver dans le nuage de tag. Une des étapes consiste en un filtrage selon des règles définies dans fichiers de règles : suppression des mots vides (je, le, pour, …), suppression des expressions commençant ou se terminant par un mot vide (”ne mange”, “termes les”, …), suppression des nombres, …

Lire la suite »


Installer le JDK 1.6 de SUN sur Debian Etch

Samedi 20 décembre 2008 par dominique
Posté dans Technique
2,587 lecture(s) | 0 commentaire

J’ai du ces jours ci installer un JDK 1.6 de SUN sur un serveur Debian Etch. Par défaut, Debian Etch n’utilise pas les versions SUN des JDK. Pour accéder aux versions SUN, il faut utiliser les dépots « non-free » pour la version 1.5 et les dépots « backports » pour la version 1.6.

La procédure est très simple. La voici.

Lire la suite »


Rss-tracker simplifie la vie des amateurs de flux RSS

Mercredi 17 décembre 2008 par dominique
Posté dans Flux RSS, Sites à découvrir, Web 2.0
1,560 lecture(s) | 0 commentaire

Tous les sites Web n’indiquent pas leurs flux RSS au moyen de la déclaration appropriée dans leurs pages (allez trouver les 60 flux de la BBC). D’autres proposent leurs nombreux flux en les listant sur une page dédiée, mais sans fournir de moyen de s’y abonner de façon globale (l’Express par exemple).

Rss-tracker fournit simplement la solution à ce problème. Vous rentrez l’adresse du site et en un clic de sourie et quelques secondes de patiente, Rss-tracker vous fournit le fichier OPML correspondant.

L’essayer c’est l’adopter :)


Installation d’un serveur Linux Debian

Lundi 15 décembre 2008 par dominique
Posté dans Debian, Hébergement, Technique
3,957 lecture(s) | 0 commentaire

debian1Dans un précédent article, j'explique que j'ai eu besoin d'un serveur dédié et comment et ou je l'ai loué.

Dans cet article, je pars d'une installation Debian 4.0 Etch de base livrée par OVH (pour choisir la distribution Linux commandée chez OVH, je me suis basé sur cette page). Je décrie les étapes de l'installation des  packages complémentaires afin de disposer de Apache, MySQL, PHP, Java et Tomcat. Ceci peut vous intéresser, mais c'est également un aide mémoire pour moi-même. C'est un peu technique, mais je n'entre pas dans les détails.

Les commandes qui sont indiquées doivent être exécutées sous le compte root ou en mode avec sudo (on va voir sudo plus loin).

Lire la suite »


Introduction à Solr – Installation et configuration (1)

Lundi 8 décembre 2008 par dominique
Posté dans Lucene / Solr, Moteur de recherche
3,047 lecture(s) | 1 commentaire

logo_home_solrSuite au premier article Présentation de Lucene Solr, je commence aujourd’hui une série d’articles sur la mise en oeuvre de ce moteur de recherche. Les différents sujets abordés seront :

  • L’installation
  • La configuration
  • L’indexation
  • La recherche

Cette première partie a pour but l’installation et la configuration minimum afin de pouvoir rechercher dans les documents d’exemple fournis dans la distribution de Solr.

Lire la suite »


Le billet est dans les commentaires

Vendredi 5 décembre 2008 par dominique
Posté dans Sites à découvrir, Web 2.0
1,927 lecture(s) | 0 commentaire

Cette semaine, Emilie Ogez a inventé un nouveau type de billet : « le billet commentaire ». A partir de ce billet anodin dans lequel Emilie pose une question à ses lecteurs, les commentaires de ce dernier ont dérivés sur une description très intéressante des activités et des méthodes de travail de l’auteur. On y apprend par exemple qu’Emilie est sur le pont tous les matins à 5h pour travailler sur ses billets. C’est pas pour moi ça !


Qu’est-ce qu’un fichier OPML ?

Vendredi 5 décembre 2008 par dominique
Posté dans Flux RSS, Web 2.0
378,197 lecture(s) | 1 commentaire

OPML est l’acronyme de « Outline Processor Markup Language ». Il s’agit d’un fichier au format XML mis au point par Dave Winer et qui à la base a pour but de regrouper et identifier les hiérarchies d’un texte et ainsi servir de format standard pour la sauvegarde et le partage de données en provenance d’applications de type outliner, c’est-à-dire, où les textes et idées sont regroupés en sections selon une structure hiérarchique arborescente.

Ce format a été adopté par le monde des flux RSS afin de sauvegarder des listes de flux et les partager entre agrégateurs.

Lire la suite »


Différents outils pour tester sa bande passante Internet

Jeudi 4 décembre 2008 par dominique
Posté dans Réseaux, Technique, Web
1,708 lecture(s) | 0 commentaire

Etant confronté ces derniers temps à des baisses de performance de ma connexion Internet cable, j’ai testé cette dernière avec différents sites spécialisés afin de pouvoir croiser les résultats. Voici les mes préférés :

Lire la suite »



A propos

Je suis informaticien indépendant. J'interviens principalement dans les domaines de la gestion documentaire et des moteurs de recherches. Ce blog me permet de partager des informations techniques découvertes au cours de mes différents projets ou lors de mes lectures sur le Web.

Dominique - www.eolya.fr

Optimisez la lecture de vos blogs et sites d'information préférés

Crossfeeds est un service Web de mixage et de filtrage de flux RSS. Crossfeeds dispose d'une base de 600.000 flux et offre des fonctionnalités de recherche dans les flux et d'alertes par emails.

http://www.crossfeeds.fr/