Mardi 30 décembre 2008 par dominique
Posté dans Lucene / Solr, Moteur de recherche, Technique, Web 2.0
3,910 lecture(s) | 0 commentaire
Dans cet article, je présente une solution afin de générer un nuage de tags (ou nuage de mots clefs) à partir d’un flux de données textuelles. Pour l’exemple, il s’agit de titres d’articles stockés dans un fichier texte.
Le but est d’afficher les mots ou expressions de 2 ou 3 termes les plus fréquents dans les titres. Tous les termes ou expressions ne sont pas à conserver dans le nuage de tag. Une des étapes consiste en un filtrage selon des règles définies dans fichiers de règles : suppression des mots vides (je, le, pour, …), suppression des expressions commençant ou se terminant par un mot vide (”ne mange”, “termes les”, …), suppression des nombres, …
Lire la suite »
Samedi 20 décembre 2008 par dominique
Posté dans Technique
2,587 lecture(s) | 0 commentaire
J’ai du ces jours ci installer un JDK 1.6 de SUN sur un serveur Debian Etch. Par défaut, Debian Etch n’utilise pas les versions SUN des JDK. Pour accéder aux versions SUN, il faut utiliser les dépots « non-free » pour la version 1.5 et les dépots « backports » pour la version 1.6.
La procédure est très simple. La voici.
Lire la suite »
Mercredi 17 décembre 2008 par dominique
Posté dans Flux RSS, Sites à découvrir, Web 2.0
1,560 lecture(s) | 0 commentaire
Tous les sites Web n’indiquent pas leurs flux RSS au moyen de la déclaration appropriée dans leurs pages (allez trouver les 60 flux de la BBC). D’autres proposent leurs nombreux flux en les listant sur une page dédiée, mais sans fournir de moyen de s’y abonner de façon globale (l’Express par exemple).
Rss-tracker fournit simplement la solution à ce problème. Vous rentrez l’adresse du site et en un clic de sourie et quelques secondes de patiente, Rss-tracker vous fournit le fichier OPML correspondant.
L’essayer c’est l’adopter
Lundi 15 décembre 2008 par dominique
Posté dans Debian, Hébergement, Technique
3,957 lecture(s) | 0 commentaire
Dans un précédent article, j'explique que j'ai eu besoin d'un serveur dédié et comment et ou je l'ai loué.
Dans cet article, je pars d'une installation Debian 4.0 Etch de base livrée par OVH (pour choisir la distribution Linux commandée chez OVH, je me suis basé sur cette page). Je décrie les étapes de l'installation des packages complémentaires afin de disposer de Apache, MySQL, PHP, Java et Tomcat. Ceci peut vous intéresser, mais c'est également un aide mémoire pour moi-même. C'est un peu technique, mais je n'entre pas dans les détails.
Les commandes qui sont indiquées doivent être exécutées sous le compte root ou en mode avec sudo (on va voir sudo plus loin).
Lire la suite »
Lundi 8 décembre 2008 par dominique
Posté dans Lucene / Solr, Moteur de recherche
3,047 lecture(s) | 1 commentaire
Suite au premier article Présentation de Lucene Solr, je commence aujourd’hui une série d’articles sur la mise en oeuvre de ce moteur de recherche. Les différents sujets abordés seront :
Cette première partie a pour but l’installation et la configuration minimum afin de pouvoir rechercher dans les documents d’exemple fournis dans la distribution de Solr.
Lire la suite »
Vendredi 5 décembre 2008 par dominique
Posté dans Sites à découvrir, Web 2.0
1,927 lecture(s) | 0 commentaire
Cette semaine, Emilie Ogez a inventé un nouveau type de billet : « le billet commentaire ». A partir de ce billet anodin dans lequel Emilie pose une question à ses lecteurs, les commentaires de ce dernier ont dérivés sur une description très intéressante des activités et des méthodes de travail de l’auteur. On y apprend par exemple qu’Emilie est sur le pont tous les matins à 5h pour travailler sur ses billets. C’est pas pour moi ça !
Vendredi 5 décembre 2008 par dominique
Posté dans Flux RSS, Web 2.0
378,197 lecture(s) | 1 commentaire
OPML est l’acronyme de « Outline Processor Markup Language ». Il s’agit d’un fichier au format XML mis au point par Dave Winer et qui à la base a pour but de regrouper et identifier les hiérarchies d’un texte et ainsi servir de format standard pour la sauvegarde et le partage de données en provenance d’applications de type outliner, c’est-à-dire, où les textes et idées sont regroupés en sections selon une structure hiérarchique arborescente.
Ce format a été adopté par le monde des flux RSS afin de sauvegarder des listes de flux et les partager entre agrégateurs.
Lire la suite »
Jeudi 4 décembre 2008 par dominique
Posté dans Réseaux, Technique, Web
1,708 lecture(s) | 0 commentaire
Etant confronté ces derniers temps à des baisses de performance de ma connexion Internet cable, j’ai testé cette dernière avec différents sites spécialisés afin de pouvoir croiser les résultats. Voici les mes préférés :
Lire la suite »
Je suis informaticien indépendant. J'interviens principalement dans les domaines de la gestion documentaire et des moteurs de recherches. Ce blog me permet de partager des informations techniques découvertes au cours de mes différents projets ou lors de mes lectures sur le Web.
Dominique - www.eolya.fr
Crossfeeds est un service Web de mixage et de filtrage de flux RSS. Crossfeeds dispose d'une base de 600.000 flux et offre des fonctionnalités de recherche dans les flux et d'alertes par emails.