Démo de l'analyseur


Ce logiciel évalue la qualité textuelle d'une page Web. L'indice de qualité permet à un crawler d'indexer ou pas un document, un moteur de recherche peut trier ses réponses par ordre décroissant de 'Qualité'.


URL
Ne pas forcer la langue Français Anglais

Seul le contenu de la balise html <body> est pris en compte - l'analyse est limitée aux 50000 premiers caractères

Texte de l'URL Collez ici le texte à analyser si quelque chose ne fonctionne pas correctement
Langue principale du document :
Densité : 0 % Variabilité : 0 % Qualité : 0 %
time analysis : 0 s
Gelatino v1.2.2


Densité : La proportion d'information dans un texte
Variabilité : L'ensemble des formes que l'information prend dans un texte
Qualité : La probabilité d'être informatif

Qualité = ƒ (Densité, Variabilité)

La qualité d'un texte est sa capacité à informer, répondre à une requête de moteur de recherche.

Dysfonctionnements


Certaines pages Web peuvent être mal analysées. Voici les principaux problèmes rencontrés par l'analyseur.

Les cadres html

Certaines pages sont organisées en cadre html (frames). Le présent logiciel est incapable de suivre les liens présents sur une page afin d'en capturer le contenu. Le texte présent dans les cadres ne sera pas pris en compte.

Jeu de caractères

L'analyseur s'attend à trouver un texte écrit selon le jeu de caractère "iso-8859-1" ou "utf-8". Actuellement, la conversion de jeux de caractères différents n'est pas assurée.

Affichage non représentatif

Parfois, l'affichage des pages Web n'a pas grand chose à voir avec le code qui est utilisé pour assurer cet affichage. L'analyseur prend en compte le texte rééllement présent dans le code html des pages, pas celui qui est finallement affiché, et dont une partie peut être masquée volontairement.

Langue non reconnue

Le français et l'anglais sont actuellement les deux seules langues qui possèdent un module d'analyse spécifique. La langue peut aussi ne pas être reconnue sur de très courts textes.

Pas de texte capté depuis l'URL

Certaines pages Web contiennent du texte issu de scripts javascript (publicicités comme Google Adsense) ou autre procédés d'affichage non purement html. Le texte peut ne pas apparaître dans ces conditions.

Vue d'ensemble


Gelatino est un logiciel qui permet de mesurer la qualité informative d'un texte. La qualité est d'autant plus grande que le texte est dense et varié.

Fonctionnement

Pour évaluer la densité et la variabilité, Gelatino examine les textes selon des critères linguistiques, et plus précisément, morphologiques et syntaxiques. En effet, pour une langue donnée, si les mots changent selon la spécialité, les structures syntaxiques restent stables quel que soit le corpus envisagé. Plus le texte est informatif, plus les structures syntaxique du texte sont nombreuses et variées.

L'avantage du modèle syntaxique de Gelatino sur un modèle statistique est qu'il ne se laisse pas abuser par une répétition volontaire des mêmes mots afin de forcer l'indexation de la page sur ces mots-là. L'autre avantage est que l'appréciation portée sur un texte est indépendante de sa longueur. De petits textes denses seront perçus plus important que de longs textes creux.

Usages

Il est possible d'utiliser cet indicateur de qualité textuelle en amont, au moment ou le texte est crawlé par le robot crawler, afin de n'indexer que les pages qui en valent la peine, et réduire ainsi considérablement le bruit introduit dans la base de donnée.

En aval, c'est à dire après indexation, le moteur de recherche peut trier ses résultats selon différents criètères comme la popularité (on connaît les limites pratiques de ce modèle), et la qualité du texte. Les textes à la fois les plus populaires et dont la qualité est la meilleure seraient affichés en priorité.

Démo

La version démo de ce logiciel est écrite en php non optimisé, et fonctionne actuellement sur un hébergement mutualisé. La puissance de calcul nécessaire afin de mener l'analyse est faible. La grande rapidité d'analyse autorise une utilisation en direct lors du processus de crawling. Les textes trop longs sont toutefois tronqués afin d'éviter certains abus.

Pour les pages Web, toutes les balises html sont effacées, et seul le texte contenu dans entre les balises body est pris en compte.

Prochainement

Dans quelques temps, d'autres langues seront ajoutées, notamment : l'espagnol, le portugais et l'italien, l'allemand, le danois, ...

D'autres indicateurs verront prochainement le jour.

Auteur

Trophée Apple 93

Parcours

Je mène des recherches en analyse textuelle depuis 1990. J'ai obtenu un diplôme d'étude approfondi en traitement automatique des langues à l'Université Claude Bernard à Lyon. En 1993, j'ai ensuite obtenu un trophée Apple pour un logiciel de résumé automatique de texte. J'ai aussi travaillé pendant 4 ans comme chercheur pour un moteur de recherche, start up de l'Internet. Mes travaux sur l'indexation de documents ont fait l'objet de dépôts de brevet internationaux.

Aujourd'hui

Aujourd'hui, je suis webmaster à mon propre compte, mais je continue à me passionner pour le traitement automatique des langues et de mettre au point des indicateurs de contenu textuel afin d'aider les entreprises de ce secteur à développer leurs activités de traitement automatique des langues.


ng@ngweb.fr

My status