lundi 22 février 2010

La reconnaissance des entités nommées et l'extraction de données

La conférence de Jean Veronis a porté sur la problématique de l'extraction d'information dans du contenu textuel. La reconnaissance des entités nommées et l'extraction de données a été abordée principalement du côté de son intérêt et de la méthodologie mise en place. Autrement dit : à quoi ça sert ? Et comment ça marche ?


La problématique d'extraction d'information dans du contenu textuel


Ex : noms propres (lieux, personnes, marques, entreprises, organismes etc. ce qu'on a l'habitude de faire commencer par des majuscules).
Mais pas seulement... pourcentages, dates, montant monétaires etc.

C'est un tâche mal définie. Où s'arrête-t-on ?

A quoi ça sert ?


Détection d'un buzz dans l'actualité. Outil dans wikio « ils font l'actualité ». Intérêt / navigation et SEO.
Essentiel que l'info soit présente en temps réel sur la page d'accueil pour mettre en avant une page en profondeur traitant du sujet.
Veille et suivi de tendances. [A l'image de google trends]
E-reputation. Ex : France Telecom et suicide
Moteurs de recherche. Orange le moteur (si actu = réponse d'actu dans les 3 1ères réponses). // avec réponses différentes selon actu ou pas sur la requête.
Autres applications = traduction automatique + classification de documents + base de faits etc + Extraction de relations entre les entités (siloBreaker).

Projet OpenCalais – ClearForestGnosis = donne à gauche les entités détectées.

Comment ça marche ?


2 problèmes : détection de l'entité puis interprétation.
Ex : orange = fruit, marque, ville etc.
Détection = prb qui semble simple. Mais où prenez-vous vos sources ? + variabilité.
Ex: Air France – Air-France-KLM – AF – AFR etc.+ erreurs orthographiques + multilinguisme + translittérations + entités inconnues.
Heuristiques = combinaison d'éléments pour faire le mieux possible (variantes – noms composés – autres langues etc.)
Bases patronymes et prénoms oui mais... ambigüités.
Statistiques permettent de catégoriser les entités.

Interprétation


Problème de la typologie.
Personnes, lieux etc.
Difficultés marques / entreprises ? Cela dépend de ce qu'on veut à l'arrivée.
Difficulté : comment on catégorise les entités nommées ?

2 commentaires:

Anonyme a dit…

Savez-vous s'il est possible de mêler différents types d'entités nommées, par exemple RDFa et Microformats ? Anthony webmaster freelance à Paris

Creation graphique Grenoble a dit…

@Anthony : il me semble que oui, par contre les formats sont pas encore bien stables en France :/ notamment les prix pour les sites ecommerce...