Canalblog
Editer l'article Suivre ce blog Administration + Créer mon blog
Publicité
mli07 Evaluation numérique d'un module de détection de chaînes de référence
Archives
8 novembre 2010

Les systèmes d'identification de chaines de reference

1/ Les expressions référentielles

1. Anaphores

2. Chaines de références (coréférences)

2/ Contexte et motivation

1. Modèles linguistiques du discours : théorie de l'accessibilité (Ariel 1990 1996) et du centrage (Groz et Sidner)

2. Rôles des anaphores et de chaînes de référence dans le discours : marqueurs de cohésion textuelle (Charolles, 1997), fonctionnement des chaînes (Schnedecker, 1997), thème et chaînes de référence (Cornish, 2005)

3/ Systèmes à base de contraintes versus systèmes d'apprentissage automatique 

1. Systèmes à base de règles : en français (Hernandez, 2004), (Dupont, 2003) (Victorri 2005), (Popescu Belis, 1996), (Longo, Todirascu, 2010), en anglais (Mitkov, 2003), (Bontcheva et al, 2004)‏, vérification de contraintes (lexicales, syntaxiques, sémantiques) pour trouver les affinités entre les possibles antécédents (entités nommées, groupes nominaux définis)‏ dépendantes de langue

2. Systèmes de classification systèmes supervisées (Ng et Cardie, 2002) (Yang et al, 2004)‏ (Weisenbacher & Nazarenko, 2008), nécessitent des données d'apprentissage de grande taille (500,000 – 1,000,000 tokens) annotées au niveau de relations de coréférence et anaphorique, données disponibles pour EN, DE, NL, ES, IT mais pas pour le français !!!,      propriétés: contraintes (lexicales, syntaxiques, sémantique), position dans la phrase, distance entre les candidats, type d'expressions référentielles (déterminant, nom commun/nom propre etc.)

3. Systèmes non-supervisés (Lang et al, 2009), (Ailloud, Klenner, 2009), (Bean et Riloff, 2004)‏, BART (Versley et al, 2008) :  exploitation des informations morpho-syntaxiques, la position ou la distance, le type d'antécédent, données : corpus étiquetés lemmatisés, éventuellement annotés syntaxiquement mais pas besoin d'avoir d'annotation des relations de coréférence

4. Problème : systèmes à base de règles : beaucoup d'effort pour construire les ressources, connaissances complexes (étiquetage, lemmatisation, analyse syntaxique, identification des entitées nommées), systèmes de classification : volume important de données, données insuffisantes

Références

Publicité
Commentaires
mli07 Evaluation numérique d'un module de détection de chaînes de référence
  • Les unités textuelles qui partagent la même thématique sont identifiables par des marqueurs linguistiques référentiels. Ces chaînes de références contribuent à la cohérence et à la cohésion du texte.
  • Accueil du blog
  • Créer un blog avec CanalBlog
Publicité
Publicité