Les systèmes d'identification de chaines de reference
1/ Les expressions référentielles
1. Anaphores
2. Chaines de références (coréférences)
2/ Contexte et motivation
1. Modèles linguistiques du discours : théorie de l'accessibilité (Ariel 1990 1996) et du centrage (Groz et Sidner)
2. Rôles des anaphores et de chaînes de référence dans le discours : marqueurs de cohésion textuelle (Charolles, 1997), fonctionnement des chaînes (Schnedecker, 1997), thème et chaînes de référence (Cornish, 2005)
3/ Systèmes à base de contraintes versus systèmes d'apprentissage automatique
1. Systèmes à base de règles : en français (Hernandez, 2004), (Dupont, 2003) (Victorri 2005), (Popescu Belis, 1996), (Longo, Todirascu, 2010), en anglais (Mitkov, 2003), (Bontcheva et al, 2004), vérification de contraintes (lexicales, syntaxiques, sémantiques) pour trouver les affinités entre les possibles antécédents (entités nommées, groupes nominaux définis) dépendantes de langue
2. Systèmes de classification systèmes supervisées (Ng et Cardie, 2002) (Yang et al, 2004) (Weisenbacher & Nazarenko, 2008), nécessitent des données d'apprentissage de grande taille (500,000 – 1,000,000 tokens) annotées au niveau de relations de coréférence et anaphorique, données disponibles pour EN, DE, NL, ES, IT mais pas pour le français !!!, propriétés: contraintes (lexicales, syntaxiques, sémantique), position dans la phrase, distance entre les candidats, type d'expressions référentielles (déterminant, nom commun/nom propre etc.)
3. Systèmes non-supervisés (Lang et al, 2009), (Ailloud, Klenner, 2009), (Bean et Riloff, 2004), BART (Versley et al, 2008) : exploitation des informations morpho-syntaxiques, la position ou la distance, le type d'antécédent, données : corpus étiquetés lemmatisés, éventuellement annotés syntaxiquement mais pas besoin d'avoir d'annotation des relations de coréférence
4. Problème : systèmes à base de règles : beaucoup d'effort pour construire les ressources, connaissances complexes (étiquetage, lemmatisation, analyse syntaxique, identification des entitées nommées), systèmes de classification : volume important de données, données insuffisantes
Références
- Ailloud, E, Klenner, M (2009) Vers des contraintes plus linguistiques en résolution d de coréférences, TALN 2009
- Cornish, (1998). Les “chaînes topicales” : leur rôle dans la gestion et la structuration du discours, Cahiers de Grammaire, 23 : 19-40.
- Dupont M. (2003) Une approche cognitive du calcul de la référence, thèse de l’université de Caen, 308 p.
- Lang, J. Qin, B., Liu, T., Li, s. (2009) Unsupervised Coreference Resolution with HyperGraph Partitionning, Computer and Information Science, Vol 2, no 4.
- Longo, L, Todirascu, A (2010) RefGen – un module d'identification de chaînes de référence, TALN 2010
- Grosz B.J., Weinstein S., Joshi A.K. (1995), “Centering: a framework for modeling the local coherence of discourse”. Computational Linguistics 21(2), 203-225.
- Ng V., Cardie C. (2002). Improving machine learning approaches to coreference resolution. Actes de ACL (Association For Computational Linguistics), Morristown, 104-111.
- YANG X., SU J., ZHOU G. & TAN C. (2004). An NP-cluster based approach to coreference resolution. Proceedings of COLING'04