Canalblog
Editer l'article Suivre ce blog Administration + Créer mon blog
Publicité
mli07 Evaluation numérique d'un module de détection de chaînes de référence
Archives
31 mai 2010

Corpus anaphoriques et coréférentiels

pour l’anglais

  • MUC  65 000 mots sur des sujets journalistiques.
  • Lancaster (Lancaster Anaphoric Treebank)  100 000 mots pronoms, anaphores nominales, ellipses, pronoms génériques payant.
  • Poesio et Vieira (1998) extrait de la PennTreebank  1040 descriptions définies.
  • université de Wolverhampton (Mitkov et al., 2000) corpus de manuels techniques (35 000 mots environs)

polonais

  • Mitkov (1998) (180 pronoms).

portugais brésilien

  • Vieira et al., (2002) 5000 mots

multilingues

  • Anglais-Roumain (Harabagiu et al., 2000),
  • Anglais-Français (Mitkov et al., 2000)
  • Français-Portugais (Salmon-Alt et al., 2002).
Publicité
Commentaires
mli07 Evaluation numérique d'un module de détection de chaînes de référence
  • Les unités textuelles qui partagent la même thématique sont identifiables par des marqueurs linguistiques référentiels. Ces chaînes de références contribuent à la cohérence et à la cohésion du texte.
  • Accueil du blog
  • Créer un blog avec CanalBlog
Publicité
Publicité