SHS Web of Conferences (Jul 2014)
Le corpus ANCOR_Centre et son outil de requêtage : application à l’étude de l’accord en genre et nombre dans les coréférences et anaphores en français parlé
Abstract
Cet article présente les premières études de corpus réalisés sur ANCOR_Centre, un nouveau corpus de français parlé annoté en relations de coréférence ou anaphoriques. Par sa taille (488 000 mots, 100 000 mentions, 50000 relations), ce corpus est sans équivalent sur le français et soutient la comparaison avec les plus grands corpus de coréférence existant sur d’autres langues. Dans un premier temps, nous détaillons la réalisation de cette ressource qui est diffusée librement sous licence Creative Commons. Puis nous présentons l’outil de requêtage associé au corpus, qui offre à la communauté des sciences du langage des capacités d’analyse exhaustives et précises du corpus, autant pour des études quantitatives que qualitatives (concordancier). Cet outil a été utilisé pour décrire quantitativement le contenu du corpus ANCOR, ce qui fait l’objet de la troisième partie de l’article. Enfin, nous présentons une étude originale basée là encore sur l’analyse par requête du corpus, qui montre qu’en français parlé, l’hypothèse d’accord systématique en genre et nombre entre la coréférence et son antécédent est loin d’être assurée