Journée d'études " Corpus de langues parlées peu dotées "

Corpus de langues parlées peu dotées :

de la constitution à l’exploitation des données

1^ère édition : Transcrire

4 mai 2023

Université Sidi Mohamed Ben Abdellah, Faculté des Lettres Sais-Fès

Journée d’études internationale

Organisée par

Discresor (CALL), Université Sidi Mohamed Ben Abdellah et le

Laboratoire Ligérien de Linguistique (UMR 7270), Université d’Orléans

ARGUMENTAIRE

Une langue n’a d’existence pour la recherche qu’en fonction de la qualité de ressources préparées pour son exploitation. L’avènement, ces dernières années, de la linguistique dite de « corpus », l’élaboration de « bonnes pratiques » par une communauté de chercheurs qui travaillent sur les corpus et l’utilisation des technologies informatiques actuelles, permettent d’apporter des solutions innovantes pour la description des langues. Si les grandes langues véhiculaires, notamment européennes, ont très largement bénéficié de ces innovations, les langues peu dotées sont restées à l’écart de ce mouvement et ont accusé un retard important.

Outre des raisons historiques et symboliques, puisqu’il s’agit essentiellement de variétés parlées vernaculaires, considérées jusqu’à très récemment comme peu dignes d’intérêt, les raisons de ce retard sont multiples. On peut évoquer ici les difficultés liées à l’édition des données orales, et les questions scientifiques et techniques sous-jacentes qu’elle soulève. La constitution, l’exploitation (notamment sous la forme d’investigation instrumentée) et la mise en commun de grands corpus de ces langues restent un objectif encore à atteindre, dont la première étape consiste à structurer une communauté de chercheurs aux pratiques sinon homogènes, du moins interopérables.

L’un des chantiers qu’une communauté structurée de chercheurs devrait rouvrir est celui de la transcription qui constitue un verrou à la documentation et l’exploitation outillée des données orales. Si, depuis une décennie, des projets visant à produire des ressources et des outils pour les langues peu dotées commencent à connaitre un regain d'intérêt, la profusion de modes de transcription, de formats et de conventions rend difficile leur exploitation.

L’objectif de cette première journée de « corpus de langues peu dotées », qui se tiendra à Fès, vise à permettre aux chercheurs travaillant sur ces langues de partager leurs expériences et leurs acquis dans ce domaine. Les questionnements sont nombreux, entre autres :

Quels enjeux théoriques, méthodologiques et technologiques de la transcription des langues peu dotées ?
Quelle typologie des problèmes de transcription dans ces langues ?
Quels sont les problèmes spécifiques à telle ou telle langues et quels sont les problèmes communs ?
Quel mode de transcription (phonétique, phonologique, …) adopter pour accélérer l’exploitation et le partage des données ?
Quelles conventions de transcription pourraient allier ergonomie et fiabilité tout en permettant des traitements automatiques (lemmatisation, catégorisation…) ?

Les organisateurs de cette journée d’études se sont fixés pour objectif d’entamer une réflexion collective, à partir de terrains, de méthodes et d’approches théoriques très divers, dans le but de mettre en commun des expériences et des acquis encore peu connus et dispersés et contribuer ainsi à harmoniser les pratiques et faciliter la manipulation et le partage des données.

Modalités de soumission :

Les propositions de communication anonymes (titre, résumé de 500 mots maximum, mots clés, et références bibliographiques) seront à envoyer à corpuslanguesparlees@gmail.com au plus tard le 15 janvier 2023. Dans le corps du mail, préciser nom, prénom et affiliation institutionnelle.

Calendrier :

15 janvier 2023 : date limite de réception des propositions de communication
15 février 2023 : notification aux auteurs
15 mars 2023 : confirmation de participation
4 mai 2023 : tenue de la Journée d'études

Comité d’organisation :

Coordination : Samira MOUKRIM (FLSH Saïs, USMBA, Fès)

Lotfi ABOUDA (LLL, Université d’Orléans)

Bahija KHADIRI YAZAMI

Faïza GUENNOUN HASSANI

Farid LAAMIRI

Hakima LOUKILI

Mohamed AZOUGARH

Mounsif EL HOUARI

Hachem JARMOUNI

PROGRAMME

9h00 : ACCUEIL ET ENREGISTREMENT

9h30-10h00 : OUVERTURE DE LA JOURNÉE D’ÉTUDES

Allocution de Monsieur le Président de l’Université Sidi Mohamed Ben Abdellah Fès

Allocution de Monsieur le Doyen de la Faculté des Lettres et des Sciences Humaines Saïs

Allocution du Comité d’organisation

10h-10h30 : PAUSE CAFÉ

10h30-11h : Lotfi ABOUDA & Mohamed Malek BAHRI

Laboratoire Ligérien de Linguistique (UMR 7270), Université d'Orléans

Une transcription morphologique pour l’arabe parlé en Tunisie : Conventions pour le domaine nominal

11h-11h30 : Samira MOUKRIM

Faculté des lettres et des sciences humaines Saïs, USMBA

Transcription du corpus oral de l’amazighe : quel traitement pour les disfluences ?

11h30-12h : Fatma Ben Barka MESSAOUDI, Rayan ZIANE, Mustapha KHOUDRI

CY Cergy Paris Université INSPÉ - EMA E.A. 4507

De la transcription à la translittération d’un corpus d’arabe tunisien : quels enjeux, problèmes et choix ?

12h-12h30 : Zahra ZAID

UCD, FLSH, El Jadida / LERIC-URAC 57

Quel modèle proposer pour la transcription de l’arabe marocain ?

12h30-15h : PAUSE DÉJEUNER

15h-15h30 : Faïza GUENNOUN HASSANI

Faculté des lettres et des sciences humaines Saïs, USMBA

La question du genre dans le parler fassi du fond de la jarre

15h30-16h : Hachem JARMOUNI

Faculté des lettres et des sciences humaines Saïs, USMBA

Les corpus poétiques oraux : de la transparence de la performance à l’opacité de la transcription

16h-16h30 : Driss RABIH

LACNAD, INALCO, Paris

Transcription d’un corpus phraséologique : formes et emplois

16h30-17h : Mbarek BASSAM

LARLANCO, FLSH – Université Ibn Zohr, Agadir

La transcription de corpus du discours politique en arabe marocain

17h-17h30 : Zakaria MHANDEZ TLEMÇANI

Faculté des lettres et des sciences humaines Saïs, USMBA

Chevauchement de paroles en conversation : problèmes et conventions de transcription

17h30-18h : Ronan STEPHAN
LIDILE - Université Rennes 2

Création d’une application de transcription collaborative de documents sonores pour les apprenants d’une langue peu dotée

VIEW ALL SERVICES

About

Excellent service and expertise

Paragraphs are the main building blocks of web pages. To change what this one says, just double-click here or hit Edit text. You can change the style here, too.

Get in Touch

Business title, Street address, Zip code City, Country

+44 1234 567890

your@email.com