Corpus

CORPUS

Samira MOUKRIM

Mes travaux s'appuient sur trois types de corpus : oral, textuel et socio-numérique.


1. Corpus oral :


Objectif : Comparer les corpus de langues à tradition orale (tamazight et darija) avec celui du français parlé, de la constitution à l’analyse des données

Corpus : Constitution d’ un corpus oral authentique de l’arabe dialectal marocain (darija) et du berbère tamazight parlés à Orléans (16 heures d’enregistrements), que j’ai confronté avec un corpus du français extrait d’ESLO (8 heures de son). Un corpus diversifié et situé.

Méthode : Recueil (travail de terrain, protocole d’enquête, aspects juridiques…), Transcription via le logiciel Tanscriber (mise en place de conventions de transcription) , Traitement de la variation et des phénomènes liés à l’oralité (préparation à l’analyse linguistique oral-écrit…)

Observation et description des usages authentiques de la langue

Analyse :

- Voir en quoi la différence des corpus implique une spécification des méthodes et outils : voir si les outils et instruments utilisés pour les corpus oraux de langues à grande diffusion (notamment celui d’ESLO) s’ajustent aux langues à tradition orale.

- L’analyse linguistique a porté, entre autres, sur l’expression du « présent actuel » dans trois langues différentes (aspectuelle/temporelle)

3 étapes : i) Identification des formes verbales qui participent à l’expression du « présent actuel » dans ces langues, ii) Analyse morphosyntaxique iii) Etude des effets de sens que peuvent prendre ces formes en contexte.

-- Approche sociolinguistique : langues en contact; barrières linguistiques, plurilinguisme, phénomène d’attrition…

Projet en cours :

- Constitution d’un corpus de l’amazighe  parlé actuellement au Maroc...

- Constitution d'un corpus diachronique dans les domaines traditionnels dans le but de les confronter avec des corpus de l’amazighe recueillis pendant la période coloniale…


2. Corpus textuel


Objectif : Recueil et exploitation d’un corpus de textes présentant des connaissances et pratiques traditionnelles amazighes (les seuls domaines où la langue est encore vivante et authentique…)

Corpus : Matériaux produits pendant la période coloniale et post-coloniale (Laoust, Mercier, Roux… )…

Corpus test  :       

  1. E. Laoust (1920),  Mots et choses berbères, notes de linguistique et d’ethnographie: dialectes du Maroc
  2. Mercier (1937), Textes berbères des Ait Izdeg (Moyen Atlas marocain)
  3. Roux, (1955), la vie berbère par les textes, parles du sud-ouest marocain (tachelhit)

Méthode : Dépouillement de  corpus existant en adoptant les bonnes pratiques et en utilisant les nouvelles technologies (Produire des données numériques réutilisables )

Préparation du corpus : i) Numérisation : extraire les données pour les rendre numériques (Transcription, Segmentation…) ii) Conversion des textes en fichiers de texte brut (txt) en utilisant l'encodage des caractères « Unicode UTF-8 »

Analyse : Pour l’analyse du corpus notamment dans un but terminologique, ont été exploitées les fonctionnalités offertes par TXM. A partir des listes de mots générées par la commande Lexique et en s’appuyant sur le contexte (concordances), les cooccurrences et le texte (édition), une liste de termes de spécialité a été créée, (en fonction des textes analysés) dans les domaines :

- L’agriculture traditionnelle

-L’art culinaire traditionnelle

- …


3. Corpus socio-numérique


Objectif : Voir comment le discours identitaire (autour de l’amazighe) prend corps dans les réseaux sociaux numériques et comment ces derniers peuvent constituer un observatoire des processus de construction / déconstruction des identités linguistique et culturelle

Corpus d’environ 2000 profils d’utilisateurs de Facebook qui déclarent être d’origine amazighe et qui ont trouvé dans ce réseau social un moyen de faire entendre leur identité et mettre en avant leur spécificité

Méthode : Observation systématique de différents fonctionnements où l’identité amazighe est en cause (periode 2013-2019)

Analyse : Identification, Catégorisation et interprétation des marqueurs de l’identité amazighe sur les RSNs (Facebook)

  • De nature très variée (unités linguistiques, scripto-iconiques, audio-visuelles…), ces ‘identitèmes’ sont ouvertement significatifs
  • La production de ces indices révélateurs d’identité (amazigh) s’inscrit paradoxalement dans un contexte d’insécurité linguistique, de disparition de repères et de difficulté de gérer ses racines : Ce qui a conduit probablement à la recomposition de référents identitaires
  • Les réseaux numériques contribuent à une sorte d’éveil identitaire : grâce aux interactions avec les contacts, les internautes amazighs prennent de plus en plus conscience d’eux-mêmes et des éléments qui fondent leur identité collective.
  • Un mouvement d’affirmation identitaire s’exprime vigoureusement via Facebook et la conscience identitaire s’est de plus en plus renforcée chez une large tanche de la population, et s’est même transposée sur le terrain (sit-in, manifestations publiques…), pour devenir un phénomène de masse.
  • Grâce aux réseaux numériques, l’aspiration amazighe s’exprime désormais ouvertement et de plus en plus solidement...  


Copyright © All Rights Reserved