Préparation des données

Préparation des données

Vous souhaitez développer vos propres modèles ou vous avez besoin de données structurées ? Lectura propose de préparer vos corpus d’entraînement, de l’annotation à la structuration des données.


Corpus de texte

  • Annotation phonétique : transcription IPA de corpus textuels, alignement graphème-phonème, découpage syllabique.
  • Annotation grammaticale : catégorie grammaticale (POS), genre, nombre, morphologie, lemmatisation.

Corpus vocaux

  • Élaboration d’un corpus vocal : enregistrement de 10 à 20 heures de lecture par un locuteur professionnel, segmentation et alignement phonétique. Idéal pour entraîner un modèle TTS ou de reconnaissance vocale.
  • Transcription de corpus audio : transcription textuelle et phonétique de vos enregistrements existants.

Données structurées

  • Corpus de Mots ou de Syllabes : Pour des applications éducatives ou de recherche. Ils peuvent être enrichis avec images et sons.
  • Extraction de listes spécifiques : à partir du lexique LeXiK (par fréquence, catégorie, nombre de syllabes, motifs phonétiques…).

Contact

Pour discuter de votre projet : nous contacter