Préparation des données
Préparation des données
Vous souhaitez développer vos propres modèles ou vous avez besoin de données structurées ? Lectura propose de préparer vos corpus d’entraînement, de l’annotation à la structuration des données.
Corpus de texte
- Annotation phonétique : transcription IPA de corpus textuels, alignement graphème-phonème, découpage syllabique.
- Annotation grammaticale : catégorie grammaticale (POS), genre, nombre, morphologie, lemmatisation.
Corpus vocaux
- Élaboration d’un corpus vocal : enregistrement de 10 à 20 heures de lecture par un locuteur professionnel, segmentation et alignement phonétique. Idéal pour entraîner un modèle TTS ou de reconnaissance vocale.
- Transcription de corpus audio : transcription textuelle et phonétique de vos enregistrements existants.
Données structurées
- Corpus de Mots ou de Syllabes : Pour des applications éducatives ou de recherche. Ils peuvent être enrichis avec images et sons.
- Extraction de listes spécifiques : à partir du lexique LeXiK (par fréquence, catégorie, nombre de syllabes, motifs phonétiques…).
Contact
Pour discuter de votre projet : nous contacter