Corpus de Voix
Disponible
Corpus de parole française avec transcription phonétique IPA, destiné à l’entraînement de modèles TTS et STT. Le corpus fournit les métadonnées (texte, phonétique, durée, locuteur). Les fichiers audio ne sont pas redistribués directement : ils sont récupérables via les sources ouvertes d’origine à l’aide d’un script fourni.
| Corpus 1 | 97 012 phrases (SIWIS + M-AILABS) — 7 locuteurs professionnels |
| Corpus 2 | 783 339 phrases (Common Voice) — ~20 000 locuteurs bénévoles |
| Total | 880 351 phrases avec transcription IPA alignée |
| Métadonnées | Locuteur, durée, source |
| Script | Téléchargement automatique des fichiers audio depuis les sources |
Format des données (JSONL)
Chaque ligne est un objet JSON :
{
"text": "Patrick's Old Cathedral est maintenant une église paroissiale.",
"phones": "p a t ʁ i k | ɔ l d | k a t e d ʁ a l | ɛ s t | m ɛ̃ t ə n ɑ̃ | y n | e ɡ l i z | p a ʁ w a s j a l",
"duration": 7.812,
"speaker": "cv_ee947622",
"source": "common_voice",
"audio_ref": "cv_0000000"
}
| Champ | Description |
|---|---|
text |
Texte orthographique normalisé |
phones |
Transcription phonétique IPA (phonèmes séparés par espaces, mots par \|) |
duration |
Durée de l’audio en secondes |
speaker |
Identifiant du locuteur |
source |
Source de l’audio (common_voice, mailabs, siwis) |
audio_ref |
Référence pour retrouver le fichier audio d’origine |
Corpus 1 : SIWIS + M-AILABS
97 012 phrases issues de livres audio lus par 7 locuteurs professionnels.
| Locuteur | Source | Genre |
|---|---|---|
| nadine_eckert_boulet | M-AILABS | F |
| ezwa | M-AILABS | F |
| siwis_female | SIWIS | F |
| bernard | M-AILABS | M |
| gilles_g_le_blanc | M-AILABS | M |
| zeckou | M-AILABS | M |
| sous_les_mers (mix) | M-AILABS | Mix |
Corpus 2 : Common Voice
783 339 phrases lues par ~20 000 locuteurs bénévoles (Common Voice v25.0).
Vocabulaire phonétique
vocab_phones.json contient les 59 tokens utilisés :
- Phonèmes IPA standard du français
- Marqueurs de liaison :
[z],[t],[n],[ʁ],[p] - Élision :
['] - Enchaînement :
[-] - Ponctuation :
,.?!…
Récupération des fichiers audio
Common Voice
- Télécharger Common Voice FR depuis commonvoice.mozilla.org
- Convertir les MP3 en WAV 16kHz mono
- Les
audio_ref(cv_XXXXXXX) correspondent aux clips indexés dans l’ordre du fichiervalidated.tsv
M-AILABS
- Télécharger le M-AILABS French Speech Dataset depuis caito.de
- Les
audio_refindiquent directement le chemin relatif dans l’archive
SIWIS
- Télécharger depuis datashare.ed.ac.uk
- Les
audio_refdes entrées sourcesiwisréférencent les fichiers WAV du corpus
Transcription phonétique
Les transcriptions IPA ont été générées par le pipeline G2P de Lectura (précision ~98,5%) puis vérifiées et corrigées par alignement forcé (MFA).
Sources et licences
- Common Voice (Mozilla) : CC-0 (domaine public)
- M-AILABS Speech Dataset : voir licence M-AILABS
- SIWIS French Speech Synthesis Database : licence académique
- Transcriptions phonétiques : Lectura (Maxime Carrière)
Obtenir cette ressource
Deux modes d’accès sont disponibles :
- Lien direct : contactez-nous en précisant la ressource souhaitée, nous vous envoyons un lien de téléchargement personnalisé par email.
- Via l’API : utilisez l’endpoint
GET /download/{resource_id}avec votre clé API. Voir la documentation API.