LeXiK Lite
Disponible
Versions allégées du lexique LeXiK (1,52 million d’entrées), destinées à l’intégration dans des applications, la recherche linguistique ou le développement d’outils de traitement du français.
Fichiers
Deux fichiers CSV (encodage UTF-8), accompagnés d’un décodeur Multext en Python :
| Fichier | Entrées | Taille | Description |
|---|---|---|---|
lexik_lite.csv |
1 518 155 | ~131 Mo | Toutes les formes (hors entités nommées) |
lexik_lite_freq.csv |
314 212 | ~28 Mo | Uniquement les formes avec fréquence > 0 |
multext_decoder.py |
— | — | Script Python de décodage des codes Multext |
Colonnes
| Colonne | Description | Exemple |
|---|---|---|
ortho |
Forme orthographique | chocolat |
lemme |
Lemme de rattachement | chocolat |
cgram |
Catégorie grammaticale | NOM |
multext |
Code morphologique Multext | Ncms |
phone |
Transcription phonétique IPA | ʃokola |
syllabes |
Découpage syllabique (séparateur .) |
ʃo.ko.la |
orthocode |
Code orthographique Lectura | cho.co.lat° |
freq_composite |
Fréquence composite (moyenne pondérée de 4 sources) | 23.48 |
source |
Source de la donnée | GLAFF |
Codes Multext
Le code multext encode les propriétés morphologiques sur une chaîne compacte. Le script multext_decoder.py permet de le décoder :
from multext_decoder import decode_multext
decode_multext("Ncms")
# {'categorie': 'Nom', 'type': 'commun', 'genre': 'masculin', 'nombre': 'singulier'}
decode_multext("Vmip3s-")
# {'categorie': 'Verbe', 'type': 'principal', 'mode': 'indicatif',
# 'temps': 'présent', 'personne': '3', 'nombre': 'singulier'}
decode_multext("Yms")
# {'categorie': 'Sigle', 'genre': 'masculin', 'type': 'sigle'}
Catégories principales
| Code | Catégorie | Positions suivantes |
|---|---|---|
| N | Nom | type (c/p), genre (m/f), nombre (s/p) |
| V | Verbe | type (m/v), mode, temps, personne, nombre |
| A | Adjectif | type, degré, genre, nombre |
| D | Déterminant | type, genre, nombre |
| P | Pronom | type, genre, nombre |
| R | Adverbe | type, degré |
| S | Adposition | type (p/d) |
| C | Conjonction | type (c/s) |
| Y | Sigle | genre (m/f), type (s/a) |
| I | Interjection | — |
Le caractère - indique une valeur non spécifiée.
Sources
Les données proviennent de trois sources, indiquées dans la colonne source :
- GLAFF (1,24M formes) : GLAFF 1.2.1, sous licence CC BY-SA 3.0
- WIK (~100K formes) : données extraites du Wiktionnaire
- LEX (~10K formes) : Lexique383, sous licence CC BY-SA 4.0
Fréquences
La fréquence composite est une moyenne pondérée de quatre corpus :
- Frantext (littérature française)
- LM10 (corpus journalistique)
- frWaC (web francophone)
- OpenSubtitles (sous-titres)
Une valeur vide signifie qu’aucune fréquence n’a été trouvée dans les corpus de référence.
Obtenir cette ressource
Deux modes d’accès sont disponibles :
- Lien direct : contactez-nous en précisant la ressource souhaitée, nous vous envoyons un lien de téléchargement personnalisé par email.
- Via l’API : utilisez l’endpoint
GET /download/{resource_id}avec votre clé API. Voir la documentation API.