Tokeniseur
Lectura Tokeniseur
Normalisateur et tokeniseur complet pour le français
Présentation
Module autonome, zéro dépendance externe. Normalise le texte français (typographie, espaces, Unicode) et le découpe en tokens structurés : mots, ponctuation et formules détectées automatiquement.
Le Tokeniseur identifie et classifie plus de 15 types de formules :
- Nombres (entiers, décimaux, négatifs)
- Dates, heures, téléphones
- Sigles et acronymes
- Ordinaux, fractions, pourcentages
- Monnaies, unités de mesure
- Expressions mathématiques
- Chiffres romains
Exemple
from lectura_tokeniseur import tokenise, Formule
tokens = tokenise("Le 25/12/2024, il a lu 42 pages.")
for token in tokens:
detail = token.formule_type.name if isinstance(token, Formule) else ""
print(f"{token.text:25s} {token.type.name:12s} {detail}")
Le MOT
25/12/2024 FORMULE DATE
, PONCTUATION
il MOT
a MOT
lu MOT
42 FORMULE NOMBRE
pages MOT
. PONCTUATION
Essayer en ligne
Installation
pip install lectura-tokeniseur # zéro dépendance
pip install lectura-tokeniseur[formules] # + lectura-formules (enrichissement automatique)
Fonctionnalités
| Fonction | Description |
|---|---|
| Normalisation | Typographie française, espaces, nettoyage Unicode |
| Tokenisation | Découpage en mots, ponctuation, séparateurs |
| Détection de formules | 15+ types : nombres, dates, heures, sigles, monnaies… |
| API simple | tokenise(texte) renvoie une liste de tokens |
Caractéristiques techniques
- Zéro dépendance Python (aucune dépendance tierce)
- Indépendant de Formules (fonctionne seul, enrichissement optionnel si
lectura-formulesest installé) - Python 3.10+ avec type hints complets (PEP-561)
- Version : 2.3.0
- Licence : AGPL-3.0 (non commerciale) — licence commerciale sur demande : nous contacter