Spécification LVTag
Version 1.0
Créé par Danslav Slavenskoj
Date : Mai 2025
Langues : 中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски
Liens rapides
- Schéma JSON - Schéma de validation complet pour le format LVTag
- Définitions des classificateurs - Spécifications des classificateurs lisibles par machine
- Spécification - Aller aux détails du format
- Exemples - Voir LVTag en action
Aperçu
Le format Language Variant Tag (LVTag) est une approche systématique de la classification des langues qui étend la norme BCP 47 en utilisant des sous-étiquettes à usage privé. Il permet l’identification précise des variétés linguistiques à travers plusieurs dimensions, y compris la formalité, la politesse, le domaine et l’orthographe.
Avantages clés
Rigueur de classification : LVTag apporte une organisation systématique au marquage linguistique en fournissant des dimensions claires et séparées pour différents types de variation. Contrairement aux sous-étiquettes et systèmes existants qui mélangent différentes catégories au même niveau, LVTag maintient une séparation stricte entre formalité, politesse, domaine et autres dimensions.
Compatibilité avec les normes : LVTag est entièrement compatible avec BCP 47 (RFC 5646) et fonctionne parfaitement avec :
- Registre des sous-étiquettes de langue IANA
- Codes de langue ISO 639
- Unicode CLDR
- Balises de langue W3C
- En-têtes HTTP Accept-Language
- Attributs lang XML
- Attributs lang HTML
Intégration technologique : Les balises LVTag peuvent être utilisées directement dans :
- Pipelines de traitement du langage naturel (NLP)
- Systèmes de traduction automatique
- Systèmes de gestion de contenu (CMS)
- Bibliothèques de détection de langue
- Moteurs de recherche et systèmes de récupération d’information
- Applications web et API
- Flux de travail de localisation
Cas d’usage :
- Ciblage d’audience : Adapter le contenu aux audiences appropriées en fonction du registre et du domaine
- Qualité de traduction : Maintenir des niveaux appropriés de formalité et de politesse dans la traduction automatique
- Apprentissage des langues : Enseigner aux apprenants le registre approprié pour différents contextes
- Linguistique de corpus : Construire des corpus précisément étiquetés pour la recherche
- Analyse des médias sociaux : Classer le contenu généré par les utilisateurs par registre et domaine
- Service client : Router les messages en fonction de la formalité et du domaine vers les agents appropriés
Justification
Bien que BCP 47 fournisse un excellent support pour identifier les langues, les écritures et les régions, il manque de mécanismes standardisés pour capturer la variation sociolinguistique au sein d’une langue. Les normes actuelles n’abordent pas :
- Variation de registre : Aucun moyen de distinguer entre les variétés formelles et informelles de la même langue
- Niveaux de politesse : Critique pour les langues comme le japonais, le coréen et le thaï où la politesse est encodée grammaticalement
- Langage spécifique au domaine : Aucune norme pour marquer les variétés techniques, médicales ou juridiques du langage
- Sociolectes : Aucun mécanisme pour identifier les variétés de groupes sociaux (langage des jeunes, jargon professionnel)
- Étapes historiques : Support limité pour distinguer les formes classiques des formes modernes
- Gradients de formalité : Aucune échelle numérique pour le traitement informatique du registre
- Proto-langues : Encodage incohérent - certaines proto-langues ont des codes ISO (par ex.,
inepour PIE) tandis que d’autres non, et les codes de famille ISO 639-5 ne sont pas valides dans les balises BCP 47, créant un paysage confus pour la linguistique historique - Variation orthographique : Bien que BCP 47 gère les écritures, il ne capture pas efficacement les variations au sein des écritures (réformes orthographiques, systèmes de romanisation, normes concurrentes) qui affectent fondamentalement le traitement du texte, la recherche et la vérification orthographique
LVTag comble ces lacunes en utilisant le mécanisme d’extension à usage privé de BCP 47 (-x-), fournissant un moyen systématique et lisible par machine d’encoder ces dimensions critiques de la variation linguistique tout en maintenant une compatibilité ascendante complète.
Classification linguistique précise
L’avènement des grands modèles de langage et des outils NLP sophistiqués a rendu la classification précise des variétés linguistiques non seulement utile mais essentielle. Les systèmes modernes doivent :
- Générer du texte approprié à des contextes spécifiques (formel vs informel, poli vs familier)
- S’entraîner sur des corpus correctement classifiés pour éviter de mélanger les registres de manière inappropriée
- Fournir des réponses culturellement et contextuellement appropriées
- Gérer avec précision le changement de code et le contenu multilingue
- Préserver la cohérence stylistique lors de la traduction ou de la transformation du texte
- Filtrer les données d’entraînement en fonction de la formalité, du domaine ou d’autres caractéristiques
- Adapter la sortie pour correspondre aux préférences ou aux exigences de l’utilisateur
LVTag fournit les métadonnées granulaires nécessaires pour comprendre non seulement quelle langue est utilisée, mais comment elle est utilisée, permettant des pipelines de traitement du langage plus nuancés et appropriés.
Spécification du format
Structure de base
language-x-[classifier]-[value]-[classifier2]-[value2]...
Où :
languageest une sous-étiquette de langue principale BCP 47 valide (par ex.,en,ko,ja)xindique le début des sous-étiquettes à usage privéclassifierest un identifiant de catégorie (voir Balises magiques ci-dessous)valueest la classification spécifique au sein de cette catégorie
Balises magiques
LVTag prend en charge les classificateurs « magiques » sous forme longue et courte pour plus de flexibilité :
| Forme longue | Forme courte | Description |
|---|---|---|
ortho |
w |
Variante orthographique |
form |
f |
Niveau de formalité (échelle 1-5) |
polite |
p |
Niveau de politesse/respect (échelle 1-5) |
domain |
d |
Vocabulaire spécialisé ou contexte professionnel |
geo |
g |
Variété géographique ou régionale |
proto |
a |
Proto-langue ou langue reconstruite |
hist |
h |
Période historique ou stade d’une langue |
genre |
e |
Genre textuel ou style littéraire |
medium |
m |
Média de communication (parlé, écrit, numérique) |
socio |
s |
Sociolecte ou variété de groupe social |
modality |
o |
Mode de production du langage |
register |
r |
Registre linguistique |
pragma |
u |
Fonction communicative |
temporal |
t |
Marquage temporel |
evidence |
v |
Source d’information |
affect |
k |
Ton émotionnel |
age |
n |
Variété d’âge/génération |
gender |
i |
Variété de genre |
expert |
b |
Niveau d’expertise |
interact |
2 |
Structure interactionnelle |
prosody |
y |
Caractéristiques prosodiques |
lexical |
l |
Densité lexicale (0-100) |
syntax |
z |
Complexité syntaxique (0-100) |
start |
0 |
Date de début (ISO 8601 sans ponctuation) |
end |
1 |
Date de fin (ISO 8601 sans ponctuation) |
taboo |
j |
Niveau de contenu tabou/vulgaire (échelle 0-5) |
conf |
c |
Score de confiance (0-100) pour la balise précédente |
| — | q, 3-9 |
Réservé pour usage futur |
Classificateurs
1. Classificateur orthographique (ortho ou w)
Identifie les conventions orthographiques spécifiques ou les variantes du système d’écriture au-delà des balises d’écriture standard.
Format :
- Long :
language-x-ortho-[variant] - Court :
language-x-w-[variant]
Exemples (combinés avec des balises d’écriture standard) :
az-Latn-x-ortho-newouaz-Latn-x-w-new- Azéri écriture latine, nouvelle orthographede-Latn-x-ortho-1901oude-Latn-x-w-1901- Allemand écriture latine, orthographe de 1901zh-Hans-x-ortho-pinyinouzh-Hans-x-w-pinyin- Chinois simplifié avec pinyinyi-Hebr-x-ortho-yivoouyi-Hebr-x-w-yivo- Yiddish écriture hébraïque, orthographe YIVO
2. Classificateur de formalité (form ou f)
Identifie le niveau de formalité de l’usage linguistique.
Format :
- Long :
language-x-form-[1-5] - Court :
language-x-f-[1-5]
Échelle de formalité :
- 1 = Le plus formel (documents écrits, discours officiels)
- 2 = Formel (réunions d’affaires, écriture académique)
- 3 = Neutre/standard (actualités, conversation générale)
- 4 = Informel (conversation décontractée, courriels à des amis)
- 5 = Le plus familier (conversation intime, argot)
Exemples :
ko-x-form-1ouko-x-f-1- Coréen le plus formelen-x-form-3ouen-x-f-3- Anglais neutreja-x-form-5ouja-x-f-5- Japonais le plus familier
3. Classificateur de politesse (polite ou p)
Identifie le niveau de politesse/respect de l’usage linguistique.
Format :
- Long :
language-x-polite-[1-5] - Court :
language-x-p-[1-5]
Échelle de politesse :
- 1 = Le plus respectueux/déférent (adresse royale, contextes religieux)
- 2 = Très poli (honorifiques formels, discours respectueux)
- 3 = Poli/neutre (politesse standard)
- 4 = Familier (entre égaux, amis)
- 5 = Intime/simple (famille, amis très proches)
Exemples :
ko-x-polite-1ouko-x-p-1- Coréen de plus haut respectja-x-polite-2ouja-x-p-2- Japonais très polith-x-polite-3outh-x-p-3- Thaï poli standard
4. Classificateur de domaine (domain ou d)
Identifie le vocabulaire spécialisé ou le contexte professionnel.
Format :
- Long :
language-x-domain-[domain_type] - Court :
language-x-d-[domain_type]
Exemples :
en-x-domain-legalouen-x-d-legal- Anglais juridiqueja-x-domain-medouja-x-d-med- Japonais médicalko-x-domain-businessouko-x-d-business- Coréen des affairesja-x-domain-techouja-x-d-tech- Japonais techniqueen-x-domain-finouen-x-d-fin- Anglais financier
5. Classificateur géographique (geo ou g)
Identifie les variétés linguistiques régionales ou géographiques.
Format :
- Long :
language-x-geo-[region] - Court :
language-x-g-[region]
Exemples :
ko-x-geo-gyeongouko-x-g-gyeong- Coréen de Gyeongsang (경상도)ko-x-geo-jeollaouko-x-g-jeolla- Coréen de Jeolla (전라도)es-x-geo-rioplaoues-x-g-riopla- Espagnol rioplatensept-x-geo-nordesteoupt-x-g-nordeste- Portugais du nord-est brésilien
6. Classificateur proto (proto ou a)
Identifie les proto-langues ou les langues historiques reconstruites.
Format :
- Long :
x-proto-[iso639-5_code if available] - Court :
x-a-[iso639-5_code if available]
Règles :
- DOIT utiliser les codes de famille de langues ISO 639-5 lorsqu’ils sont disponibles
- Utiliser des identifiants descriptifs uniquement lorsqu’aucun code ISO 639-5 n’existe
Exemples utilisant les codes ISO 639-5 :
x-proto-ineoux-a-ine- Proto-indo-européenx-proto-gemoux-a-gem- Proto-germaniquex-proto-slaoux-a-sla- Proto-slavex-proto-semoux-a-sem- Proto-sémitiquex-proto-celoux-a-cel- Proto-celtiquex-proto-iraoux-a-ira- Proto-iranienx-proto-incoux-a-inc- Proto-indo-aryenx-proto-batoux-a-bat- Proto-baltiquex-proto-roaoux-a-roa- Proto-romanx-proto-trkoux-a-trk- Proto-turc
Exemples sans codes ISO 639-5 (descriptifs, plus de trois caractères) :
x-proto-baltslavoux-a-baltslav- Proto-balto-slave (pas de code ISO 639-5)
Note :
- Les codes de famille de langues (ISO 639-5) ne sont PAS valides comme balises de langue principale BCP 47 standard, c’est pourquoi nous les avons implémentés en utilisant x-proto
- Ils sont valides et préférés dans les extensions à usage privé (après
x-) - Par conséquent, toutes les balises de proto-langue doivent commencer par
x-pour se conformer à BCP 47
7. Classificateur historique (hist ou h)
Identifie les périodes historiques ou les stades d’une langue.
Format :
- Long :
language-x-hist-[period] - Court :
language-x-h-[period]
Exemples :
en-x-hist-oldouen-x-h-old- Période du vieil anglaisen-x-hist-middleouen-x-h-middle- Période du moyen anglaisja-x-hist-kobunouja-x-h-kobun- Japonais classique (古文)ko-x-hist-hunminouko-x-h-hunmin- Coréen moyen (훈민정음 période)el-x-hist-koineouel-x-h-koine- Grec koinè (Κοινή)sa-x-hist-vedicousa-x-h-vedic- Sanskrit védique (वैदिक)
8. Classificateur de genre (genre ou e)
Identifie le genre textuel ou le style littéraire.
Format :
- Long :
language-x-genre-[genre_type] - Court :
language-x-e-[genre_type]
Exemples :
en-x-genre-newsouen-x-e-news- Anglais journalistiqueja-x-genre-mangaouja-x-e-manga- Japonais de manga (漫画)ko-x-genre-webtoonouko-x-e-webtoon- Coréen de webtoon (웹툰)zh-x-genre-shiouzh-x-e-shi- Poésie chinoise (詩)fr-x-genre-bdoufr-x-e-bd- Bande dessinée françaisede-x-genre-marchenoude-x-e-marchen- Contes de fées allemands (Märchen)
9. Classificateur de média (medium ou m)
Identifie le média de communication.
Format :
- Long :
language-x-medium-[medium_type] - Court :
language-x-m-[medium_type]
Exemples :
en-x-medium-spokenouen-x-m-spoken- Anglais parléko-x-medium-digitalouko-x-m-digital- Coréen numérique/en ligneja-x-medium-writtenouja-x-m-written- Japonais écrithi-x-medium-bcastouhi-x-m-bcast- Hindi de diffusionzh-x-medium-smsouzh-x-m-sms- Chinois SMS/message texte
10. Classificateur socio (socio ou s)
Identifie le sociolecte ou les variétés de groupes sociaux.
Format :
- Long :
language-x-socio-[social_group] - Court :
language-x-s-[social_group]
Exemples :
en-x-socio-academicouen-x-s-academic- Sociolecte académiqueen-x-socio-urbanouen-x-s-urban- Sociolecte urbaines-x-socio-juveniloues-x-s-juvenil- Sociolecte jeune espagnolfr-x-socio-jeuneoufr-x-s-jeune- Sociolecte jeune françaisde-x-socio-jugendoude-x-s-jugend- Sociolecte jeune allemand (Jugendsprache)ko-x-socio-onlineouko-x-s-online- Sociolecte coréen en ligne
11. Classificateur de modalité (modality ou o)
Identifie le mode fondamental de production du langage.
Format :
- Long :
language-x-modality-[mode] - Court :
language-x-o-[mode]
Exemples :
en-x-modality-spokenouen-x-o-spoken- Anglais parléen-x-modality-writtenouen-x-o-written- Anglais écritasl-x-modality-signedouasl-x-o-signed- Langue des signes américaineen-x-modality-multiouen-x-o-multi- Anglais multimodal (parole + gestes)fr-x-modality-tactileoufr-x-o-tactile- Français tactile (pour les sourds-aveugles)
12. Classificateur de registre (register ou r)
Identifie le registre linguistique ou la variété fonctionnelle de l’usage linguistique.
Format :
- Long :
language-x-register-[register_type] - Court :
language-x-r-[register_type]
Exemples :
en-x-register-frozenouen-x-r-frozen- Registre figé (prières, serments)en-x-register-formalouen-x-r-formal- Registre formel (articles académiques)en-x-register-consultouen-x-r-consult- Registre consultatif (professionnel)en-x-register-casualouen-x-r-casual- Registre familier (amis)en-x-register-intimateouen-x-r-intimate- Registre intime (famille)
13. Classificateur de fonction pragmatique (pragma ou u)
Identifie la fonction communicative ou l’acte de parole.
Format :
- Long :
language-x-pragma-[function] - Court :
language-x-u-[function]
Exemples :
en-x-pragma-requestouen-x-u-request- Fonction de demandeja-x-pragma-apologyouja-x-u-apology- Fonction d’excusees-x-pragma-complmntoues-x-u-complmnt- Fonction de complimentar-x-pragma-greetingouar-x-u-greeting- Fonction de salutationzh-x-pragma-refusalouzh-x-u-refusal- Fonction de refus
14. Classificateur de marquage temporel (temporal ou t)
Identifie les aspects temporels ou les modèles d’utilisation du temps.
Format :
- Long :
language-x-temporal-[aspect] - Court :
language-x-t-[aspect]
Exemples :
en-x-temporal-pastouen-x-t-past- Discours orienté vers le passéja-x-temporal-nonpastouja-x-t-nonpast- Focus non-passéid-x-temporal-atemprlouid-x-t-atemprl- Intemporel/atemporelfr-x-temporal-futureoufr-x-t-future- Orienté vers le futurzh-x-temporal-aspectouzh-x-t-aspect- Focus aspectuel
15. Classificateur d’évidentialité (evidence ou v)
Identifie le marquage de la source d’information.
Format :
- Long :
language-x-evidence-[source] - Court :
language-x-v-[source]
Exemples :
qu-x-evidence-directouqu-x-v-direct- Témoin directtr-x-evidence-hearsayoutr-x-v-hearsay- Ouï-dire/rapportéja-x-evidence-inferouja-x-v-infer- Inférentielen-x-evidence-assumeouen-x-v-assume- Supposéde-x-evidence-quoteoude-x-v-quote- Citatif
16. Classificateur d’affect/émotion (affect ou k)
Identifie le ton émotionnel ou l’affect.
Format :
- Long :
language-x-affect-[emotion] - Court :
language-x-k-[emotion]
Exemples :
en-x-affect-angryouen-x-k-angry- Ton colériqueja-x-affect-humbleouja-x-k-humble- Affect humblees-x-affect-joyfuloues-x-k-joyful- Expression joyeuseko-x-affect-sadouko-x-k-sad- Triste/mélancoliquefr-x-affect-neutraloufr-x-k-neutral- Affect neutre
17. Classificateur d’âge/génération (age ou n)
Identifie les variétés linguistiques liées à l’âge ou à la génération.
Format :
- Long :
language-x-age-[generation] - Court :
language-x-n-[generation]
Exemples :
en-x-age-childouen-x-n-child- Langage enfantinja-x-age-teenouja-x-n-teen- Langage adolescentko-x-age-elderouko-x-n-elder- Langage des aînéses-x-age-genzoues-x-n-genz- Génération Zzh-x-age-millenlouzh-x-n-millenl- Langage millénial
18. Classificateur de genre (gender ou i)
Identifie les variétés linguistiques liées au genre.
Format :
- Long :
language-x-gender-[identity] - Court :
language-x-i-[identity]
19. Classificateur du niveau d’expertise (expert ou b)
Identifie le niveau d’expertise du domaine sur une échelle de 0 à 10.
Format :
- Long :
language-x-expert-[0-10] - Court :
language-x-b-[0-10]
Échelle d’expertise :
- 0 = Aucune connaissance
- 1-2 = Débutant
- 3-4 = Intermédiaire
- 5-6 = Avancé
- 7-8 = Expert
- 9-10 = Maître/Autorité
Exemples :
en-x-expert-0ouen-x-b-0- Aucune expertisede-x-expert-3oude-x-b-3- Niveau intermédiaireja-x-expert-7ouja-x-b-7- Niveau expertes-x-expert-9oues-x-b-9- Niveau maîtrezh-x-expert-5ouzh-x-b-5- Niveau avancé
20. Classificateur de structure interactionnelle (interact ou 2)
Identifie les modèles conversationnels ou interactionnels.
Format :
- Long :
language-x-interact-[structure] - Court :
language-x-2-[structure]
Exemples :
en-x-interact-turnouen-x-2-turn- Tour de paroleja-x-interact-overlapouja-x-2-overlap- Parole chevauchantees-x-interact-monologoues-x-2-monolog- Monologiquear-x-interact-dialogouar-x-2-dialog- Dialogiquezh-x-interact-multiouzh-x-2-multi- Multi-parties
21. Classificateur de caractéristiques prosodiques (prosody ou y)
Identifie les caractéristiques prosodiques ou suprasegmentales.
Format :
- Long :
language-x-prosody-[feature] - Court :
language-x-y-[feature]
Exemples :
en-x-prosody-stressouen-x-y-stress- Rythmé par l’accentja-x-prosody-pitchouja-x-y-pitch- Accent de hauteurfr-x-prosody-syllableoufr-x-y-syllable- Rythmé par la syllabezh-x-prosody-toneouzh-x-y-tone- Modèles tonalses-x-prosody-rhythmoues-x-y-rhythm- Modèles rythmiques
22. Classificateur de densité lexicale (lexical ou l)
Identifie la densité lexicale comme valeur numérique (0-100).
Format :
- Long :
language-x-lexical-[0-100] - Court :
language-x-l-[0-100]
Exemples :
en-x-lexical-20ouen-x-l-20- Faible densité (20%)de-x-lexical-55oude-x-l-55- Densité moyenne (55%)ja-x-lexical-75ouja-x-l-75- Haute densité (75%)es-x-lexical-40oues-x-l-40- Densité modérée (40%)zh-x-lexical-85ouzh-x-l-85- Très haute densité (85%)
23. Classificateur de complexité syntaxique (syntax ou z)
Identifie la complexité syntaxique comme valeur numérique (0-100).
Format :
- Long :
language-x-syntax-[0-100] - Court :
language-x-z-[0-100]
Exemples :
en-x-syntax-15ouen-x-z-15- Syntaxe simple (15%)de-x-syntax-70oude-x-z-70- Syntaxe complexe (70%)ja-x-syntax-45ouja-x-z-45- Complexité modérée (45%)es-x-syntax-30oues-x-z-30- Faible complexité (30%)zh-x-syntax-60ouzh-x-z-60- Haute complexité (60%)
24. Classificateur de date de début (start ou 0)
Identifie la date de début de l’utilisation linguistique (format ISO 8601 sans ponctuation).
Format :
- Long :
language-x-start-[YYYYMMDD] - Court :
language-x-0-[YYYYMMDD]
Formats de date :
- Date complète : YYYYMMDD
- Année-mois : YYYYMM
- Année seulement : YYYY
Exemples :
en-x-start-20240315ouen-x-0-20240315- Anglais commençant le 15 mars 2024ja-x-start-19890108ouja-x-0-19890108- Japonais commençant le 8 janvier 1989es-x-start-202403oues-x-0-202403- Espagnol commençant en mars 2024
25. Classificateur de date de fin (end ou 1)
Identifie la date de fin de l’utilisation linguistique (format ISO 8601 sans ponctuation).
Format :
- Long :
language-x-end-[YYYYMMDD] - Court :
language-x-1-[YYYYMMDD]
Formats de date :
- Date complète : YYYYMMDD
- Année-mois : YYYYMM
- Année seulement : YYYY
Exemples :
en-x-end-20240415ouen-x-1-20240415- Anglais se terminant le 15 avril 2024ja-x-end-20190430ouja-x-1-20190430- Japonais se terminant le 30 avril 2019es-x-end-202412oues-x-1-202412- Espagnol se terminant en décembre 2024
26. Classificateur de tabou (taboo ou j)
Identifie le niveau de contenu tabou, vulgaire ou offensant.
Format :
- Long :
language-x-taboo-[0-5] - Court :
language-x-j-[0-5]
Exemples :
en-x-taboo-0ouen-x-j-0- Aucun contenu tabouen-x-taboo-3ouen-x-j-3- Niveau de tabou modéréja-x-form-5-taboo-4ouja-x-f-5-j-4- Japonais très familier avec un niveau de tabou élevé
27. Classificateur de confiance (conf ou c)
Indique le score de confiance pour le classificateur immédiatement précédent.
Format :
- Long :
language-x-[classifier]-[value]-conf-[0-100] - Court :
language-x-[classifier]-[value]-c-[0-100]
Comportement spécial :
- Le score de confiance s’applique au classificateur immédiatement précédent
- Plusieurs scores de confiance peuvent être utilisés pour différents classificateurs
- S’il n’y a pas de classificateur précédent, la confiance s’applique à la balise de langue de base
Exemples :
en-x-form-3-conf-95ouen-x-f-3-c-95- Formalité neutre avec 95% de confianceko-x-polite-2-conf-80-domain-med-conf-60ouko-x-p-2-c-80-d-med-c-60- Très poli (80% de confiance) coréen médical (60% de confiance)ja-x-hist-kobun-conf-100ouja-x-h-kobun-c-100- Japonais classique avec 100% de confiancex-proto-ine-conf-75oux-a-ine-c-75- Proto-indo-européen avec 75% de confiance
Classifications multiples
LVTag prend en charge plusieurs classificateurs dans une seule balise pour fournir une identification linguistique précise. Les formes longues et courtes peuvent être mélangées :
ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
Les exemples ci-dessus montrent le coréen avec une formalité informelle (4) mais un discours poli (2) dans un contexte commercial.
Valeurs valides
Note : Toutes les valeurs doivent avoir 8 caractères ou moins pour se conformer aux restrictions de longueur des sous-étiquettes BCP 47. Bien que les valeurs spécifiques pour de nombreux classificateurs doivent être établies par l’usage expert et le consensus communautaire, les échelles numériques, les formats de date et les valeurs de base énumérées ci-dessous sont définis dans cette norme.
Échelle de formalité (Universelle)
| Niveau | Description | Exemples |
|---|---|---|
| 1 | Le plus formel | Documents juridiques, cérémonies officielles, articles académiques |
| 2 | Formel | Lettres d’affaires, articles de presse, présentations |
| 3 | Neutre | Conversation standard, courriel, écriture générale |
| 4 | Informel | Conversation décontractée, blogs personnels, messages texte |
| 5 | Le plus familier | Argot, conversation intime, médias sociaux |
Échelle de politesse (Universelle)
| Niveau | Description | Exemples |
|---|---|---|
| 1 | Le plus respectueux | Adresse royale, chefs religieux, respect des aînés |
| 2 | Très poli | Service client, réunions formelles, enseignants |
| 3 | Poli/neutre | Interactions standard, collègues |
| 4 | Familier | Amis, pairs, connaissances occasionnelles |
| 5 | Intime/simple | Famille proche, partenaires intimes |
Échelle d’expertise (Universelle)
| Niveau | Description |
|---|---|
| 0 | Aucune connaissance |
| 1-2 | Débutant |
| 3-4 | Intermédiaire |
| 5-6 | Avancé |
| 7-8 | Expert |
| 9-10 | Maître/Autorité |
Échelle de tabou (Universelle)
| Niveau | Description |
|---|---|
| 0 | Aucun contenu tabou |
| 1 | Tabou léger |
| 2 | Tabou faible |
| 3 | Tabou modéré |
| 4 | Tabou élevé |
| 5 | Tabou extrême |
Échelle de densité lexicale (Universelle)
| Niveau | Description |
|---|---|
| 0-20 | Très faible densité |
| 21-40 | Faible densité |
| 41-60 | Densité modérée |
| 61-80 | Haute densité |
| 81-100 | Très haute densité |
Échelle de complexité syntaxique (Universelle)
| Niveau | Description |
|---|---|
| 0-20 | Très simple |
| 21-40 | Simple |
| 41-60 | Complexité modérée |
| 61-80 | Complexe |
| 81-100 | Très complexe |
Valeurs de domaine
| Valeur | Description |
|---|---|
legal |
Terminologie juridique |
med |
Terminologie médicale |
tech |
Technique/IT |
business |
Affaires/entreprise |
fin |
Finance/banque |
acad |
Académique/savant |
sci |
Scientifique/recherche |
Exemples d’implémentation
Classificateur unique (Forme longue)
# Coréen le plus formel
ko-x-form-1
# Japonais très poli
ja-x-polite-2
# Anglais juridique
en-x-domain-legal
# Coréen de Gyeongsang
ko-x-geo-gyeong
# Proto-indo-européen
x-proto-ine
Classificateur unique (Forme courte)
# Coréen le plus formel
ko-x-f-1
# Japonais très poli
ja-x-p-2
# Anglais juridique
en-x-d-legal
# Coréen de Gyeongsang
ko-x-g-gyeong
# Proto-indo-européen
x-a-ine
Classificateurs multiples
# Langue d'affaires coréenne informelle mais polie
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
# Langue médicale japonaise formelle et respectueuse
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med
# Vietnamien du sud avec formalité neutre, discours poli, domaine technique
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech
# Classification complexe avec plusieurs dimensions
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written
# Variétés linguistiques montrant la distinction formalité/politesse
ko-x-f-5-p-2 # Très familier mais poli (à un ami plus âgé)
ko-x-f-1-p-4 # Très formel mais familier (écrit à un pair)
ja-x-f-4-p-1 # Formalité familière mais plus haut respect
en-x-f-5-j-4 # Anglais très familier avec un niveau de tabou élevé
Cas d’usage
- Applications d’apprentissage des langues
- Enseigner le registre approprié pour différents contextes sociaux
- Fournir une formation de vocabulaire spécifique au domaine
- Traduction automatique
- Maintenir la cohérence du registre dans les traductions
- Appliquer la terminologie spécifique au domaine
- Classification du contenu
- Catégoriser automatiquement le texte par formalité et domaine
- Router le contenu vers les réviseurs ou systèmes appropriés
- Linguistique de corpus
- Construire des corpus étiquetés pour la recherche linguistique
- Étudier la variation de registre et de domaine
Règles de validation
- Longueur de sous-étiquette : Chaque sous-étiquette après
x-doit avoir 8 caractères ou moins - Ordre : Les classificateurs peuvent apparaître dans n’importe quel ordre après
x- - Unicité : Chaque type de classificateur ne doit apparaître qu’une seule fois par balise (sauf
confqui peut apparaître plusieurs fois) - Casse : Les balises doivent être en minuscules (insensible à la casse selon BCP 47)
- Balises magiques : Les balises de forme courte sont des caractères uniques ;
q,3-9sont réservés pour une utilisation future - Mélange : Les formes longues et courtes peuvent être mélangées dans la même balise
- Balises proto : Doivent commencer par
x-et DEVRAIENT utiliser les codes ISO 639-5 lorsqu’ils sont disponibles (par ex.,x-proto-slapasx-proto-slavic) - Confiance : Le classificateur
conf/cs’applique au classificateur immédiatement précédent - Valeurs numériques : Doivent être dans les plages définies (0-5 pour tabou, 0-10 pour expertise, 0-100 pour les valeurs en pourcentage)
- Format de date : Les dates utilisent ISO 8601 sans ponctuation (YYYY, YYYYMM ou YYYYMMDD)
Compatibilité
Le format LVTag est entièrement compatible avec :
- BCP 47 (RFC 5646)
- Codes de langue ISO 639
- Registre des sous-étiquettes de langue IANA
- Unicode CLDR
Avantages
- Précision : Permet l’identification fine des variétés linguistiques
- Extensibilité : De nouveaux registres et domaines peuvent être ajoutés
- Basé sur des normes : Construit sur le mécanisme d’usage privé BCP 47 établi
- Lisible par machine : Le format systématique permet un traitement automatisé
- Lisible par l’homme : Sous-étiquettes claires et descriptives
- Flexibilité : Support pour les balises de forme longue détaillée et de forme courte concise
- Brièveté : Les balises magiques courtes permettent une représentation compacte tout en maintenant la clarté
Extensions futures
LVTag est conçu pour évoluer avec les besoins de la communauté technologique linguistique. Nous accueillons les suggestions pour de nouveaux classificateurs, des améliorations aux classificateurs existants, et des retours d’expérience d’implémentations réelles.
Pour proposer des extensions ou contribuer à la spécification :
- Ouvrir un problème sur github.com/lvtag/spec
- Rejoindre la discussion sur les propositions existantes
- Partager vos expériences d’implémentation
- Soumettre des pull requests pour des améliorations de documentation
Les codes à caractère unique réservés (q, 3-9) sont disponibles pour de futures extensions standardisées.
Références
Licence et octroi de brevets
Cette spécification est publiée sous CC0 1.0 Universal (Dédicace au domaine public).
Pourquoi CC0 : Pour garantir une adoption maximale et une liberté d’implémentation, LVTag est placé dans le domaine public. Cela signifie :
- Aucune autorisation nécessaire pour utiliser, implémenter ou modifier
- Aucune attribution requise (bien qu’appréciée)
- Aucune barrière juridique pour une utilisation commerciale ou gouvernementale
- Compatible avec toutes les licences de logiciels
- Utilisé par des normes majeures comme Unicode CLDR
Octroi de brevets : Tous les brevets couvrant la spécification LVTag sont par la présente licenciés sans redevance pour toute implémentation conforme à cette spécification.
Aucune approbation : L’utilisation de LVTag n’implique pas l’approbation des auteurs de la spécification.
Dans la mesure permise par la loi, Danslav Slavenskoj a renoncé à tous les droits d’auteur et droits connexes ou voisins à la spécification du format Language Variant Tag (LVTag). Ce travail est publié depuis : États-Unis d’Amérique. EOF < /dev/null