Specifikace LVTag
Verze 1.0
Vytvořil: Danslav Slavenskoj
Datum: květen 2025
Jazyky: 中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски
Rychlé odkazy
- JSON Schema - Úplné validační schéma pro formát LVTag
 - Definice klasifikátorů - Strojově čitelné specifikace klasifikátorů
 - Specifikace - Přejít na podrobnosti formátu
 - Příklady - Viz LVTag v akci
 
Přehled
Formát Language Variant Tag (LVTag) je systematický přístup ke klasifikaci jazyků, který rozšiřuje standard BCP 47 pomocí značek pro soukromé použití. Umožňuje přesnou identifikaci jazykových variant napříč několika dimenzemi včetně formálnosti, zdvořilosti, domény a ortografie.
Klíčové výhody
Rigorózní klasifikace: LVTag přináší systematickou organizaci do jazykového značkování poskytováním jasných, oddělených dimenzí pro různé typy variací. Na rozdíl od existujících značek a systémů, které směšují různé kategorie na stejné úrovni, LVTag udržuje přísné oddělení mezi formálností, zdvořilostí, doménou a dalšími dimenzemi.
Kompatibilita se standardy: LVTag je plně kompatibilní s BCP 47 (RFC 5646) a bezproblémově funguje s:
- IANA Language Subtag Registry
 - ISO 639 jazykové kódy
 - Unicode CLDR
 - W3C jazykové značky
 - HTTP Accept-Language hlavičky
 - XML lang atributy
 - HTML lang atributy
 
Technologická integrace: LVTag značky lze přímo použít v:
- Natural Language Processing (NLP) pipeline
 - Systémech strojového překladu
 - Content Management Systems (CMS)
 - Knihovnách pro detekci jazyků
 - Vyhledávačích a systémech pro vyhledávání informací
 - Webových aplikacích a API
 - Lokalizačních pracovních postupech
 
Případy použití:
- Cílení na publikum: Přizpůsobení obsahu vhodnému publiku na základě registru a domény
 - Kvalita překladu: Udržování vhodné úrovně formálnosti a zdvořilosti ve strojovém překladu
 - Výuka jazyků: Učení studentů vhodnému registru pro různé kontexty
 - Korpusová lingvistika: Vytváření přesně označených korpusů pro výzkum
 - Analýza sociálních médií: Klasifikace uživatelsky generovaného obsahu podle registru a domény
 - Zákaznický servis: Směrování zpráv na základě formálnosti a domény k příslušným agentům
 
Zdůvodnění
Zatímco BCP 47 poskytuje vynikající podporu pro identifikaci jazyků, písem a regionů, postrádá standardizované mechanismy pro zachycení sociolingvistických variací v rámci jazyka. Současné standardy neřeší:
- Variace registru: Žádný způsob, jak rozlišit mezi formálními a neformálními varietami stejného jazyka
 - Úrovně zdvořilosti: Kritické pro jazyky jako japonština, korejština a thajština, kde je zdvořilost gramaticky zakódována
 - Doménově specifický jazyk: Žádný standard pro označování technických, lékařských nebo právních jazykových variet
 - Sociolekty: Žádný mechanismus pro identifikaci variet sociálních skupin (jazyk mládeže, profesní žargon)
 - Historické fáze: Omezená podpora pro rozlišování klasických od moderních forem
 - Gradienty formálnosti: Žádná numerická škála pro výpočetní zpracování registru
 - Prajazyk: Nekonzistentní kódování - některé prajazyk mají ISO kódy (např. 
inepro PIE), zatímco jiné ne, a ISO 639-5 rodinné kódy nejsou platné v BCP 47 značkách, což vytváří matoucí prostředí pro historickou lingvistiku - Ortografické variace: Zatímco BCP 47 zpracovává písma, efektivně nezachycuje variace v rámci písem (pravopisné reformy, romanizační systémy, konkurenční standardy), které zásadně ovlivňují zpracování textu, vyhledávání a kontrolu pravopisu
 
LVTag tyto mezery vyplňuje pomocí mechanismu rozšíření BCP 47 pro soukromé použití (-x-), poskytuje systematický, strojově čitelný způsob kódování těchto kritických dimenzí jazykové variace při zachování plné zpětné kompatibility.
Přesná jazyková klasifikace
Příchod velkých jazykových modelů a sofistikovaných NLP nástrojů učinil přesnou klasifikaci jazykových variet nejen užitečnou, ale nezbytnou. Moderní systémy potřebují:
- Generovat text vhodný pro specifické kontexty (formální vs. neformální, zdvořilý vs. běžný)
 - Trénovat na správně klasifikovaných korpusech, aby se předešlo nevhodnému míchání registrů
 - Poskytovat kulturně a kontextově vhodné odpovědi
 - Přesně zpracovávat přepínání kódů a smíšený jazykový obsah
 - Zachovat stylistickou konzistenci při překladu nebo transformaci textu
 - Filtrovat trénovací data na základě formálnosti, domény nebo jiných charakteristik
 - Přizpůsobit výstup podle preferencí nebo požadavků uživatele
 
LVTag poskytuje granulární metadata potřebná k pochopení nejen toho, jaký jazyk se používá, ale jak se používá, což umožňuje nuancovanější a vhodnější pipeline pro zpracování jazyka.
Specifikace formátu
Základní struktura
language-x-[classifier]-[value]-[classifier2]-[value2]...
Kde:
languageje platná značka primárního jazyka BCP 47 (např.en,ko,ja)xoznačuje začátek značek pro soukromé použitíclassifierje identifikátor kategorie (viz Magické značky níže)valueje specifická klasifikace v rámci této kategorie
Magické značky
LVTag podporuje pro flexibilitu dlouhé i krátké “magické” klasifikátory:
| Dlouhá forma | Krátká forma | Popis | 
|---|---|---|
ortho | 
      w | 
      Ortografická varianta | 
form | 
      f | 
      Úroveň formálnosti (stupnice 1-5) | 
polite | 
      p | 
      Úroveň zdvořilosti/respektu (stupnice 1-5) | 
domain | 
      d | 
      Specializovaná slovní zásoba nebo profesní kontext | 
geo | 
      g | 
      Geografická nebo regionální varianta | 
proto | 
      a | 
      Prajazyk nebo rekonstruovaný jazyk | 
hist | 
      h | 
      Historické období nebo fáze jazyka | 
genre | 
      e | 
      Textový žánr nebo literární styl | 
medium | 
      m | 
      Komunikační médium (mluvené, psané, digitální) | 
socio | 
      s | 
      Sociolekt nebo varianta sociální skupiny | 
modality | 
      o | 
      Režim jazykové produkce | 
register | 
      r | 
      Jazykový registr | 
pragma | 
      u | 
      Komunikativní funkce | 
temporal | 
      t | 
      Časové označení | 
evidence | 
      v | 
      Zdroj informací | 
affect | 
      k | 
      Emocionální tón | 
age | 
      n | 
      Věková/generační varianta | 
gender | 
      i | 
      Genderová varianta | 
expert | 
      b | 
      Úroveň odbornosti | 
interact | 
      2 | 
      Interakční struktura | 
prosody | 
      y | 
      Prozodické rysy | 
lexical | 
      l | 
      Lexikální hustota (0-100) | 
syntax | 
      z | 
      Syntaktická složitost (0-100) | 
start | 
      0 | 
      Datum zahájení (ISO 8601 bez interpunkce) | 
end | 
      1 | 
      Datum ukončení (ISO 8601 bez interpunkce) | 
taboo | 
      j | 
      Úroveň tabu/vulgárního obsahu (stupnice 0-5) | 
conf | 
      c | 
      Skóre spolehlivosti (0-100) pro předchozí značku | 
| — | q, 3-9 | 
      Rezervováno pro budoucí použití | 
Klasifikátory
1. Ortografický klasifikátor (ortho nebo w)
Identifikuje specifické ortografické konvence nebo varianty systému psaní nad rámec standardních značek písma.
Formát:
- Dlouhý: 
language-x-ortho-[variant] - Krátký: 
language-x-w-[variant] 
Příklady (kombinované se standardními značkami písma):
az-Latn-x-ortho-newneboaz-Latn-x-w-new- Ázerbájdžánské latinské písmo, nová ortografiede-Latn-x-ortho-1901nebode-Latn-x-w-1901- Německé latinské písmo, ortografie z roku 1901zh-Hans-x-ortho-pinyinnebozh-Hans-x-w-pinyin- Zjednodušená čínština s pinyinemyi-Hebr-x-ortho-yivoneboyi-Hebr-x-w-yivo- Jidiš hebrejské písmo, YIVO ortografie
2. Klasifikátor formálnosti (form nebo f)
Identifikuje úroveň formálnosti používání jazyka.
Formát:
- Dlouhý: 
language-x-form-[1-5] - Krátký: 
language-x-f-[1-5] 
Stupnice formálnosti:
- 1 = Nejformálnější (písemné dokumenty, oficiální projevy)
 - 2 = Formální (obchodní schůzky, akademické psaní)
 - 3 = Neutrální/standardní (zprávy, běžná konverzace)
 - 4 = Neformální (běžná konverzace, e-maily přátelům)
 - 5 = Nejběžnější (intimní konverzace, slang)
 
Příklady:
ko-x-form-1neboko-x-f-1- Nejformálnější korejštinaen-x-form-3neboen-x-f-3- Neutrální angličtinaja-x-form-5neboja-x-f-5- Nejběžnější japonština
3. Klasifikátor zdvořilosti (polite nebo p)
Identifikuje úroveň zdvořilosti/respektu používání jazyka.
Formát:
- Dlouhý: 
language-x-polite-[1-5] - Krátký: 
language-x-p-[1-5] 
Stupnice zdvořilosti:
- 1 = Nejuctivější/nejpokornější (královské oslovení, náboženské kontexty)
 - 2 = Velmi zdvořilé (formální honorifika, uctivá řeč)
 - 3 = Zdvořilé/neutrální (standardní zdvořilost)
 - 4 = Důvěrné (mezi rovnými, přáteli)
 - 5 = Intimní/prosté (rodina, velmi blízcí přátelé)
 
Příklady:
ko-x-polite-1neboko-x-p-1- Nejvyšší respekt korejštinaja-x-polite-2neboja-x-p-2- Velmi zdvořilá japonštinath-x-polite-3neboth-x-p-3- Standardně zdvořilá thajština
4. Doménový klasifikátor (domain nebo d)
Identifikuje specializovanou slovní zásobu nebo profesní kontext.
Formát:
- Dlouhý: 
language-x-domain-[domain_type] - Krátký: 
language-x-d-[domain_type] 
Příklady:
en-x-domain-legalneboen-x-d-legal- Právnická angličtinaja-x-domain-medneboja-x-d-med- Lékařská japonštinako-x-domain-businessneboko-x-d-business- Obchodní korejštinaja-x-domain-techneboja-x-d-tech- Technická japonštinaen-x-domain-finneboen-x-d-fin- Finanční angličtina
5. Geografický klasifikátor (geo nebo g)
Identifikuje regionální nebo geografické jazykové variety.
Formát:
- Dlouhý: 
language-x-geo-[region] - Krátký: 
language-x-g-[region] 
Příklady:
ko-x-geo-gyeongneboko-x-g-gyeong- Korejština z Kjongsangu (경상도)ko-x-geo-jeollaneboko-x-g-jeolla- Korejština z Čolly (전라도)es-x-geo-rioplaneboes-x-g-riopla- Rioplatská španělštinapt-x-geo-nordestenebopt-x-g-nordeste- Severovýchodní brazilská portugalština
6. Klasifikátor prajazyka (proto nebo a)
Identifikuje prajazyk nebo rekonstruované historické jazyky.
Formát:
- Dlouhý: 
x-proto-[iso639-5_code if available] - Krátký: 
x-a-[iso639-5_code if available] 
Pravidla:
- MUSÍ použít ISO 639-5 kódy jazykových rodin, pokud jsou k dispozici
 - Použijte popisné identifikátory pouze tehdy, když neexistuje žádný ISO 639-5 kód
 
Příklady s použitím ISO 639-5 kódů:
x-proto-inenebox-a-ine- Praindoevropštinax-proto-gemnebox-a-gem- Pragermánštinax-proto-slanebox-a-sla- Praslovanštinax-proto-semnebox-a-sem- Prasemitštinax-proto-celnebox-a-cel- Prakeltštinax-proto-iranebox-a-ira- Praíránštinax-proto-incnebox-a-inc- Praindoárijštinax-proto-batnebox-a-bat- Prabaltštinax-proto-roanebox-a-roa- Prarománštinax-proto-trknebox-a-trk- Praturečtina
Příklady bez ISO 639-5 kódů (popisné, delší než tři znaky):
x-proto-baltslavnebox-a-baltslav- Prabaltoslovanština (žádný ISO 639-5 kód)
Poznámka:
- Kódy jazykových rodin (ISO 639-5) NEJSOU platné jako standardní primární značky jazyka BCP 47, což je důvod, proč jsme je implementovali pomocí x-proto
 - Jsou platné a preferované v rámci rozšíření pro soukromé použití (po 
x-) - Proto všechny značky prajazyka musí začínat 
x-pro soulad s BCP 47 
7. Historický klasifikátor (hist nebo h)
Identifikuje historická období nebo fáze jazyka.
Formát:
- Dlouhý: 
language-x-hist-[period] - Krátký: 
language-x-h-[period] 
Příklady:
en-x-hist-oldneboen-x-h-old- Období staré angličtinyen-x-hist-middleneboen-x-h-middle- Období střední angličtinyja-x-hist-kobunneboja-x-h-kobun- Klasická japonština (古文)ko-x-hist-hunminneboko-x-h-hunmin- Středověká korejština (훈민정음 období)el-x-hist-koineneboel-x-h-koine- Koiné řečtina (Κοινή)sa-x-hist-vedicnebosa-x-h-vedic- Védský sanskrt (वैदिक)
8. Žánrový klasifikátor (genre nebo e)
Identifikuje textový žánr nebo literární styl.
Formát:
- Dlouhý: 
language-x-genre-[genre_type] - Krátký: 
language-x-e-[genre_type] 
Příklady:
en-x-genre-newsneboen-x-e-news- Zpravodajská angličtinaja-x-genre-manganeboja-x-e-manga- Japonština mangy (漫画)ko-x-genre-webtoonneboko-x-e-webtoon- Korejský webtoon (웹툰)zh-x-genre-shinebozh-x-e-shi- Čínská poezie (詩)fr-x-genre-bdnebofr-x-e-bd- Francouzské komiksy (bande dessinée)de-x-genre-marchennebode-x-e-marchen- Německé pohádky (Märchen)
9. Klasifikátor média (medium nebo m)
Identifikuje komunikační médium.
Formát:
- Dlouhý: 
language-x-medium-[medium_type] - Krátký: 
language-x-m-[medium_type] 
Příklady:
en-x-medium-spokenneboen-x-m-spoken- Mluvená angličtinako-x-medium-digitalneboko-x-m-digital- Digitální/online korejštinaja-x-medium-writtenneboja-x-m-written- Psaná japonštinahi-x-medium-bcastnebohi-x-m-bcast- Vysílací hindštinazh-x-medium-smsnebozh-x-m-sms- SMS/textová zpráva čínština
10. Socio klasifikátor (socio nebo s)
Identifikuje sociolekt nebo varianty sociálních skupin.
Formát:
- Dlouhý: 
language-x-socio-[social_group] - Krátký: 
language-x-s-[social_group] 
Příklady:
en-x-socio-academicneboen-x-s-academic- Akademický sociolekten-x-socio-urbanneboen-x-s-urban- Městský sociolektes-x-socio-juvenilneboes-x-s-juvenil- Španělský mládežnický sociolekt (jerga juvenil)fr-x-socio-jeunenebofr-x-s-jeune- Francouzský mládežnický sociolektde-x-socio-jugendnebode-x-s-jugend- Německý mládežnický sociolekt (Jugendsprache)ko-x-socio-onlineneboko-x-s-online- Korejský online sociolekt
11. Klasifikátor modality (modality nebo o)
Identifikuje základní režim jazykové produkce.
Formát:
- Dlouhý: 
language-x-modality-[mode] - Krátký: 
language-x-o-[mode] 
Příklady:
en-x-modality-spokenneboen-x-o-spoken- Mluvená angličtinaen-x-modality-writtenneboen-x-o-written- Psaná angličtinaasl-x-modality-signedneboasl-x-o-signed- Americký znakový jazyken-x-modality-multineboen-x-o-multi- Multimodální angličtina (řeč + gesta)fr-x-modality-tactilenebofr-x-o-tactile- Taktilní francouzština (pro hluchoslepé)
12. Klasifikátor registru (register nebo r)
Identifikuje jazykový registr nebo funkční varietu používání jazyka.
Formát:
- Dlouhý: 
language-x-register-[register_type] - Krátký: 
language-x-r-[register_type] 
Příklady:
en-x-register-frozenneboen-x-r-frozen- Zamrzlý registr (modlitby, sliby)en-x-register-formalneboen-x-r-formal- Formální registr (akademické práce)en-x-register-consultneboen-x-r-consult- Konzultativní registr (profesionální)en-x-register-casualneboen-x-r-casual- Běžný registr (přátelé)en-x-register-intimateneboen-x-r-intimate- Intimní registr (rodina)
13. Pragmatický funkční klasifikátor (pragma nebo u)
Identifikuje komunikativní funkci nebo řečový akt.
Formát:
- Dlouhý: 
language-x-pragma-[function] - Krátký: 
language-x-u-[function] 
Příklady:
en-x-pragma-requestneboen-x-u-request- Funkce žádostija-x-pragma-apologyneboja-x-u-apology- Funkce omluvyes-x-pragma-complmntneboes-x-u-complmnt- Funkce komplimentuar-x-pragma-greetingneboar-x-u-greeting- Funkce pozdravuzh-x-pragma-refusalnebozh-x-u-refusal- Funkce odmítnutí
14. Klasifikátor časového označení (temporal nebo t)
Identifikuje časové aspekty nebo vzorce použití času.
Formát:
- Dlouhý: 
language-x-temporal-[aspect] - Krátký: 
language-x-t-[aspect] 
Příklady:
en-x-temporal-pastneboen-x-t-past- Diskurz orientovaný na minulostja-x-temporal-nonpastneboja-x-t-nonpast- Zaměření na ne-minulostid-x-temporal-atemprlneboid-x-t-atemprl- Bezčasový/atemporálnífr-x-temporal-futurenebofr-x-t-future- Orientovaný na budoucnostzh-x-temporal-aspectnebozh-x-t-aspect- Aspektuální zaměření
15. Klasifikátor evidenciality (evidence nebo v)
Identifikuje označení zdroje informací.
Formát:
- Dlouhý: 
language-x-evidence-[source] - Krátký: 
language-x-v-[source] 
Příklady:
qu-x-evidence-directneboqu-x-v-direct- Přímý svědektr-x-evidence-hearsaynebotr-x-v-hearsay- Z doslechu/hlášenoja-x-evidence-inferneboja-x-v-infer- Inferenčníen-x-evidence-assumeneboen-x-v-assume- Předpokládanéde-x-evidence-quotenebode-x-v-quote- Citační
16. Afekt/Emoce klasifikátor (affect nebo k)
Identifikuje emocionální tón nebo afekt.
Formát:
- Dlouhý: 
language-x-affect-[emotion] - Krátký: 
language-x-k-[emotion] 
Příklady:
en-x-affect-angryneboen-x-k-angry- Rozzlobený tónja-x-affect-humbleneboja-x-k-humble- Pokorný afektes-x-affect-joyfulneboes-x-k-joyful- Radostný výrazko-x-affect-sadneboko-x-k-sad- Smutný/melancholickýfr-x-affect-neutralnebofr-x-k-neutral- Neutrální afekt
17. Věkový/generační klasifikátor (age nebo n)
Identifikuje věkově nebo generačně související jazykové variety.
Formát:
- Dlouhý: 
language-x-age-[generation] - Krátký: 
language-x-n-[generation] 
Příklady:
en-x-age-childneboen-x-n-child- Dětská řečja-x-age-teenneboja-x-n-teen- Teenagerský jazykko-x-age-elderneboko-x-n-elder- Řeč staršíches-x-age-genzneboes-x-n-genz- Generace Zzh-x-age-millenlnebozh-x-n-millenl- Mileniálská řeč
18. Genderový klasifikátor (gender nebo i)
Identifikuje genderově související jazykové variety.
Formát:
- Dlouhý: 
language-x-gender-[identity] - Krátký: 
language-x-i-[identity] 
19. Klasifikátor úrovně odbornosti (expert nebo b)
Identifikuje úroveň doménové odbornosti na stupnici 0-10.
Formát:
- Dlouhý: 
language-x-expert-[0-10] - Krátký: 
language-x-b-[0-10] 
Stupnice odbornosti:
- 0 = Žádné znalosti
 - 1-2 = Začátečník
 - 3-4 = Středně pokročilý
 - 5-6 = Pokročilý
 - 7-8 = Expert
 - 9-10 = Mistr/Autorita
 
Příklady:
en-x-expert-0neboen-x-b-0- Žádná odbornostde-x-expert-3nebode-x-b-3- Středně pokročilá úroveňja-x-expert-7neboja-x-b-7- Expertní úroveňes-x-expert-9neboes-x-b-9- Mistrovská úroveňzh-x-expert-5nebozh-x-b-5- Pokročilá úroveň
20. Klasifikátor interakční struktury (interact nebo 2)
Identifikuje konverzační nebo interakční vzorce.
Formát:
- Dlouhý: 
language-x-interact-[structure] - Krátký: 
language-x-2-[structure] 
Příklady:
en-x-interact-turnneboen-x-2-turn- Střídání replikja-x-interact-overlapneboja-x-2-overlap- Překrývající se řečes-x-interact-monologneboes-x-2-monolog- Monologickýar-x-interact-dialogneboar-x-2-dialog- Dialogickýzh-x-interact-multinebozh-x-2-multi- Víceúčastníkový
21. Klasifikátor prozodických rysů (prosody nebo y)
Identifikuje prozodické nebo suprasegmentální rysy.
Formát:
- Dlouhý: 
language-x-prosody-[feature] - Krátký: 
language-x-y-[feature] 
Příklady:
en-x-prosody-stressneboen-x-y-stress- Přízvukově časovanýja-x-prosody-pitchneboja-x-y-pitch- Výškový přízvukfr-x-prosody-syllablenebofr-x-y-syllable- Slabikově časovanýzh-x-prosody-tonenebozh-x-y-tone- Tónové vzorcees-x-prosody-rhythmneboes-x-y-rhythm- Rytmické vzorce
22. Klasifikátor lexikální hustoty (lexical nebo l)
Identifikuje lexikální hustotu jako číselnou hodnotu (0-100).
Formát:
- Dlouhý: 
language-x-lexical-[0-100] - Krátký: 
language-x-l-[0-100] 
Příklady:
en-x-lexical-20neboen-x-l-20- Nízká hustota (20%)de-x-lexical-55nebode-x-l-55- Střední hustota (55%)ja-x-lexical-75neboja-x-l-75- Vysoká hustota (75%)es-x-lexical-40neboes-x-l-40- Mírná hustota (40%)zh-x-lexical-85nebozh-x-l-85- Velmi vysoká hustota (85%)
23. Klasifikátor syntaktické složitosti (syntax nebo z)
Identifikuje syntaktickou složitost jako číselnou hodnotu (0-100).
Formát:
- Dlouhý: 
language-x-syntax-[0-100] - Krátký: 
language-x-z-[0-100] 
Příklady:
en-x-syntax-15neboen-x-z-15- Jednoduchá syntax (15%)de-x-syntax-70nebode-x-z-70- Složitá syntax (70%)ja-x-syntax-45neboja-x-z-45- Střední složitost (45%)es-x-syntax-30neboes-x-z-30- Nízká složitost (30%)zh-x-syntax-60nebozh-x-z-60- Vysoká složitost (60%)
24. Klasifikátor data zahájení (start nebo 0)
Identifikuje datum zahájení používání jazyka (formát ISO 8601 bez interpunkce).
Formát:
- Dlouhý: 
language-x-start-[YYYYMMDD] - Krátký: 
language-x-0-[YYYYMMDD] 
Formáty data:
- Úplné datum: YYYYMMDD
 - Rok-měsíc: YYYYMM
 - Pouze rok: YYYY
 
Příklady:
en-x-start-20240315neboen-x-0-20240315- Angličtina začínající 15. března 2024ja-x-start-19890108neboja-x-0-19890108- Japonština začínající 8. ledna 1989es-x-start-202403neboes-x-0-202403- Španělština začínající v březnu 2024
25. Klasifikátor data ukončení (end nebo 1)
Identifikuje datum ukončení používání jazyka (formát ISO 8601 bez interpunkce).
Formát:
- Dlouhý: 
language-x-end-[YYYYMMDD] - Krátký: 
language-x-1-[YYYYMMDD] 
Formáty data:
- Úplné datum: YYYYMMDD
 - Rok-měsíc: YYYYMM
 - Pouze rok: YYYY
 
Příklady:
en-x-end-20240415neboen-x-1-20240415- Angličtina končící 15. dubna 2024ja-x-end-20190430neboja-x-1-20190430- Japonština končící 30. dubna 2019es-x-end-202412neboes-x-1-202412- Španělština končící v prosinci 2024
26. Klasifikátor tabu (taboo nebo j)
Identifikuje úroveň tabu, vulgárního nebo urážlivého obsahu.
Formát:
- Dlouhý: 
language-x-taboo-[0-5] - Krátký: 
language-x-j-[0-5] 
Příklady:
en-x-taboo-0neboen-x-j-0- Žádný tabu obsahen-x-taboo-3neboen-x-j-3- Střední úroveň tabuja-x-form-5-taboo-4neboja-x-f-5-j-4- Velmi běžná japonština s vysokou úrovní tabu
27. Klasifikátor spolehlivosti (conf nebo c)
Označuje skóre spolehlivosti pro bezprostředně předcházející klasifikátor.
Formát:
- Dlouhý: 
language-x-[classifier]-[value]-conf-[0-100] - Krátký: 
language-x-[classifier]-[value]-c-[0-100] 
Speciální chování:
- Skóre spolehlivosti se vztahuje na klasifikátor bezprostředně před ním
 - Pro různé klasifikátory lze použít více skóre spolehlivosti
 - Pokud žádný klasifikátor nepředchází, spolehlivost se vztahuje na základní jazykovou značku
 
Příklady:
en-x-form-3-conf-95neboen-x-f-3-c-95- Neutrální formálnost s 95% spolehlivostíko-x-polite-2-conf-80-domain-med-conf-60neboko-x-p-2-c-80-d-med-c-60- Velmi zdvořilá (80% spolehlivost) lékařská korejština (60% spolehlivost)ja-x-hist-kobun-conf-100neboja-x-h-kobun-c-100- Klasická japonština se 100% spolehlivostíx-proto-ine-conf-75nebox-a-ine-c-75- Praindoevropština se 75% spolehlivostí
Vícenásobné klasifikace
LVTag podporuje více klasifikátorů v jedné značce pro poskytnutí přesné identifikace jazyka. Dlouhé a krátké formy lze kombinovat:
ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
Výše uvedené příklady ukazují korejštinu s neformální formálností (4), ale zdvořilou řečí (2) v obchodním kontextu.
Platné hodnoty
Poznámka: Všechny hodnoty musí mít 8 znaků nebo méně, aby splňovaly omezení délky podznačky BCP 47. Zatímco specifické hodnoty pro mnoho klasifikátorů mají být stanoveny prostřednictvím odborného použití a konsensu komunity, numerické stupnice, formáty dat a základní hodnoty uvedené níže jsou definovány v tomto standardu.
Stupnice formálnosti (Univerzální)
| Úroveň | Popis | Příklady | 
|---|---|---|
| 1 | Nejformálnější | Právní dokumenty, oficiální ceremonie, akademické práce | 
| 2 | Formální | Obchodní dopisy, zpravodajské články, prezentace | 
| 3 | Neutrální | Standardní konverzace, e-mail, obecné psaní | 
| 4 | Neformální | Běžná konverzace, osobní blogy, textové zprávy | 
| 5 | Nejběžnější | Slang, intimní konverzace, sociální média | 
Stupnice zdvořilosti (Univerzální)
| Úroveň | Popis | Příklady | 
|---|---|---|
| 1 | Nejuctivější | Královské oslovení, náboženští vůdci, respekt k starším | 
| 2 | Velmi zdvořilé | Zákaznický servis, formální schůzky, učitelé | 
| 3 | Zdvořilé/neutrální | Standardní interakce, kolegové | 
| 4 | Důvěrné | Přátelé, vrstevníci, běžní známí | 
| 5 | Intimní/prosté | Blízká rodina, intimní partneři | 
Stupnice odbornosti (Univerzální)
| Úroveň | Popis | 
|---|---|
| 0 | Žádné znalosti | 
| 1-2 | Začátečník | 
| 3-4 | Středně pokročilý | 
| 5-6 | Pokročilý | 
| 7-8 | Expert | 
| 9-10 | Mistr/Autorita | 
Stupnice tabu (Univerzální)
| Úroveň | Popis | 
|---|---|
| 0 | Žádný tabu obsah | 
| 1 | Mírné tabu | 
| 2 | Lehké tabu | 
| 3 | Střední tabu | 
| 4 | Vysoké tabu | 
| 5 | Extrémní tabu | 
Stupnice lexikální hustoty (Univerzální)
| Úroveň | Popis | 
|---|---|
| 0-20 | Velmi nízká hustota | 
| 21-40 | Nízká hustota | 
| 41-60 | Střední hustota | 
| 61-80 | Vysoká hustota | 
| 81-100 | Velmi vysoká hustota | 
Stupnice syntaktické složitosti (Univerzální)
| Úroveň | Popis | 
|---|---|
| 0-20 | Velmi jednoduchá | 
| 21-40 | Jednoduchá | 
| 41-60 | Střední složitost | 
| 61-80 | Složitá | 
| 81-100 | Velmi složitá | 
Doménové hodnoty
| Hodnota | Popis | 
|---|---|
legal | 
      Právní terminologie | 
med | 
      Lékařská terminologie | 
tech | 
      Technická/IT | 
business | 
      Obchodní/firemní | 
fin | 
      Finance/bankovnictví | 
acad | 
      Akademická/vědecká | 
sci | 
      Vědecká/výzkumná | 
Příklady implementace
Jeden klasifikátor (Dlouhá forma)
# Nejformálnější korejština
ko-x-form-1
# Velmi zdvořilá japonština
ja-x-polite-2
# Právnická angličtina
en-x-domain-legal
# Korejština z Kjongsangu
ko-x-geo-gyeong
# Praindoevropština
x-proto-ine
Jeden klasifikátor (Krátká forma)
# Nejformálnější korejština
ko-x-f-1
# Velmi zdvořilá japonština
ja-x-p-2
# Právnická angličtina
en-x-d-legal
# Korejština z Kjongsangu
ko-x-g-gyeong
# Praindoevropština
x-a-ine
Vícenásobné klasifikátory
# Neformální, ale zdvořilý korejský obchodní jazyk
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
# Formální a uctivý japonský lékařský jazyk
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med
# Jižní vietnamština s neutrální formálností, zdvořilou řečí, technickou doménou
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech
# Složitá klasifikace s více dimenzemi
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written
# Jazykové variety ukazující rozdíl mezi formálností a zdvořilostí
ko-x-f-5-p-2  # Velmi běžná, ale zdvořilá (ke staršímu příteli)
ko-x-f-1-p-4  # Velmi formální, ale důvěrná (psaná vrstevníkovi)
ja-x-f-4-p-1  # Běžná formálnost, ale nejvyšší respekt
en-x-f-5-j-4  # Velmi běžná angličtina s vysokou úrovní tabu
Případy použití
- Aplikace pro výuku jazyků
    
- Učit vhodný registr pro různé sociální kontexty
 - Poskytovat doménově specifické slovní zásoby
 
 - Strojový překlad
    
- Udržovat konzistenci registru v překladech
 - Aplikovat doménově specifickou terminologii
 
 - Klasifikace obsahu
    
- Automaticky kategorizovat text podle formálnosti a domény
 - Směrovat obsah k příslušným recenzentům nebo systémům
 
 - Korpusová lingvistika
    
- Vytvářet označené korpusy pro lingvistický výzkum
 - Studovat variace registru a domény
 
 
Validační pravidla
- Délka podznačky: Každá podznačka po 
x-musí mít 8 znaků nebo méně - Pořadí: Klasifikátory se mohou objevit v libovolném pořadí po 
x- - Jedinečnost: Každý typ klasifikátoru by se měl objevit pouze jednou na značku (kromě 
conf, který se může objevit vícekrát) - Velikost písmen: Značky by měly být malými písmeny (podle BCP 47 nezáleží na velikosti písmen)
 - Magické značky: Krátké formy značek jsou jednoznakové; 
q,3-9jsou rezervovány pro budoucí použití - Míchání: Dlouhé a krátké formy lze kombinovat v rámci stejné značky
 - Proto značky: Musí začínat 
x-a MĚLY BY používat ISO 639-5 kódy, pokud jsou k dispozici (např.x-proto-sla, nex-proto-slavic) - Spolehlivost: Klasifikátor 
conf/cse vztahuje na bezprostředně předcházející klasifikátor - Číselné hodnoty: Musí být v definovaných rozmezích (0-5 pro tabu, 0-10 pro odbornost, 0-100 pro procentuální hodnoty)
 - Formát data: Data používají ISO 8601 bez interpunkce (YYYY, YYYYMM nebo YYYYMMDD)
 
Kompatibilita
Formát LVTag je plně kompatibilní s:
- BCP 47 (RFC 5646)
 - ISO 639 jazykové kódy
 - IANA Language Subtag Registry
 - Unicode CLDR
 
Výhody
- Přesnost: Umožňuje jemnozrnnou identifikaci jazykových variet
 - Rozšiřitelnost: Lze přidat nové registry a domény
 - Založeno na standardech: Postaveno na zavedeném mechanismu BCP 47 pro soukromé použití
 - Strojově čitelné: Systematický formát umožňuje automatizované zpracování
 - Lidsky čitelné: Jasné, popisné podznačky
 - Flexibilita: Podpora pro podrobné dlouhé a stručné krátké formy značek
 - Stručnost: Krátké magické značky umožňují kompaktní reprezentaci při zachování jasnosti
 
Budoucí rozšíření
LVTag je navržen tak, aby se vyvíjel s potřebami komunity jazykových technologií. Vítáme návrhy na nové klasifikátory, vylepšení stávajících a zpětnou vazbu z reálných implementací.
Chcete-li navrhnout rozšíření nebo přispět ke specifikaci:
- Otevřete problém na github.com/lvtag/spec
 - Připojte se k diskusi o existujících návrzích
 - Sdílejte své implementační zkušenosti
 - Odešlete pull requesty pro vylepšení dokumentace
 
Rezervované jednoznakové kódy (q, 3-9) jsou k dispozici pro budoucí standardizovaná rozšíření.
Reference
Licence a patentové udělení
Tato specifikace je vydána pod CC0 1.0 Universal (Public Domain Dedication).
Proč CC0: Pro zajištění maximálního přijetí a svobody implementace je LVTag umístěn do veřejné domény. To znamená:
- Není potřeba žádné povolení k použití, implementaci nebo úpravě
 - Není vyžadováno žádné uvedení autora (ačkoli je oceňováno)
 - Žádné právní překážky pro komerční nebo vládní použití
 - Kompatibilní se všemi softwarovými licencemi
 - Používáno hlavními standardy jako Unicode CLDR
 
Patentové udělení: Jakékoli patenty pokrývající specifikaci LVTag jsou tímto licencovány bez licenčních poplatků pro jakoukoli implementaci, která vyhovuje této specifikaci.
Žádné schválení: Použití LVTag neznamená schválení autory specifikace.
V rozsahu povoleném zákonem se Danslav Slavenskoj vzdal všech autorských práv a souvisejících nebo sousedních práv ke specifikaci formátu Language Variant Tag (LVTag). Toto dílo je publikováno z: Spojené státy americké.