Skip to the content.
LVTag Logo

Specifikace LVTag

Verze 1.0
Vytvořil: Danslav Slavenskoj
Datum: květen 2025

Jazyky: 中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски

Rychlé odkazy

Přehled

Formát Language Variant Tag (LVTag) je systematický přístup ke klasifikaci jazyků, který rozšiřuje standard BCP 47 pomocí značek pro soukromé použití. Umožňuje přesnou identifikaci jazykových variant napříč několika dimenzemi včetně formálnosti, zdvořilosti, domény a ortografie.

Klíčové výhody

Rigorózní klasifikace: LVTag přináší systematickou organizaci do jazykového značkování poskytováním jasných, oddělených dimenzí pro různé typy variací. Na rozdíl od existujících značek a systémů, které směšují různé kategorie na stejné úrovni, LVTag udržuje přísné oddělení mezi formálností, zdvořilostí, doménou a dalšími dimenzemi.

Kompatibilita se standardy: LVTag je plně kompatibilní s BCP 47 (RFC 5646) a bezproblémově funguje s:

Technologická integrace: LVTag značky lze přímo použít v:

Případy použití:

Zdůvodnění

Zatímco BCP 47 poskytuje vynikající podporu pro identifikaci jazyků, písem a regionů, postrádá standardizované mechanismy pro zachycení sociolingvistických variací v rámci jazyka. Současné standardy neřeší:

LVTag tyto mezery vyplňuje pomocí mechanismu rozšíření BCP 47 pro soukromé použití (-x-), poskytuje systematický, strojově čitelný způsob kódování těchto kritických dimenzí jazykové variace při zachování plné zpětné kompatibility.

Přesná jazyková klasifikace

Příchod velkých jazykových modelů a sofistikovaných NLP nástrojů učinil přesnou klasifikaci jazykových variet nejen užitečnou, ale nezbytnou. Moderní systémy potřebují:

LVTag poskytuje granulární metadata potřebná k pochopení nejen toho, jaký jazyk se používá, ale jak se používá, což umožňuje nuancovanější a vhodnější pipeline pro zpracování jazyka.

Specifikace formátu

Základní struktura

language-x-[classifier]-[value]-[classifier2]-[value2]...

Kde:

Magické značky

LVTag podporuje pro flexibilitu dlouhé i krátké “magické” klasifikátory:

Dlouhá forma Krátká forma Popis
ortho w Ortografická varianta
form f Úroveň formálnosti (stupnice 1-5)
polite p Úroveň zdvořilosti/respektu (stupnice 1-5)
domain d Specializovaná slovní zásoba nebo profesní kontext
geo g Geografická nebo regionální varianta
proto a Prajazyk nebo rekonstruovaný jazyk
hist h Historické období nebo fáze jazyka
genre e Textový žánr nebo literární styl
medium m Komunikační médium (mluvené, psané, digitální)
socio s Sociolekt nebo varianta sociální skupiny
modality o Režim jazykové produkce
register r Jazykový registr
pragma u Komunikativní funkce
temporal t Časové označení
evidence v Zdroj informací
affect k Emocionální tón
age n Věková/generační varianta
gender i Genderová varianta
expert b Úroveň odbornosti
interact 2 Interakční struktura
prosody y Prozodické rysy
lexical l Lexikální hustota (0-100)
syntax z Syntaktická složitost (0-100)
start 0 Datum zahájení (ISO 8601 bez interpunkce)
end 1 Datum ukončení (ISO 8601 bez interpunkce)
taboo j Úroveň tabu/vulgárního obsahu (stupnice 0-5)
conf c Skóre spolehlivosti (0-100) pro předchozí značku
q, 3-9 Rezervováno pro budoucí použití

Klasifikátory

1. Ortografický klasifikátor (ortho nebo w)

Identifikuje specifické ortografické konvence nebo varianty systému psaní nad rámec standardních značek písma.

Formát:

Příklady (kombinované se standardními značkami písma):

2. Klasifikátor formálnosti (form nebo f)

Identifikuje úroveň formálnosti používání jazyka.

Formát:

Stupnice formálnosti:

Příklady:

3. Klasifikátor zdvořilosti (polite nebo p)

Identifikuje úroveň zdvořilosti/respektu používání jazyka.

Formát:

Stupnice zdvořilosti:

Příklady:

4. Doménový klasifikátor (domain nebo d)

Identifikuje specializovanou slovní zásobu nebo profesní kontext.

Formát:

Příklady:

5. Geografický klasifikátor (geo nebo g)

Identifikuje regionální nebo geografické jazykové variety.

Formát:

Příklady:

6. Klasifikátor prajazyka (proto nebo a)

Identifikuje prajazyk nebo rekonstruované historické jazyky.

Formát:

Pravidla:

Příklady s použitím ISO 639-5 kódů:

Příklady bez ISO 639-5 kódů (popisné, delší než tři znaky):

Poznámka:

7. Historický klasifikátor (hist nebo h)

Identifikuje historická období nebo fáze jazyka.

Formát:

Příklady:

8. Žánrový klasifikátor (genre nebo e)

Identifikuje textový žánr nebo literární styl.

Formát:

Příklady:

9. Klasifikátor média (medium nebo m)

Identifikuje komunikační médium.

Formát:

Příklady:

10. Socio klasifikátor (socio nebo s)

Identifikuje sociolekt nebo varianty sociálních skupin.

Formát:

Příklady:

11. Klasifikátor modality (modality nebo o)

Identifikuje základní režim jazykové produkce.

Formát:

Příklady:

12. Klasifikátor registru (register nebo r)

Identifikuje jazykový registr nebo funkční varietu používání jazyka.

Formát:

Příklady:

13. Pragmatický funkční klasifikátor (pragma nebo u)

Identifikuje komunikativní funkci nebo řečový akt.

Formát:

Příklady:

14. Klasifikátor časového označení (temporal nebo t)

Identifikuje časové aspekty nebo vzorce použití času.

Formát:

Příklady:

15. Klasifikátor evidenciality (evidence nebo v)

Identifikuje označení zdroje informací.

Formát:

Příklady:

16. Afekt/Emoce klasifikátor (affect nebo k)

Identifikuje emocionální tón nebo afekt.

Formát:

Příklady:

17. Věkový/generační klasifikátor (age nebo n)

Identifikuje věkově nebo generačně související jazykové variety.

Formát:

Příklady:

18. Genderový klasifikátor (gender nebo i)

Identifikuje genderově související jazykové variety.

Formát:

19. Klasifikátor úrovně odbornosti (expert nebo b)

Identifikuje úroveň doménové odbornosti na stupnici 0-10.

Formát:

Stupnice odbornosti:

Příklady:

20. Klasifikátor interakční struktury (interact nebo 2)

Identifikuje konverzační nebo interakční vzorce.

Formát:

Příklady:

21. Klasifikátor prozodických rysů (prosody nebo y)

Identifikuje prozodické nebo suprasegmentální rysy.

Formát:

Příklady:

22. Klasifikátor lexikální hustoty (lexical nebo l)

Identifikuje lexikální hustotu jako číselnou hodnotu (0-100).

Formát:

Příklady:

23. Klasifikátor syntaktické složitosti (syntax nebo z)

Identifikuje syntaktickou složitost jako číselnou hodnotu (0-100).

Formát:

Příklady:

24. Klasifikátor data zahájení (start nebo 0)

Identifikuje datum zahájení používání jazyka (formát ISO 8601 bez interpunkce).

Formát:

Formáty data:

Příklady:

25. Klasifikátor data ukončení (end nebo 1)

Identifikuje datum ukončení používání jazyka (formát ISO 8601 bez interpunkce).

Formát:

Formáty data:

Příklady:

26. Klasifikátor tabu (taboo nebo j)

Identifikuje úroveň tabu, vulgárního nebo urážlivého obsahu.

Formát:

Příklady:

27. Klasifikátor spolehlivosti (conf nebo c)

Označuje skóre spolehlivosti pro bezprostředně předcházející klasifikátor.

Formát:

Speciální chování:

Příklady:

Vícenásobné klasifikace

LVTag podporuje více klasifikátorů v jedné značce pro poskytnutí přesné identifikace jazyka. Dlouhé a krátké formy lze kombinovat:

ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

Výše uvedené příklady ukazují korejštinu s neformální formálností (4), ale zdvořilou řečí (2) v obchodním kontextu.

Platné hodnoty

Poznámka: Všechny hodnoty musí mít 8 znaků nebo méně, aby splňovaly omezení délky podznačky BCP 47. Zatímco specifické hodnoty pro mnoho klasifikátorů mají být stanoveny prostřednictvím odborného použití a konsensu komunity, numerické stupnice, formáty dat a základní hodnoty uvedené níže jsou definovány v tomto standardu.

Stupnice formálnosti (Univerzální)

Úroveň Popis Příklady
1 Nejformálnější Právní dokumenty, oficiální ceremonie, akademické práce
2 Formální Obchodní dopisy, zpravodajské články, prezentace
3 Neutrální Standardní konverzace, e-mail, obecné psaní
4 Neformální Běžná konverzace, osobní blogy, textové zprávy
5 Nejběžnější Slang, intimní konverzace, sociální média

Stupnice zdvořilosti (Univerzální)

Úroveň Popis Příklady
1 Nejuctivější Královské oslovení, náboženští vůdci, respekt k starším
2 Velmi zdvořilé Zákaznický servis, formální schůzky, učitelé
3 Zdvořilé/neutrální Standardní interakce, kolegové
4 Důvěrné Přátelé, vrstevníci, běžní známí
5 Intimní/prosté Blízká rodina, intimní partneři

Stupnice odbornosti (Univerzální)

Úroveň Popis
0 Žádné znalosti
1-2 Začátečník
3-4 Středně pokročilý
5-6 Pokročilý
7-8 Expert
9-10 Mistr/Autorita

Stupnice tabu (Univerzální)

Úroveň Popis
0 Žádný tabu obsah
1 Mírné tabu
2 Lehké tabu
3 Střední tabu
4 Vysoké tabu
5 Extrémní tabu

Stupnice lexikální hustoty (Univerzální)

Úroveň Popis
0-20 Velmi nízká hustota
21-40 Nízká hustota
41-60 Střední hustota
61-80 Vysoká hustota
81-100 Velmi vysoká hustota

Stupnice syntaktické složitosti (Univerzální)

Úroveň Popis
0-20 Velmi jednoduchá
21-40 Jednoduchá
41-60 Střední složitost
61-80 Složitá
81-100 Velmi složitá

Doménové hodnoty

Hodnota Popis
legal Právní terminologie
med Lékařská terminologie
tech Technická/IT
business Obchodní/firemní
fin Finance/bankovnictví
acad Akademická/vědecká
sci Vědecká/výzkumná

Příklady implementace

Jeden klasifikátor (Dlouhá forma)

# Nejformálnější korejština
ko-x-form-1

# Velmi zdvořilá japonština
ja-x-polite-2

# Právnická angličtina
en-x-domain-legal

# Korejština z Kjongsangu
ko-x-geo-gyeong

# Praindoevropština
x-proto-ine

Jeden klasifikátor (Krátká forma)

# Nejformálnější korejština
ko-x-f-1

# Velmi zdvořilá japonština
ja-x-p-2

# Právnická angličtina
en-x-d-legal

# Korejština z Kjongsangu
ko-x-g-gyeong

# Praindoevropština
x-a-ine

Vícenásobné klasifikátory

# Neformální, ale zdvořilý korejský obchodní jazyk
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

# Formální a uctivý japonský lékařský jazyk
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med

# Jižní vietnamština s neutrální formálností, zdvořilou řečí, technickou doménou
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech

# Složitá klasifikace s více dimenzemi
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written

# Jazykové variety ukazující rozdíl mezi formálností a zdvořilostí
ko-x-f-5-p-2  # Velmi běžná, ale zdvořilá (ke staršímu příteli)
ko-x-f-1-p-4  # Velmi formální, ale důvěrná (psaná vrstevníkovi)
ja-x-f-4-p-1  # Běžná formálnost, ale nejvyšší respekt
en-x-f-5-j-4  # Velmi běžná angličtina s vysokou úrovní tabu

Případy použití

  1. Aplikace pro výuku jazyků
    • Učit vhodný registr pro různé sociální kontexty
    • Poskytovat doménově specifické slovní zásoby
  2. Strojový překlad
    • Udržovat konzistenci registru v překladech
    • Aplikovat doménově specifickou terminologii
  3. Klasifikace obsahu
    • Automaticky kategorizovat text podle formálnosti a domény
    • Směrovat obsah k příslušným recenzentům nebo systémům
  4. Korpusová lingvistika
    • Vytvářet označené korpusy pro lingvistický výzkum
    • Studovat variace registru a domény

Validační pravidla

  1. Délka podznačky: Každá podznačka po x- musí mít 8 znaků nebo méně
  2. Pořadí: Klasifikátory se mohou objevit v libovolném pořadí po x-
  3. Jedinečnost: Každý typ klasifikátoru by se měl objevit pouze jednou na značku (kromě conf, který se může objevit vícekrát)
  4. Velikost písmen: Značky by měly být malými písmeny (podle BCP 47 nezáleží na velikosti písmen)
  5. Magické značky: Krátké formy značek jsou jednoznakové; q, 3-9 jsou rezervovány pro budoucí použití
  6. Míchání: Dlouhé a krátké formy lze kombinovat v rámci stejné značky
  7. Proto značky: Musí začínat x- a MĚLY BY používat ISO 639-5 kódy, pokud jsou k dispozici (např. x-proto-sla, ne x-proto-slavic)
  8. Spolehlivost: Klasifikátor conf/c se vztahuje na bezprostředně předcházející klasifikátor
  9. Číselné hodnoty: Musí být v definovaných rozmezích (0-5 pro tabu, 0-10 pro odbornost, 0-100 pro procentuální hodnoty)
  10. Formát data: Data používají ISO 8601 bez interpunkce (YYYY, YYYYMM nebo YYYYMMDD)

Kompatibilita

Formát LVTag je plně kompatibilní s:

Výhody

  1. Přesnost: Umožňuje jemnozrnnou identifikaci jazykových variet
  2. Rozšiřitelnost: Lze přidat nové registry a domény
  3. Založeno na standardech: Postaveno na zavedeném mechanismu BCP 47 pro soukromé použití
  4. Strojově čitelné: Systematický formát umožňuje automatizované zpracování
  5. Lidsky čitelné: Jasné, popisné podznačky
  6. Flexibilita: Podpora pro podrobné dlouhé a stručné krátké formy značek
  7. Stručnost: Krátké magické značky umožňují kompaktní reprezentaci při zachování jasnosti

Budoucí rozšíření

LVTag je navržen tak, aby se vyvíjel s potřebami komunity jazykových technologií. Vítáme návrhy na nové klasifikátory, vylepšení stávajících a zpětnou vazbu z reálných implementací.

Chcete-li navrhnout rozšíření nebo přispět ke specifikaci:

Rezervované jednoznakové kódy (q, 3-9) jsou k dispozici pro budoucí standardizovaná rozšíření.

Reference


Licence a patentové udělení

Tato specifikace je vydána pod CC0 1.0 Universal (Public Domain Dedication).

Proč CC0: Pro zajištění maximálního přijetí a svobody implementace je LVTag umístěn do veřejné domény. To znamená:

Patentové udělení: Jakékoli patenty pokrývající specifikaci LVTag jsou tímto licencovány bez licenčních poplatků pro jakoukoli implementaci, která vyhovuje této specifikaci.

Žádné schválení: Použití LVTag neznamená schválení autory specifikace.

V rozsahu povoleném zákonem se Danslav Slavenskoj vzdal všech autorských práv a souvisejících nebo sousedních práv ke specifikaci formátu Language Variant Tag (LVTag). Toto dílo je publikováno z: Spojené státy americké.