Specyfikacja LVTag
Wersja 1.0
Stworzony przez Danslava Slavenskoja
Data: Maj 2025
Języki: 中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски
Szybkie linki
- Schemat JSON - Pełny schemat walidacji dla formatu LVTag
 - Definicje klasyfikatorów - Specyfikacje klasyfikatorów czytelne maszynowo
 - Specyfikacja - Przejdź do szczegółów formatu
 - Przykłady - Zobacz LVTag w akcji
 
Przegląd
Format Language Variant Tag (LVTag) to systematyczne podejście do klasyfikacji języków, które rozszerza standard BCP 47 przy użyciu podetykiet prywatnego użytku. Umożliwia precyzyjną identyfikację odmian językowych w wielu wymiarach, w tym formalności, grzeczności, domeny i ortografii.
Kluczowe korzyści
Rygor klasyfikacji: LVTag wprowadza systematyczną organizację do tagowania języków, zapewniając jasne, oddzielone wymiary dla różnych typów wariacji. W przeciwieństwie do istniejących podetykiet i systemów, które mieszają różne kategorie na tym samym poziomie, LVTag utrzymuje ścisłe rozdzielenie między formalnością, grzecznością, domeną i innymi wymiarami.
Zgodność ze standardami: LVTag jest w pełni kompatybilny z BCP 47 (RFC 5646) i bezproblemowo współpracuje z:
- Rejestrem podetykiet języków IANA
 - Kodami języków ISO 639
 - Unicode CLDR
 - Tagami językowymi W3C
 - Nagłówkami HTTP Accept-Language
 - Atrybutami lang XML
 - Atrybutami lang HTML
 
Integracja technologiczna: Tagi LVTag mogą być używane bezpośrednio w:
- Potokach przetwarzania języka naturalnego (NLP)
 - Systemach tłumaczenia maszynowego
 - Systemach zarządzania treścią (CMS)
 - Bibliotekach wykrywania języka
 - Wyszukiwarkach i systemach wyszukiwania informacji
 - Aplikacjach webowych i API
 - Przepływach pracy lokalizacji
 
Przypadki użycia:
- Targetowanie odbiorców: Dopasowanie treści do odpowiednich odbiorców na podstawie rejestru i domeny
 - Jakość tłumaczenia: Utrzymanie odpowiednich poziomów formalności i grzeczności w tłumaczeniu maszynowym
 - Nauka języków: Nauczanie uczniów odpowiedniego rejestru dla różnych kontekstów
 - Lingwistyka korpusowa: Budowanie precyzyjnie oznaczonych korpusów do badań
 - Analiza mediów społecznościowych: Klasyfikowanie treści generowanych przez użytkowników według rejestru i domeny
 - Obsługa klienta: Kierowanie wiadomości na podstawie formalności i domeny do odpowiednich agentów
 
Uzasadnienie
Podczas gdy BCP 47 zapewnia doskonałe wsparcie dla identyfikacji języków, skryptów i regionów, brakuje mu znormalizowanych mechanizmów do uchwycenia wariacji socjolingwistycznej w obrębie języka. Obecne standardy nie uwzględniają:
- Wariacji rejestru: Brak sposobu na rozróżnienie między formalnymi i nieformalnymi odmianami tego samego języka
 - Poziomów grzeczności: Krytyczne dla języków takich jak japoński, koreański i tajski, gdzie grzeczność jest zakodowana gramatycznie
 - Języka specyficznego dla domeny: Brak standardu oznaczania technicznej, medycznej lub prawnej odmiany języka
 - Socjolektów: Brak mechanizmu identyfikowania odmian grup społecznych (język młodzieżowy, żargon zawodowy)
 - Etapów historycznych: Ograniczone wsparcie dla rozróżnienia form klasycznych od współczesnych
 - Gradientów formalności: Brak skali numerycznej do komputerowego przetwarzania rejestru
 - Prajęzyków: Niespójne kodowanie - niektóre prajęzyki mają kody ISO (np. 
inedla PIE), podczas gdy inne nie, a kody rodzin ISO 639-5 nie są ważne w tagach BCP 47, tworząc mylący krajobraz dla lingwistyki historycznej - Wariacji ortograficznej: Chociaż BCP 47 obsługuje skrypty, nie wychwytuje skutecznie wariacji w obrębie skryptów (reformy ortograficzne, systemy romanizacji, konkurujące standardy), które fundamentalnie wpływają na przetwarzanie tekstu, wyszukiwanie i sprawdzanie pisowni
 
LVTag wypełnia te luki, wykorzystując mechanizm rozszerzenia prywatnego użytku BCP 47 (-x-), zapewniając systematyczny, czytelny maszynowo sposób kodowania tych krytycznych wymiarów wariacji językowej przy zachowaniu pełnej kompatybilności wstecznej.
Precyzyjna klasyfikacja językowa
Pojawienie się dużych modeli językowych i wyrafinowanych narzędzi NLP sprawiło, że precyzyjna klasyfikacja odmian językowych stała się nie tylko użyteczna, ale niezbędna. Nowoczesne systemy muszą:
- Generować tekst odpowiedni do konkretnych kontekstów (formalny vs. nieformalny, grzeczny vs. swobodny)
 - Trenować na prawidłowo sklasyfikowanych korpusach, aby uniknąć niewłaściwego mieszania rejestrów
 - Zapewniać kulturowo i kontekstowo odpowiednie odpowiedzi
 - Dokładnie obsługiwać przełączanie kodów i mieszaną treść językową
 - Zachowywać spójność stylistyczną podczas tłumaczenia lub transformacji tekstu
 - Filtrować dane treningowe na podstawie formalności, domeny lub innych cech
 - Dostosowywać wyjście do preferencji lub wymagań użytkownika
 
LVTag zapewnia szczegółowe metadane potrzebne do zrozumienia nie tylko jakiego języka się używa, ale jak się go używa, umożliwiając bardziej zniuansowane i odpowiednie potoki przetwarzania języka.
Specyfikacja formatu
Podstawowa struktura
language-x-[classifier]-[value]-[classifier2]-[value2]...
Gdzie:
languageto ważna podetykieta głównego języka BCP 47 (np.en,ko,ja)xwskazuje początek podetykiet prywatnego użytkuclassifierto identyfikator kategorii (zobacz Magiczne tagi poniżej)valueto konkretna klasyfikacja w ramach tej kategorii
Magiczne tagi
LVTag obsługuje zarówno długie, jak i krótkie “magiczne” klasyfikatory dla elastyczności:
| Forma długa | Forma krótka | Opis | 
|---|---|---|
ortho | 
      w | 
      Wariant ortograficzny | 
form | 
      f | 
      Poziom formalności (skala 1-5) | 
polite | 
      p | 
      Poziom grzeczności/szacunku (skala 1-5) | 
domain | 
      d | 
      Specjalistyczne słownictwo lub kontekst zawodowy | 
geo | 
      g | 
      Odmiana geograficzna lub regionalna | 
proto | 
      a | 
      Prajęzyk lub język zrekonstruowany | 
hist | 
      h | 
      Okres historyczny lub etap języka | 
genre | 
      e | 
      Gatunek tekstowy lub styl literacki | 
medium | 
      m | 
      Medium komunikacyjne (mówione, pisane, cyfrowe) | 
socio | 
      s | 
      Socjolekt lub odmiana grupy społecznej | 
modality | 
      o | 
      Tryb produkcji językowej | 
register | 
      r | 
      Rejestr językowy | 
pragma | 
      u | 
      Funkcja komunikacyjna | 
temporal | 
      t | 
      Oznaczenie czasowe | 
evidence | 
      v | 
      Źródło informacji | 
affect | 
      k | 
      Ton emocjonalny | 
age | 
      n | 
      Odmiana wiekowa/pokoleniowa | 
gender | 
      i | 
      Odmiana płciowa | 
expert | 
      b | 
      Poziom ekspertyzy | 
interact | 
      2 | 
      Struktura interakcyjna | 
prosody | 
      y | 
      Cechy prozodyczne | 
lexical | 
      l | 
      Gęstość leksykalna (0-100) | 
syntax | 
      z | 
      Złożoność składniowa (0-100) | 
start | 
      0 | 
      Data rozpoczęcia (ISO 8601 bez interpunkcji) | 
end | 
      1 | 
      Data zakończenia (ISO 8601 bez interpunkcji) | 
taboo | 
      j | 
      Poziom treści tabu/wulgarnych (skala 0-5) | 
conf | 
      c | 
      Wynik pewności (0-100) dla poprzedniego tagu | 
| — | q, 3-9 | 
      Zarezerwowane do przyszłego użytku | 
Klasyfikatory
1. Klasyfikator ortograficzny (ortho lub w)
Identyfikuje konkretne konwencje ortograficzne lub warianty systemu pisma wykraczające poza standardowe tagi skryptów.
Format:
- Długi: 
language-x-ortho-[variant] - Krótki: 
language-x-w-[variant] 
Przykłady (w połączeniu ze standardowymi tagami skryptów):
az-Latn-x-ortho-newlubaz-Latn-x-w-new- Azerski pismo łacińskie, nowa ortografiade-Latn-x-ortho-1901lubde-Latn-x-w-1901- Niemiecki pismo łacińskie, ortografia z 1901 rokuzh-Hans-x-ortho-pinyinlubzh-Hans-x-w-pinyin- Uproszczony chiński z pinyinyi-Hebr-x-ortho-yivolubyi-Hebr-x-w-yivo- Jidysz pismo hebrajskie, ortografia YIVO
2. Klasyfikator formalności (form lub f)
Identyfikuje poziom formalności użycia języka.
Format:
- Długi: 
language-x-form-[1-5] - Krótki: 
language-x-f-[1-5] 
Skala formalności:
- 1 = Najbardziej formalny (dokumenty pisemne, oficjalne przemówienia)
 - 2 = Formalny (spotkania biznesowe, pisanie akademickie)
 - 3 = Neutralny/standardowy (wiadomości, ogólna rozmowa)
 - 4 = Nieformalny (swobodna rozmowa, e-maile do przyjaciół)
 - 5 = Najbardziej swobodny (intymna rozmowa, slang)
 
Przykłady:
ko-x-form-1lubko-x-f-1- Najbardziej formalny koreańskien-x-form-3luben-x-f-3- Neutralny angielskija-x-form-5lubja-x-f-5- Najbardziej swobodny japoński
3. Klasyfikator grzeczności (polite lub p)
Identyfikuje poziom grzeczności/szacunku użycia języka.
Format:
- Długi: 
language-x-polite-[1-5] - Krótki: 
language-x-p-[1-5] 
Skala grzeczności:
- 1 = Najbardziej szanujący/uniżony (zwrot królewski, konteksty religijne)
 - 2 = Bardzo grzeczny (formalne honoryfikatywy, pełna szacunku mowa)
 - 3 = Grzeczny/neutralny (standardowa grzeczność)
 - 4 = Familiarny (między równymi, przyjaciółmi)
 - 5 = Intymny/prosty (rodzina, bardzo bliscy przyjaciele)
 
Przykłady:
ko-x-polite-1lubko-x-p-1- Koreański z najwyższym szacunkiemja-x-polite-2lubja-x-p-2- Bardzo grzeczny japońskith-x-polite-3lubth-x-p-3- Standardowo grzeczny tajski
4. Klasyfikator domeny (domain lub d)
Identyfikuje specjalistyczne słownictwo lub kontekst zawodowy.
Format:
- Długi: 
language-x-domain-[domain_type] - Krótki: 
language-x-d-[domain_type] 
Przykłady:
en-x-domain-legalluben-x-d-legal- Prawniczy angielskija-x-domain-medlubja-x-d-med- Medyczny japońskiko-x-domain-businesslubko-x-d-business- Biznesowy koreańskija-x-domain-techlubja-x-d-tech- Techniczny japońskien-x-domain-finluben-x-d-fin- Finansowy angielski
5. Klasyfikator geograficzny (geo lub g)
Identyfikuje regionalne lub geograficzne odmiany językowe.
Format:
- Długi: 
language-x-geo-[region] - Krótki: 
language-x-g-[region] 
Przykłady:
ko-x-geo-gyeonglubko-x-g-gyeong- Koreański z Gyeongsang (경상도)ko-x-geo-jeollalubko-x-g-jeolla- Koreański z Jeolla (전라도)es-x-geo-rioplalubes-x-g-riopla- Hiszpański rioplatensept-x-geo-nordestelubpt-x-g-nordeste- Portugalski z północno-wschodniej Brazylii
6. Klasyfikator proto (proto lub a)
Identyfikuje prajęzyki lub zrekonstruowane języki historyczne.
Format:
- Długi: 
x-proto-[iso639-5_code if available] - Krótki: 
x-a-[iso639-5_code if available] 
Zasady:
- MUSI używać kodów rodzin językowych ISO 639-5, gdy są dostępne
 - Używać identyfikatorów opisowych tylko wtedy, gdy nie istnieje kod ISO 639-5
 
Przykłady z kodami ISO 639-5:
x-proto-inelubx-a-ine- Praindoeuropejskix-proto-gemlubx-a-gem- Pragermańskix-proto-slalubx-a-sla- Prasłowiańskix-proto-semlubx-a-sem- Prasemickix-proto-cellubx-a-cel- Praceltyckix-proto-iralubx-a-ira- Prairańskix-proto-inclubx-a-inc- Praindoaryjskix-proto-batlubx-a-bat- Prabałtyckix-proto-roalubx-a-roa- Praromańskix-proto-trklubx-a-trk- Praturecki
Przykłady bez kodów ISO 639-5 (opisowe, więcej niż trzy znaki):
x-proto-baltslavlubx-a-baltslav- Prabałtosłowiański (brak kodu ISO 639-5)
Uwaga:
- Kody rodzin językowych (ISO 639-5) NIE są ważne jako standardowe główne tagi językowe BCP 47, dlatego zaimplementowaliśmy je używając x-proto
 - Są one ważne i preferowane w ramach rozszerzeń prywatnego użytku (po 
x-) - Dlatego wszystkie tagi prajęzykowe muszą zaczynać się od 
x-, aby były zgodne z BCP 47 
7. Klasyfikator historyczny (hist lub h)
Identyfikuje okresy historyczne lub etapy języka.
Format:
- Długi: 
language-x-hist-[period] - Krótki: 
language-x-h-[period] 
Przykłady:
en-x-hist-oldluben-x-h-old- Okres staroangielskien-x-hist-middleluben-x-h-middle- Okres średnioangielskija-x-hist-kobunlubja-x-h-kobun- Klasyczny japoński (古文)ko-x-hist-hunminlubko-x-h-hunmin- Średniokoreański (훈민정음 okres)el-x-hist-koinelubel-x-h-koine- Greka koine (Κοινή)sa-x-hist-vediclubsa-x-h-vedic- Sanskryt wedyjski (वैदिक)
8. Klasyfikator gatunku (genre lub e)
Identyfikuje gatunek tekstowy lub styl literacki.
Format:
- Długi: 
language-x-genre-[genre_type] - Krótki: 
language-x-e-[genre_type] 
Przykłady:
en-x-genre-newsluben-x-e-news- Angielski dziennikarskija-x-genre-mangalubja-x-e-manga- Japoński z mangi (漫画)ko-x-genre-webtoonlubko-x-e-webtoon- Koreański webtoon (웹툰)zh-x-genre-shilubzh-x-e-shi- Chińska poezja (詩)fr-x-genre-bdlubfr-x-e-bd- Francuski komiks (bande dessinée)de-x-genre-marchenlubde-x-e-marchen- Niemieckie bajki (Märchen)
9. Klasyfikator medium (medium lub m)
Identyfikuje medium komunikacyjne.
Format:
- Długi: 
language-x-medium-[medium_type] - Krótki: 
language-x-m-[medium_type] 
Przykłady:
en-x-medium-spokenluben-x-m-spoken- Angielski mówionyko-x-medium-digitallubko-x-m-digital- Koreański cyfrowy/onlineja-x-medium-writtenlubja-x-m-written- Japoński pisanyhi-x-medium-bcastlubhi-x-m-bcast- Hindi nadawanyzh-x-medium-smslubzh-x-m-sms- Chiński SMS/wiadomości tekstowe
10. Klasyfikator socjo (socio lub s)
Identyfikuje socjolekt lub odmiany grup społecznych.
Format:
- Długi: 
language-x-socio-[social_group] - Krótki: 
language-x-s-[social_group] 
Przykłady:
en-x-socio-academicluben-x-s-academic- Socjolekt akademickien-x-socio-urbanluben-x-s-urban- Socjolekt miejskies-x-socio-juvenillubes-x-s-juvenil- Hiszpański socjolekt młodzieżowy (jerga juvenil)fr-x-socio-jeunelubfr-x-s-jeune- Francuski socjolekt młodzieżowyde-x-socio-jugendlubde-x-s-jugend- Niemiecki socjolekt młodzieżowy (Jugendsprache)ko-x-socio-onlinelubko-x-s-online- Koreański socjolekt internetowy
11. Klasyfikator modalności (modality lub o)
Identyfikuje podstawowy tryb produkcji językowej.
Format:
- Długi: 
language-x-modality-[mode] - Krótki: 
language-x-o-[mode] 
Przykłady:
en-x-modality-spokenluben-x-o-spoken- Angielski mówionyen-x-modality-writtenluben-x-o-written- Angielski pisanyasl-x-modality-signedlubasl-x-o-signed- Amerykański język migowyen-x-modality-multiluben-x-o-multi- Angielski multimodalny (mowa + gesty)fr-x-modality-tactilelubfr-x-o-tactile- Francuski dotykowy (dla głuchoniewidomych)
12. Klasyfikator rejestru (register lub r)
Identyfikuje rejestr językowy lub funkcjonalną odmianę użycia języka.
Format:
- Długi: 
language-x-register-[register_type] - Krótki: 
language-x-r-[register_type] 
Przykłady:
en-x-register-frozenluben-x-r-frozen- Rejestr zamrożony (modlitwy, przysięgi)en-x-register-formalluben-x-r-formal- Rejestr formalny (prace akademickie)en-x-register-consultluben-x-r-consult- Rejestr konsultacyjny (zawodowy)en-x-register-casualluben-x-r-casual- Rejestr swobodny (przyjaciele)en-x-register-intimateluben-x-r-intimate- Rejestr intymny (rodzina)
13. Klasyfikator funkcji pragmatycznej (pragma lub u)
Identyfikuje funkcję komunikacyjną lub akt mowy.
Format:
- Długi: 
language-x-pragma-[function] - Krótki: 
language-x-u-[function] 
Przykłady:
en-x-pragma-requestluben-x-u-request- Funkcja prośbyja-x-pragma-apologylubja-x-u-apology- Funkcja przeprosines-x-pragma-complmntlubes-x-u-complmnt- Funkcja komplementuar-x-pragma-greetinglubar-x-u-greeting- Funkcja powitaniazh-x-pragma-refusallubzh-x-u-refusal- Funkcja odmowy
14. Klasyfikator oznaczenia czasowego (temporal lub t)
Identyfikuje aspekty czasowe lub wzorce użycia czasu.
Format:
- Długi: 
language-x-temporal-[aspect] - Krótki: 
language-x-t-[aspect] 
Przykłady:
en-x-temporal-pastluben-x-t-past- Dyskurs zorientowany na przeszłośćja-x-temporal-nonpastlubja-x-t-nonpast- Fokus na nie-przeszłośćid-x-temporal-atemprllubid-x-t-atemprl- Ponadczasowy/atemporalnyfr-x-temporal-futurelubfr-x-t-future- Zorientowany na przyszłośćzh-x-temporal-aspectlubzh-x-t-aspect- Fokus aspektowy
15. Klasyfikator ewidencjalności (evidence lub v)
Identyfikuje oznaczenie źródła informacji.
Format:
- Długi: 
language-x-evidence-[source] - Krótki: 
language-x-v-[source] 
Przykłady:
qu-x-evidence-directlubqu-x-v-direct- Bezpośredni świadektr-x-evidence-hearsaylubtr-x-v-hearsay- Z drugiej ręki/zgłoszoneja-x-evidence-inferlubja-x-v-infer- Inferencyjnyen-x-evidence-assumeluben-x-v-assume- Założonyde-x-evidence-quotelubde-x-v-quote- Cytatywny
16. Klasyfikator afektu/emocji (affect lub k)
Identyfikuje ton emocjonalny lub afekt.
Format:
- Długi: 
language-x-affect-[emotion] - Krótki: 
language-x-k-[emotion] 
Przykłady:
en-x-affect-angryluben-x-k-angry- Gniewny tonja-x-affect-humblelubja-x-k-humble- Pokorny afektes-x-affect-joyfullubes-x-k-joyful- Radosny wyrazko-x-affect-sadlubko-x-k-sad- Smutny/melancholijnyfr-x-affect-neutrallubfr-x-k-neutral- Neutralny afekt
17. Klasyfikator wieku/pokolenia (age lub n)
Identyfikuje odmiany językowe związane z wiekiem lub pokoleniem.
Format:
- Długi: 
language-x-age-[generation] - Krótki: 
language-x-n-[generation] 
Przykłady:
en-x-age-childluben-x-n-child- Mowa dziecięcaja-x-age-teenlubja-x-n-teen- Język nastolatkówko-x-age-elderlubko-x-n-elder- Mowa starszyches-x-age-genzlubes-x-n-genz- Pokolenie Zzh-x-age-millenllubzh-x-n-millenl- Mowa milenialsów
18. Klasyfikator płci (gender lub i)
Identyfikuje odmiany językowe związane z płcią.
Format:
- Długi: 
language-x-gender-[identity] - Krótki: 
language-x-i-[identity] 
19. Klasyfikator poziomu ekspertyzy (expert lub b)
Identyfikuje poziom ekspertyzy domenowej w skali 0-10.
Format:
- Długi: 
language-x-expert-[0-10] - Krótki: 
language-x-b-[0-10] 
Skala ekspertyzy:
- 0 = Brak wiedzy
 - 1-2 = Początkujący
 - 3-4 = Średniozaawansowany
 - 5-6 = Zaawansowany
 - 7-8 = Ekspert
 - 9-10 = Mistrz/Autorytet
 
Przykłady:
en-x-expert-0luben-x-b-0- Brak ekspertyzyde-x-expert-3lubde-x-b-3- Poziom średniozaawansowanyja-x-expert-7lubja-x-b-7- Poziom ekspertaes-x-expert-9lubes-x-b-9- Poziom mistrzazh-x-expert-5lubzh-x-b-5- Poziom zaawansowany
20. Klasyfikator struktury interakcyjnej (interact lub 2)
Identyfikuje wzorce konwersacyjne lub interakcyjne.
Format:
- Długi: 
language-x-interact-[structure] - Krótki: 
language-x-2-[structure] 
Przykłady:
en-x-interact-turnluben-x-2-turn- Naprzemienne wypowiedzija-x-interact-overlaplubja-x-2-overlap- Nakładające się wypowiedzies-x-interact-monologlubes-x-2-monolog- Monologicznyar-x-interact-dialoglubar-x-2-dialog- Dialogicznyzh-x-interact-multilubzh-x-2-multi- Wielostronny
21. Klasyfikator cech prozodycznych (prosody lub y)
Identyfikuje cechy prozodyczne lub suprasegmentalne.
Format:
- Długi: 
language-x-prosody-[feature] - Krótki: 
language-x-y-[feature] 
Przykłady:
en-x-prosody-stressluben-x-y-stress- Akcent wyrazowyja-x-prosody-pitchlubja-x-y-pitch- Akcent tonicznyfr-x-prosody-syllablelubfr-x-y-syllable- Rytm sylabicznyzh-x-prosody-tonelubzh-x-y-tone- Wzorce tonalnees-x-prosody-rhythmlubes-x-y-rhythm- Wzorce rytmiczne
22. Klasyfikator gęstości leksykalnej (lexical lub l)
Identyfikuje gęstość leksykalną jako wartość numeryczną (0-100).
Format:
- Długi: 
language-x-lexical-[0-100] - Krótki: 
language-x-l-[0-100] 
Przykłady:
en-x-lexical-20luben-x-l-20- Niska gęstość (20%)de-x-lexical-55lubde-x-l-55- Średnia gęstość (55%)ja-x-lexical-75lubja-x-l-75- Wysoka gęstość (75%)es-x-lexical-40lubes-x-l-40- Umiarkowana gęstość (40%)zh-x-lexical-85lubzh-x-l-85- Bardzo wysoka gęstość (85%)
23. Klasyfikator złożoności składniowej (syntax lub z)
Identyfikuje złożoność składniową jako wartość numeryczną (0-100).
Format:
- Długi: 
language-x-syntax-[0-100] - Krótki: 
language-x-z-[0-100] 
Przykłady:
en-x-syntax-15luben-x-z-15- Prosta składnia (15%)de-x-syntax-70lubde-x-z-70- Złożona składnia (70%)ja-x-syntax-45lubja-x-z-45- Umiarkowana złożoność (45%)es-x-syntax-30lubes-x-z-30- Niska złożoność (30%)zh-x-syntax-60lubzh-x-z-60- Wysoka złożoność (60%)
24. Klasyfikator daty rozpoczęcia (start lub 0)
Identyfikuje datę rozpoczęcia użycia języka (format ISO 8601 bez interpunkcji).
Format:
- Długi: 
language-x-start-[YYYYMMDD] - Krótki: 
language-x-0-[YYYYMMDD] 
Formaty dat:
- Pełna data: YYYYMMDD
 - Rok-miesiąc: YYYYMM
 - Tylko rok: YYYY
 
Przykłady:
en-x-start-20240315luben-x-0-20240315- Angielski zaczynający się 15 marca 2024ja-x-start-19890108lubja-x-0-19890108- Japoński zaczynający się 8 stycznia 1989es-x-start-202403lubes-x-0-202403- Hiszpański zaczynający się w marcu 2024
25. Klasyfikator daty zakończenia (end lub 1)
Identyfikuje datę zakończenia użycia języka (format ISO 8601 bez interpunkcji).
Format:
- Długi: 
language-x-end-[YYYYMMDD] - Krótki: 
language-x-1-[YYYYMMDD] 
Formaty dat:
- Pełna data: YYYYMMDD
 - Rok-miesiąc: YYYYMM
 - Tylko rok: YYYY
 
Przykłady:
en-x-end-20240415luben-x-1-20240415- Angielski kończący się 15 kwietnia 2024ja-x-end-20190430lubja-x-1-20190430- Japoński kończący się 30 kwietnia 2019es-x-end-202412lubes-x-1-202412- Hiszpański kończący się w grudniu 2024
26. Klasyfikator tabu (taboo lub j)
Identyfikuje poziom treści tabu, wulgarnych lub obraźliwych.
Format:
- Długi: 
language-x-taboo-[0-5] - Krótki: 
language-x-j-[0-5] 
Przykłady:
en-x-taboo-0luben-x-j-0- Brak treści tabuen-x-taboo-3luben-x-j-3- Umiarkowany poziom tabuja-x-form-5-taboo-4lubja-x-f-5-j-4- Bardzo swobodny japoński z wysokim poziomem tabu
27. Klasyfikator pewności (conf lub c)
Wskazuje wynik pewności dla bezpośrednio poprzedzającego klasyfikatora.
Format:
- Długi: 
language-x-[classifier]-[value]-conf-[0-100] - Krótki: 
language-x-[classifier]-[value]-c-[0-100] 
Specjalne zachowanie:
- Wynik pewności dotyczy klasyfikatora bezpośrednio go poprzedzającego
 - Wiele wyników pewności może być użytych dla różnych klasyfikatorów
 - Jeśli nie ma poprzedzającego klasyfikatora, pewność dotyczy podstawowego tagu językowego
 
Przykłady:
en-x-form-3-conf-95luben-x-f-3-c-95- Neutralna formalność z 95% pewnościąko-x-polite-2-conf-80-domain-med-conf-60lubko-x-p-2-c-80-d-med-c-60- Bardzo grzeczny (80% pewności) medyczny koreański (60% pewności)ja-x-hist-kobun-conf-100lubja-x-h-kobun-c-100- Klasyczny japoński ze 100% pewnościąx-proto-ine-conf-75lubx-a-ine-c-75- Praindoeuropejski z 75% pewnością
Wielokrotne klasyfikacje
LVTag obsługuje wiele klasyfikatorów w jednym tagu, aby zapewnić precyzyjną identyfikację języka. Formy długie i krótkie mogą być mieszane:
ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
Powyższe przykłady pokazują koreański z nieformalną formalnością (4), ale grzeczną mową (2) w kontekście biznesowym.
Prawidłowe wartości
Uwaga: Wszystkie wartości muszą mieć 8 znaków lub mniej, aby spełnić ograniczenia długości podetykiet BCP 47. Podczas gdy konkretne wartości dla wielu klasyfikatorów powinny być ustalone przez eksperckie użycie i konsensus społeczności, skale numeryczne, formaty dat i podstawowe wartości wymienione poniżej są zdefiniowane w tym standardzie.
Skala formalności (Uniwersalna)
| Poziom | Opis | Przykłady | 
|---|---|---|
| 1 | Najbardziej formalny | Dokumenty prawne, oficjalne ceremonie, prace akademickie | 
| 2 | Formalny | Listy biznesowe, artykuły prasowe, prezentacje | 
| 3 | Neutralny | Standardowa rozmowa, e-mail, ogólne pisanie | 
| 4 | Nieformalny | Swobodna rozmowa, osobiste blogi, wiadomości tekstowe | 
| 5 | Najbardziej swobodny | Slang, intymna rozmowa, media społecznościowe | 
Skala grzeczności (Uniwersalna)
| Poziom | Opis | Przykłady | 
|---|---|---|
| 1 | Najbardziej szanujący | Zwrot królewski, przywódcy religijni, szacunek dla starszych | 
| 2 | Bardzo grzeczny | Obsługa klienta, formalne spotkania, nauczyciele | 
| 3 | Grzeczny/neutralny | Standardowe interakcje, koledzy | 
| 4 | Familiarny | Przyjaciele, rówieśnicy, swobodni znajomi | 
| 5 | Intymny/prosty | Bliska rodzina, intymni partnerzy | 
Skala ekspertyzy (Uniwersalna)
| Poziom | Opis | 
|---|---|
| 0 | Brak wiedzy | 
| 1-2 | Początkujący | 
| 3-4 | Średniozaawansowany | 
| 5-6 | Zaawansowany | 
| 7-8 | Ekspert | 
| 9-10 | Mistrz/Autorytet | 
Skala tabu (Uniwersalna)
| Poziom | Opis | 
|---|---|
| 0 | Brak treści tabu | 
| 1 | Łagodne tabu | 
| 2 | Lekkie tabu | 
| 3 | Umiarkowane tabu | 
| 4 | Wysokie tabu | 
| 5 | Ekstremalne tabu | 
Skala gęstości leksykalnej (Uniwersalna)
| Poziom | Opis | 
|---|---|
| 0-20 | Bardzo niska gęstość | 
| 21-40 | Niska gęstość | 
| 41-60 | Umiarkowana gęstość | 
| 61-80 | Wysoka gęstość | 
| 81-100 | Bardzo wysoka gęstość | 
Skala złożoności składniowej (Uniwersalna)
| Poziom | Opis | 
|---|---|
| 0-20 | Bardzo prosta | 
| 21-40 | Prosta | 
| 41-60 | Umiarkowana złożoność | 
| 61-80 | Złożona | 
| 81-100 | Bardzo złożona | 
Wartości domeny
| Wartość | Opis | 
|---|---|
legal | 
      Terminologia prawna | 
med | 
      Terminologia medyczna | 
tech | 
      Techniczny/IT | 
business | 
      Biznes/korporacyjny | 
fin | 
      Finanse/bankowość | 
acad | 
      Akademicki/naukowy | 
sci | 
      Nauka/badania | 
Przykłady implementacji
Pojedynczy klasyfikator (Forma długa)
# Najbardziej formalny koreański
ko-x-form-1
# Bardzo grzeczny japoński
ja-x-polite-2
# Prawniczy angielski
en-x-domain-legal
# Koreański z Gyeongsang
ko-x-geo-gyeong
# Praindoeuropejski
x-proto-ine
Pojedynczy klasyfikator (Forma krótka)
# Najbardziej formalny koreański
ko-x-f-1
# Bardzo grzeczny japoński
ja-x-p-2
# Prawniczy angielski
en-x-d-legal
# Koreański z Gyeongsang
ko-x-g-gyeong
# Praindoeuropejski
x-a-ine
Wielokrotne klasyfikatory
# Nieformalny ale grzeczny koreański język biznesowy
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
# Formalny i pełen szacunku japoński język medyczny
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med
# Południowy wietnamski z neutralną formalnością, grzeczną mową, domeną techniczną
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech
# Złożona klasyfikacja z wieloma wymiarami
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written
# Odmiany językowe pokazujące rozróżnienie formalność/grzeczność
ko-x-f-5-p-2  # Bardzo swobodny ale grzeczny (do starszego przyjaciela)
ko-x-f-1-p-4  # Bardzo formalny ale familiarny (pisemnie do rówieśnika)
ja-x-f-4-p-1  # Swobodna formalność ale najwyższy szacunek
en-x-f-5-j-4  # Bardzo swobodny angielski z wysokim poziomem tabu
Przypadki użycia
- Aplikacje do nauki języków
    
- Nauczanie odpowiedniego rejestru dla różnych kontekstów społecznych
 - Zapewnianie treningu słownictwa specyficznego dla domeny
 
 - Tłumaczenie maszynowe
    
- Utrzymanie spójności rejestru w tłumaczeniach
 - Stosowanie terminologii specyficznej dla domeny
 
 - Klasyfikacja treści
    
- Automatyczne kategoryzowanie tekstu według formalności i domeny
 - Kierowanie treści do odpowiednich recenzentów lub systemów
 
 - Lingwistyka korpusowa
    
- Budowanie oznaczonych korpusów do badań językowych
 - Badanie wariacji rejestru i domeny
 
 
Zasady walidacji
- Długość podetykiety: Każda podetykieta po 
x-musi mieć 8 znaków lub mniej - Kolejność: Klasyfikatory mogą pojawiać się w dowolnej kolejności po 
x- - Unikalność: Każdy typ klasyfikatora powinien pojawiać się tylko raz na tag (z wyjątkiem 
conf, który może pojawiać się wielokrotnie) - Wielkość liter: Tagi powinny być małymi literami (bez rozróżnienia wielkości liter zgodnie z BCP 47)
 - Magiczne tagi: Krótkie tagi to pojedyncze znaki; 
q,3-9są zarezerwowane do przyszłego użytku - Mieszanie: Formy długie i krótkie mogą być mieszane w tym samym tagu
 - Tagi proto: Muszą zaczynać się od 
x-i POWINNY używać kodów ISO 639-5, gdy są dostępne (np.x-proto-slaniex-proto-slavic) - Pewność: Klasyfikator 
conf/cdotyczy bezpośrednio poprzedzającego klasyfikatora - Wartości numeryczne: Muszą mieścić się w zdefiniowanych zakresach (0-5 dla tabu, 0-10 dla ekspertyzy, 0-100 dla wartości procentowych)
 - Format daty: Daty używają ISO 8601 bez interpunkcji (YYYY, YYYYMM lub YYYYMMDD)
 
Kompatybilność
Format LVTag jest w pełni kompatybilny z:
- BCP 47 (RFC 5646)
 - Kodami języków ISO 639
 - Rejestrem podetykiet języków IANA
 - Unicode CLDR
 
Korzyści
- Precyzja: Umożliwia szczegółową identyfikację odmian językowych
 - Rozszerzalność: Można dodawać nowe rejestry i domeny
 - Oparty na standardach: Zbudowany na ustanowionym mechanizmie prywatnego użytku BCP 47
 - Czytelny maszynowo: Systematyczny format umożliwia automatyczne przetwarzanie
 - Czytelny dla człowieka: Jasne, opisowe podetykiety
 - Elastyczność: Obsługa zarówno szczegółowych długich, jak i zwięzłych krótkich tagów
 - Zwięzłość: Krótkie magiczne tagi umożliwiają kompaktową reprezentację przy zachowaniu jasności
 
Przyszłe rozszerzenia
LVTag jest zaprojektowany do ewoluowania wraz z potrzebami społeczności technologii językowych. Zapraszamy do zgłaszania sugestii dotyczących nowych klasyfikatorów, ulepszeń istniejących oraz opinii z rzeczywistych implementacji.
Aby zaproponować rozszerzenia lub przyczynić się do specyfikacji:
- Otwórz zgłoszenie na github.com/lvtag/spec
 - Dołącz do dyskusji na temat istniejących propozycji
 - Podziel się swoimi doświadczeniami z implementacji
 - Wyślij pull requesty z ulepszeniami dokumentacji
 
Zarezerwowane jednoznakowe kody (q, 3-9) są dostępne dla przyszłych znormalizowanych rozszerzeń.
Referencje
Licencja i udzielenie patentów
Ta specyfikacja jest publikowana na licencji CC0 1.0 Universal (Przekazanie do Domeny Publicznej).
Dlaczego CC0: Aby zapewnić maksymalną adopcję i swobodę implementacji, LVTag jest umieszczony w domenie publicznej. To oznacza:
- Nie jest wymagane pozwolenie na użycie, implementację lub modyfikację
 - Nie jest wymagane podanie źródła (choć jest doceniane)
 - Brak barier prawnych dla użytku komercyjnego lub rządowego
 - Kompatybilny ze wszystkimi licencjami oprogramowania
 - Używany przez główne standardy takie jak Unicode CLDR
 
Udzielenie patentów: Wszelkie patenty obejmujące specyfikację LVTag są niniejszym licencjonowane bez opłat dla każdej implementacji zgodnej z tą specyfikacją.
Brak poparcia: Używanie LVTag nie oznacza poparcia ze strony autorów specyfikacji.
W zakresie dozwolonym przez prawo, Danslav Slavenskoj zrzekł się wszystkich praw autorskich i powiązanych lub sąsiednich praw do Specyfikacji formatu Language Variant Tag (LVTag). Ta praca jest publikowana z: Stanów Zjednoczonych Ameryki.