
Specyfikacja LVTag
Wersja 1.0
Stworzony przez Danslava Slavenskoja
Data: Maj 2025
Języki: 中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски
Szybkie linki
- Schemat JSON - Pełny schemat walidacji dla formatu LVTag
- Definicje klasyfikatorów - Specyfikacje klasyfikatorów czytelne maszynowo
- Specyfikacja - Przejdź do szczegółów formatu
- Przykłady - Zobacz LVTag w akcji
Przegląd
Format Language Variant Tag (LVTag) to systematyczne podejście do klasyfikacji języków, które rozszerza standard BCP 47 przy użyciu podetykiet prywatnego użytku. Umożliwia precyzyjną identyfikację odmian językowych w wielu wymiarach, w tym formalności, grzeczności, domeny i ortografii.
Kluczowe korzyści
Rygor klasyfikacji: LVTag wprowadza systematyczną organizację do tagowania języków, zapewniając jasne, oddzielone wymiary dla różnych typów wariacji. W przeciwieństwie do istniejących podetykiet i systemów, które mieszają różne kategorie na tym samym poziomie, LVTag utrzymuje ścisłe rozdzielenie między formalnością, grzecznością, domeną i innymi wymiarami.
Zgodność ze standardami: LVTag jest w pełni kompatybilny z BCP 47 (RFC 5646) i bezproblemowo współpracuje z:
- Rejestrem podetykiet języków IANA
- Kodami języków ISO 639
- Unicode CLDR
- Tagami językowymi W3C
- Nagłówkami HTTP Accept-Language
- Atrybutami lang XML
- Atrybutami lang HTML
Integracja technologiczna: Tagi LVTag mogą być używane bezpośrednio w:
- Potokach przetwarzania języka naturalnego (NLP)
- Systemach tłumaczenia maszynowego
- Systemach zarządzania treścią (CMS)
- Bibliotekach wykrywania języka
- Wyszukiwarkach i systemach wyszukiwania informacji
- Aplikacjach webowych i API
- Przepływach pracy lokalizacji
Przypadki użycia:
- Targetowanie odbiorców: Dopasowanie treści do odpowiednich odbiorców na podstawie rejestru i domeny
- Jakość tłumaczenia: Utrzymanie odpowiednich poziomów formalności i grzeczności w tłumaczeniu maszynowym
- Nauka języków: Nauczanie uczniów odpowiedniego rejestru dla różnych kontekstów
- Lingwistyka korpusowa: Budowanie precyzyjnie oznaczonych korpusów do badań
- Analiza mediów społecznościowych: Klasyfikowanie treści generowanych przez użytkowników według rejestru i domeny
- Obsługa klienta: Kierowanie wiadomości na podstawie formalności i domeny do odpowiednich agentów
Uzasadnienie
Podczas gdy BCP 47 zapewnia doskonałe wsparcie dla identyfikacji języków, skryptów i regionów, brakuje mu znormalizowanych mechanizmów do uchwycenia wariacji socjolingwistycznej w obrębie języka. Obecne standardy nie uwzględniają:
- Wariacji rejestru: Brak sposobu na rozróżnienie między formalnymi i nieformalnymi odmianami tego samego języka
- Poziomów grzeczności: Krytyczne dla języków takich jak japoński, koreański i tajski, gdzie grzeczność jest zakodowana gramatycznie
- Języka specyficznego dla domeny: Brak standardu oznaczania technicznej, medycznej lub prawnej odmiany języka
- Socjolektów: Brak mechanizmu identyfikowania odmian grup społecznych (język młodzieżowy, żargon zawodowy)
- Etapów historycznych: Ograniczone wsparcie dla rozróżnienia form klasycznych od współczesnych
- Gradientów formalności: Brak skali numerycznej do komputerowego przetwarzania rejestru
- Prajęzyków: Niespójne kodowanie - niektóre prajęzyki mają kody ISO (np.
ine
dla PIE), podczas gdy inne nie, a kody rodzin ISO 639-5 nie są ważne w tagach BCP 47, tworząc mylący krajobraz dla lingwistyki historycznej - Wariacji ortograficznej: Chociaż BCP 47 obsługuje skrypty, nie wychwytuje skutecznie wariacji w obrębie skryptów (reformy ortograficzne, systemy romanizacji, konkurujące standardy), które fundamentalnie wpływają na przetwarzanie tekstu, wyszukiwanie i sprawdzanie pisowni
LVTag wypełnia te luki, wykorzystując mechanizm rozszerzenia prywatnego użytku BCP 47 (-x-
), zapewniając systematyczny, czytelny maszynowo sposób kodowania tych krytycznych wymiarów wariacji językowej przy zachowaniu pełnej kompatybilności wstecznej.
Precyzyjna klasyfikacja językowa
Pojawienie się dużych modeli językowych i wyrafinowanych narzędzi NLP sprawiło, że precyzyjna klasyfikacja odmian językowych stała się nie tylko użyteczna, ale niezbędna. Nowoczesne systemy muszą:
- Generować tekst odpowiedni do konkretnych kontekstów (formalny vs. nieformalny, grzeczny vs. swobodny)
- Trenować na prawidłowo sklasyfikowanych korpusach, aby uniknąć niewłaściwego mieszania rejestrów
- Zapewniać kulturowo i kontekstowo odpowiednie odpowiedzi
- Dokładnie obsługiwać przełączanie kodów i mieszaną treść językową
- Zachowywać spójność stylistyczną podczas tłumaczenia lub transformacji tekstu
- Filtrować dane treningowe na podstawie formalności, domeny lub innych cech
- Dostosowywać wyjście do preferencji lub wymagań użytkownika
LVTag zapewnia szczegółowe metadane potrzebne do zrozumienia nie tylko jakiego języka się używa, ale jak się go używa, umożliwiając bardziej zniuansowane i odpowiednie potoki przetwarzania języka.
Specyfikacja formatu
Podstawowa struktura
language-x-[classifier]-[value]-[classifier2]-[value2]...
Gdzie:
language
to ważna podetykieta głównego języka BCP 47 (np.en
,ko
,ja
)x
wskazuje początek podetykiet prywatnego użytkuclassifier
to identyfikator kategorii (zobacz Magiczne tagi poniżej)value
to konkretna klasyfikacja w ramach tej kategorii
Magiczne tagi
LVTag obsługuje zarówno długie, jak i krótkie “magiczne” klasyfikatory dla elastyczności:
Forma długa | Forma krótka | Opis |
---|---|---|
ortho |
w |
Wariant ortograficzny |
form |
f |
Poziom formalności (skala 1-5) |
polite |
p |
Poziom grzeczności/szacunku (skala 1-5) |
domain |
d |
Specjalistyczne słownictwo lub kontekst zawodowy |
geo |
g |
Odmiana geograficzna lub regionalna |
proto |
a |
Prajęzyk lub język zrekonstruowany |
hist |
h |
Okres historyczny lub etap języka |
genre |
e |
Gatunek tekstowy lub styl literacki |
medium |
m |
Medium komunikacyjne (mówione, pisane, cyfrowe) |
socio |
s |
Socjolekt lub odmiana grupy społecznej |
modality |
o |
Tryb produkcji językowej |
register |
r |
Rejestr językowy |
pragma |
u |
Funkcja komunikacyjna |
temporal |
t |
Oznaczenie czasowe |
evidence |
v |
Źródło informacji |
affect |
k |
Ton emocjonalny |
age |
n |
Odmiana wiekowa/pokoleniowa |
gender |
i |
Odmiana płciowa |
expert |
b |
Poziom ekspertyzy |
interact |
2 |
Struktura interakcyjna |
prosody |
y |
Cechy prozodyczne |
lexical |
l |
Gęstość leksykalna (0-100) |
syntax |
z |
Złożoność składniowa (0-100) |
start |
0 |
Data rozpoczęcia (ISO 8601 bez interpunkcji) |
end |
1 |
Data zakończenia (ISO 8601 bez interpunkcji) |
taboo |
j |
Poziom treści tabu/wulgarnych (skala 0-5) |
conf |
c |
Wynik pewności (0-100) dla poprzedniego tagu |
— | q , 3 -9 |
Zarezerwowane do przyszłego użytku |
Klasyfikatory
1. Klasyfikator ortograficzny (ortho
lub w
)
Identyfikuje konkretne konwencje ortograficzne lub warianty systemu pisma wykraczające poza standardowe tagi skryptów.
Format:
- Długi:
language-x-ortho-[variant]
- Krótki:
language-x-w-[variant]
Przykłady (w połączeniu ze standardowymi tagami skryptów):
az-Latn-x-ortho-new
lubaz-Latn-x-w-new
- Azerski pismo łacińskie, nowa ortografiade-Latn-x-ortho-1901
lubde-Latn-x-w-1901
- Niemiecki pismo łacińskie, ortografia z 1901 rokuzh-Hans-x-ortho-pinyin
lubzh-Hans-x-w-pinyin
- Uproszczony chiński z pinyinyi-Hebr-x-ortho-yivo
lubyi-Hebr-x-w-yivo
- Jidysz pismo hebrajskie, ortografia YIVO
2. Klasyfikator formalności (form
lub f
)
Identyfikuje poziom formalności użycia języka.
Format:
- Długi:
language-x-form-[1-5]
- Krótki:
language-x-f-[1-5]
Skala formalności:
- 1 = Najbardziej formalny (dokumenty pisemne, oficjalne przemówienia)
- 2 = Formalny (spotkania biznesowe, pisanie akademickie)
- 3 = Neutralny/standardowy (wiadomości, ogólna rozmowa)
- 4 = Nieformalny (swobodna rozmowa, e-maile do przyjaciół)
- 5 = Najbardziej swobodny (intymna rozmowa, slang)
Przykłady:
ko-x-form-1
lubko-x-f-1
- Najbardziej formalny koreańskien-x-form-3
luben-x-f-3
- Neutralny angielskija-x-form-5
lubja-x-f-5
- Najbardziej swobodny japoński
3. Klasyfikator grzeczności (polite
lub p
)
Identyfikuje poziom grzeczności/szacunku użycia języka.
Format:
- Długi:
language-x-polite-[1-5]
- Krótki:
language-x-p-[1-5]
Skala grzeczności:
- 1 = Najbardziej szanujący/uniżony (zwrot królewski, konteksty religijne)
- 2 = Bardzo grzeczny (formalne honoryfikatywy, pełna szacunku mowa)
- 3 = Grzeczny/neutralny (standardowa grzeczność)
- 4 = Familiarny (między równymi, przyjaciółmi)
- 5 = Intymny/prosty (rodzina, bardzo bliscy przyjaciele)
Przykłady:
ko-x-polite-1
lubko-x-p-1
- Koreański z najwyższym szacunkiemja-x-polite-2
lubja-x-p-2
- Bardzo grzeczny japońskith-x-polite-3
lubth-x-p-3
- Standardowo grzeczny tajski
4. Klasyfikator domeny (domain
lub d
)
Identyfikuje specjalistyczne słownictwo lub kontekst zawodowy.
Format:
- Długi:
language-x-domain-[domain_type]
- Krótki:
language-x-d-[domain_type]
Przykłady:
en-x-domain-legal
luben-x-d-legal
- Prawniczy angielskija-x-domain-med
lubja-x-d-med
- Medyczny japońskiko-x-domain-business
lubko-x-d-business
- Biznesowy koreańskija-x-domain-tech
lubja-x-d-tech
- Techniczny japońskien-x-domain-fin
luben-x-d-fin
- Finansowy angielski
5. Klasyfikator geograficzny (geo
lub g
)
Identyfikuje regionalne lub geograficzne odmiany językowe.
Format:
- Długi:
language-x-geo-[region]
- Krótki:
language-x-g-[region]
Przykłady:
ko-x-geo-gyeong
lubko-x-g-gyeong
- Koreański z Gyeongsang (경상도)ko-x-geo-jeolla
lubko-x-g-jeolla
- Koreański z Jeolla (전라도)es-x-geo-riopla
lubes-x-g-riopla
- Hiszpański rioplatensept-x-geo-nordeste
lubpt-x-g-nordeste
- Portugalski z północno-wschodniej Brazylii
6. Klasyfikator proto (proto
lub a
)
Identyfikuje prajęzyki lub zrekonstruowane języki historyczne.
Format:
- Długi:
x-proto-[iso639-5_code if available]
- Krótki:
x-a-[iso639-5_code if available]
Zasady:
- MUSI używać kodów rodzin językowych ISO 639-5, gdy są dostępne
- Używać identyfikatorów opisowych tylko wtedy, gdy nie istnieje kod ISO 639-5
Przykłady z kodami ISO 639-5:
x-proto-ine
lubx-a-ine
- Praindoeuropejskix-proto-gem
lubx-a-gem
- Pragermańskix-proto-sla
lubx-a-sla
- Prasłowiańskix-proto-sem
lubx-a-sem
- Prasemickix-proto-cel
lubx-a-cel
- Praceltyckix-proto-ira
lubx-a-ira
- Prairańskix-proto-inc
lubx-a-inc
- Praindoaryjskix-proto-bat
lubx-a-bat
- Prabałtyckix-proto-roa
lubx-a-roa
- Praromańskix-proto-trk
lubx-a-trk
- Praturecki
Przykłady bez kodów ISO 639-5 (opisowe, więcej niż trzy znaki):
x-proto-baltslav
lubx-a-baltslav
- Prabałtosłowiański (brak kodu ISO 639-5)
Uwaga:
- Kody rodzin językowych (ISO 639-5) NIE są ważne jako standardowe główne tagi językowe BCP 47, dlatego zaimplementowaliśmy je używając x-proto
- Są one ważne i preferowane w ramach rozszerzeń prywatnego użytku (po
x-
) - Dlatego wszystkie tagi prajęzykowe muszą zaczynać się od
x-
, aby były zgodne z BCP 47
7. Klasyfikator historyczny (hist
lub h
)
Identyfikuje okresy historyczne lub etapy języka.
Format:
- Długi:
language-x-hist-[period]
- Krótki:
language-x-h-[period]
Przykłady:
en-x-hist-old
luben-x-h-old
- Okres staroangielskien-x-hist-middle
luben-x-h-middle
- Okres średnioangielskija-x-hist-kobun
lubja-x-h-kobun
- Klasyczny japoński (古文)ko-x-hist-hunmin
lubko-x-h-hunmin
- Średniokoreański (훈민정음 okres)el-x-hist-koine
lubel-x-h-koine
- Greka koine (Κοινή)sa-x-hist-vedic
lubsa-x-h-vedic
- Sanskryt wedyjski (वैदिक)
8. Klasyfikator gatunku (genre
lub e
)
Identyfikuje gatunek tekstowy lub styl literacki.
Format:
- Długi:
language-x-genre-[genre_type]
- Krótki:
language-x-e-[genre_type]
Przykłady:
en-x-genre-news
luben-x-e-news
- Angielski dziennikarskija-x-genre-manga
lubja-x-e-manga
- Japoński z mangi (漫画)ko-x-genre-webtoon
lubko-x-e-webtoon
- Koreański webtoon (웹툰)zh-x-genre-shi
lubzh-x-e-shi
- Chińska poezja (詩)fr-x-genre-bd
lubfr-x-e-bd
- Francuski komiks (bande dessinée)de-x-genre-marchen
lubde-x-e-marchen
- Niemieckie bajki (Märchen)
9. Klasyfikator medium (medium
lub m
)
Identyfikuje medium komunikacyjne.
Format:
- Długi:
language-x-medium-[medium_type]
- Krótki:
language-x-m-[medium_type]
Przykłady:
en-x-medium-spoken
luben-x-m-spoken
- Angielski mówionyko-x-medium-digital
lubko-x-m-digital
- Koreański cyfrowy/onlineja-x-medium-written
lubja-x-m-written
- Japoński pisanyhi-x-medium-bcast
lubhi-x-m-bcast
- Hindi nadawanyzh-x-medium-sms
lubzh-x-m-sms
- Chiński SMS/wiadomości tekstowe
10. Klasyfikator socjo (socio
lub s
)
Identyfikuje socjolekt lub odmiany grup społecznych.
Format:
- Długi:
language-x-socio-[social_group]
- Krótki:
language-x-s-[social_group]
Przykłady:
en-x-socio-academic
luben-x-s-academic
- Socjolekt akademickien-x-socio-urban
luben-x-s-urban
- Socjolekt miejskies-x-socio-juvenil
lubes-x-s-juvenil
- Hiszpański socjolekt młodzieżowy (jerga juvenil)fr-x-socio-jeune
lubfr-x-s-jeune
- Francuski socjolekt młodzieżowyde-x-socio-jugend
lubde-x-s-jugend
- Niemiecki socjolekt młodzieżowy (Jugendsprache)ko-x-socio-online
lubko-x-s-online
- Koreański socjolekt internetowy
11. Klasyfikator modalności (modality
lub o
)
Identyfikuje podstawowy tryb produkcji językowej.
Format:
- Długi:
language-x-modality-[mode]
- Krótki:
language-x-o-[mode]
Przykłady:
en-x-modality-spoken
luben-x-o-spoken
- Angielski mówionyen-x-modality-written
luben-x-o-written
- Angielski pisanyasl-x-modality-signed
lubasl-x-o-signed
- Amerykański język migowyen-x-modality-multi
luben-x-o-multi
- Angielski multimodalny (mowa + gesty)fr-x-modality-tactile
lubfr-x-o-tactile
- Francuski dotykowy (dla głuchoniewidomych)
12. Klasyfikator rejestru (register
lub r
)
Identyfikuje rejestr językowy lub funkcjonalną odmianę użycia języka.
Format:
- Długi:
language-x-register-[register_type]
- Krótki:
language-x-r-[register_type]
Przykłady:
en-x-register-frozen
luben-x-r-frozen
- Rejestr zamrożony (modlitwy, przysięgi)en-x-register-formal
luben-x-r-formal
- Rejestr formalny (prace akademickie)en-x-register-consult
luben-x-r-consult
- Rejestr konsultacyjny (zawodowy)en-x-register-casual
luben-x-r-casual
- Rejestr swobodny (przyjaciele)en-x-register-intimate
luben-x-r-intimate
- Rejestr intymny (rodzina)
13. Klasyfikator funkcji pragmatycznej (pragma
lub u
)
Identyfikuje funkcję komunikacyjną lub akt mowy.
Format:
- Długi:
language-x-pragma-[function]
- Krótki:
language-x-u-[function]
Przykłady:
en-x-pragma-request
luben-x-u-request
- Funkcja prośbyja-x-pragma-apology
lubja-x-u-apology
- Funkcja przeprosines-x-pragma-complmnt
lubes-x-u-complmnt
- Funkcja komplementuar-x-pragma-greeting
lubar-x-u-greeting
- Funkcja powitaniazh-x-pragma-refusal
lubzh-x-u-refusal
- Funkcja odmowy
14. Klasyfikator oznaczenia czasowego (temporal
lub t
)
Identyfikuje aspekty czasowe lub wzorce użycia czasu.
Format:
- Długi:
language-x-temporal-[aspect]
- Krótki:
language-x-t-[aspect]
Przykłady:
en-x-temporal-past
luben-x-t-past
- Dyskurs zorientowany na przeszłośćja-x-temporal-nonpast
lubja-x-t-nonpast
- Fokus na nie-przeszłośćid-x-temporal-atemprl
lubid-x-t-atemprl
- Ponadczasowy/atemporalnyfr-x-temporal-future
lubfr-x-t-future
- Zorientowany na przyszłośćzh-x-temporal-aspect
lubzh-x-t-aspect
- Fokus aspektowy
15. Klasyfikator ewidencjalności (evidence
lub v
)
Identyfikuje oznaczenie źródła informacji.
Format:
- Długi:
language-x-evidence-[source]
- Krótki:
language-x-v-[source]
Przykłady:
qu-x-evidence-direct
lubqu-x-v-direct
- Bezpośredni świadektr-x-evidence-hearsay
lubtr-x-v-hearsay
- Z drugiej ręki/zgłoszoneja-x-evidence-infer
lubja-x-v-infer
- Inferencyjnyen-x-evidence-assume
luben-x-v-assume
- Założonyde-x-evidence-quote
lubde-x-v-quote
- Cytatywny
16. Klasyfikator afektu/emocji (affect
lub k
)
Identyfikuje ton emocjonalny lub afekt.
Format:
- Długi:
language-x-affect-[emotion]
- Krótki:
language-x-k-[emotion]
Przykłady:
en-x-affect-angry
luben-x-k-angry
- Gniewny tonja-x-affect-humble
lubja-x-k-humble
- Pokorny afektes-x-affect-joyful
lubes-x-k-joyful
- Radosny wyrazko-x-affect-sad
lubko-x-k-sad
- Smutny/melancholijnyfr-x-affect-neutral
lubfr-x-k-neutral
- Neutralny afekt
17. Klasyfikator wieku/pokolenia (age
lub n
)
Identyfikuje odmiany językowe związane z wiekiem lub pokoleniem.
Format:
- Długi:
language-x-age-[generation]
- Krótki:
language-x-n-[generation]
Przykłady:
en-x-age-child
luben-x-n-child
- Mowa dziecięcaja-x-age-teen
lubja-x-n-teen
- Język nastolatkówko-x-age-elder
lubko-x-n-elder
- Mowa starszyches-x-age-genz
lubes-x-n-genz
- Pokolenie Zzh-x-age-millenl
lubzh-x-n-millenl
- Mowa milenialsów
18. Klasyfikator płci (gender
lub i
)
Identyfikuje odmiany językowe związane z płcią.
Format:
- Długi:
language-x-gender-[identity]
- Krótki:
language-x-i-[identity]
19. Klasyfikator poziomu ekspertyzy (expert
lub b
)
Identyfikuje poziom ekspertyzy domenowej w skali 0-10.
Format:
- Długi:
language-x-expert-[0-10]
- Krótki:
language-x-b-[0-10]
Skala ekspertyzy:
- 0 = Brak wiedzy
- 1-2 = Początkujący
- 3-4 = Średniozaawansowany
- 5-6 = Zaawansowany
- 7-8 = Ekspert
- 9-10 = Mistrz/Autorytet
Przykłady:
en-x-expert-0
luben-x-b-0
- Brak ekspertyzyde-x-expert-3
lubde-x-b-3
- Poziom średniozaawansowanyja-x-expert-7
lubja-x-b-7
- Poziom ekspertaes-x-expert-9
lubes-x-b-9
- Poziom mistrzazh-x-expert-5
lubzh-x-b-5
- Poziom zaawansowany
20. Klasyfikator struktury interakcyjnej (interact
lub 2
)
Identyfikuje wzorce konwersacyjne lub interakcyjne.
Format:
- Długi:
language-x-interact-[structure]
- Krótki:
language-x-2-[structure]
Przykłady:
en-x-interact-turn
luben-x-2-turn
- Naprzemienne wypowiedzija-x-interact-overlap
lubja-x-2-overlap
- Nakładające się wypowiedzies-x-interact-monolog
lubes-x-2-monolog
- Monologicznyar-x-interact-dialog
lubar-x-2-dialog
- Dialogicznyzh-x-interact-multi
lubzh-x-2-multi
- Wielostronny
21. Klasyfikator cech prozodycznych (prosody
lub y
)
Identyfikuje cechy prozodyczne lub suprasegmentalne.
Format:
- Długi:
language-x-prosody-[feature]
- Krótki:
language-x-y-[feature]
Przykłady:
en-x-prosody-stress
luben-x-y-stress
- Akcent wyrazowyja-x-prosody-pitch
lubja-x-y-pitch
- Akcent tonicznyfr-x-prosody-syllable
lubfr-x-y-syllable
- Rytm sylabicznyzh-x-prosody-tone
lubzh-x-y-tone
- Wzorce tonalnees-x-prosody-rhythm
lubes-x-y-rhythm
- Wzorce rytmiczne
22. Klasyfikator gęstości leksykalnej (lexical
lub l
)
Identyfikuje gęstość leksykalną jako wartość numeryczną (0-100).
Format:
- Długi:
language-x-lexical-[0-100]
- Krótki:
language-x-l-[0-100]
Przykłady:
en-x-lexical-20
luben-x-l-20
- Niska gęstość (20%)de-x-lexical-55
lubde-x-l-55
- Średnia gęstość (55%)ja-x-lexical-75
lubja-x-l-75
- Wysoka gęstość (75%)es-x-lexical-40
lubes-x-l-40
- Umiarkowana gęstość (40%)zh-x-lexical-85
lubzh-x-l-85
- Bardzo wysoka gęstość (85%)
23. Klasyfikator złożoności składniowej (syntax
lub z
)
Identyfikuje złożoność składniową jako wartość numeryczną (0-100).
Format:
- Długi:
language-x-syntax-[0-100]
- Krótki:
language-x-z-[0-100]
Przykłady:
en-x-syntax-15
luben-x-z-15
- Prosta składnia (15%)de-x-syntax-70
lubde-x-z-70
- Złożona składnia (70%)ja-x-syntax-45
lubja-x-z-45
- Umiarkowana złożoność (45%)es-x-syntax-30
lubes-x-z-30
- Niska złożoność (30%)zh-x-syntax-60
lubzh-x-z-60
- Wysoka złożoność (60%)
24. Klasyfikator daty rozpoczęcia (start
lub 0
)
Identyfikuje datę rozpoczęcia użycia języka (format ISO 8601 bez interpunkcji).
Format:
- Długi:
language-x-start-[YYYYMMDD]
- Krótki:
language-x-0-[YYYYMMDD]
Formaty dat:
- Pełna data: YYYYMMDD
- Rok-miesiąc: YYYYMM
- Tylko rok: YYYY
Przykłady:
en-x-start-20240315
luben-x-0-20240315
- Angielski zaczynający się 15 marca 2024ja-x-start-19890108
lubja-x-0-19890108
- Japoński zaczynający się 8 stycznia 1989es-x-start-202403
lubes-x-0-202403
- Hiszpański zaczynający się w marcu 2024
25. Klasyfikator daty zakończenia (end
lub 1
)
Identyfikuje datę zakończenia użycia języka (format ISO 8601 bez interpunkcji).
Format:
- Długi:
language-x-end-[YYYYMMDD]
- Krótki:
language-x-1-[YYYYMMDD]
Formaty dat:
- Pełna data: YYYYMMDD
- Rok-miesiąc: YYYYMM
- Tylko rok: YYYY
Przykłady:
en-x-end-20240415
luben-x-1-20240415
- Angielski kończący się 15 kwietnia 2024ja-x-end-20190430
lubja-x-1-20190430
- Japoński kończący się 30 kwietnia 2019es-x-end-202412
lubes-x-1-202412
- Hiszpański kończący się w grudniu 2024
26. Klasyfikator tabu (taboo
lub j
)
Identyfikuje poziom treści tabu, wulgarnych lub obraźliwych.
Format:
- Długi:
language-x-taboo-[0-5]
- Krótki:
language-x-j-[0-5]
Przykłady:
en-x-taboo-0
luben-x-j-0
- Brak treści tabuen-x-taboo-3
luben-x-j-3
- Umiarkowany poziom tabuja-x-form-5-taboo-4
lubja-x-f-5-j-4
- Bardzo swobodny japoński z wysokim poziomem tabu
27. Klasyfikator pewności (conf
lub c
)
Wskazuje wynik pewności dla bezpośrednio poprzedzającego klasyfikatora.
Format:
- Długi:
language-x-[classifier]-[value]-conf-[0-100]
- Krótki:
language-x-[classifier]-[value]-c-[0-100]
Specjalne zachowanie:
- Wynik pewności dotyczy klasyfikatora bezpośrednio go poprzedzającego
- Wiele wyników pewności może być użytych dla różnych klasyfikatorów
- Jeśli nie ma poprzedzającego klasyfikatora, pewność dotyczy podstawowego tagu językowego
Przykłady:
en-x-form-3-conf-95
luben-x-f-3-c-95
- Neutralna formalność z 95% pewnościąko-x-polite-2-conf-80-domain-med-conf-60
lubko-x-p-2-c-80-d-med-c-60
- Bardzo grzeczny (80% pewności) medyczny koreański (60% pewności)ja-x-hist-kobun-conf-100
lubja-x-h-kobun-c-100
- Klasyczny japoński ze 100% pewnościąx-proto-ine-conf-75
lubx-a-ine-c-75
- Praindoeuropejski z 75% pewnością
Wielokrotne klasyfikacje
LVTag obsługuje wiele klasyfikatorów w jednym tagu, aby zapewnić precyzyjną identyfikację języka. Formy długie i krótkie mogą być mieszane:
ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
Powyższe przykłady pokazują koreański z nieformalną formalnością (4), ale grzeczną mową (2) w kontekście biznesowym.
Prawidłowe wartości
Uwaga: Wszystkie wartości muszą mieć 8 znaków lub mniej, aby spełnić ograniczenia długości podetykiet BCP 47. Podczas gdy konkretne wartości dla wielu klasyfikatorów powinny być ustalone przez eksperckie użycie i konsensus społeczności, skale numeryczne, formaty dat i podstawowe wartości wymienione poniżej są zdefiniowane w tym standardzie.
Skala formalności (Uniwersalna)
Poziom | Opis | Przykłady |
---|---|---|
1 | Najbardziej formalny | Dokumenty prawne, oficjalne ceremonie, prace akademickie |
2 | Formalny | Listy biznesowe, artykuły prasowe, prezentacje |
3 | Neutralny | Standardowa rozmowa, e-mail, ogólne pisanie |
4 | Nieformalny | Swobodna rozmowa, osobiste blogi, wiadomości tekstowe |
5 | Najbardziej swobodny | Slang, intymna rozmowa, media społecznościowe |
Skala grzeczności (Uniwersalna)
Poziom | Opis | Przykłady |
---|---|---|
1 | Najbardziej szanujący | Zwrot królewski, przywódcy religijni, szacunek dla starszych |
2 | Bardzo grzeczny | Obsługa klienta, formalne spotkania, nauczyciele |
3 | Grzeczny/neutralny | Standardowe interakcje, koledzy |
4 | Familiarny | Przyjaciele, rówieśnicy, swobodni znajomi |
5 | Intymny/prosty | Bliska rodzina, intymni partnerzy |
Skala ekspertyzy (Uniwersalna)
Poziom | Opis |
---|---|
0 | Brak wiedzy |
1-2 | Początkujący |
3-4 | Średniozaawansowany |
5-6 | Zaawansowany |
7-8 | Ekspert |
9-10 | Mistrz/Autorytet |
Skala tabu (Uniwersalna)
Poziom | Opis |
---|---|
0 | Brak treści tabu |
1 | Łagodne tabu |
2 | Lekkie tabu |
3 | Umiarkowane tabu |
4 | Wysokie tabu |
5 | Ekstremalne tabu |
Skala gęstości leksykalnej (Uniwersalna)
Poziom | Opis |
---|---|
0-20 | Bardzo niska gęstość |
21-40 | Niska gęstość |
41-60 | Umiarkowana gęstość |
61-80 | Wysoka gęstość |
81-100 | Bardzo wysoka gęstość |
Skala złożoności składniowej (Uniwersalna)
Poziom | Opis |
---|---|
0-20 | Bardzo prosta |
21-40 | Prosta |
41-60 | Umiarkowana złożoność |
61-80 | Złożona |
81-100 | Bardzo złożona |
Wartości domeny
Wartość | Opis |
---|---|
legal |
Terminologia prawna |
med |
Terminologia medyczna |
tech |
Techniczny/IT |
business |
Biznes/korporacyjny |
fin |
Finanse/bankowość |
acad |
Akademicki/naukowy |
sci |
Nauka/badania |
Przykłady implementacji
Pojedynczy klasyfikator (Forma długa)
# Najbardziej formalny koreański
ko-x-form-1
# Bardzo grzeczny japoński
ja-x-polite-2
# Prawniczy angielski
en-x-domain-legal
# Koreański z Gyeongsang
ko-x-geo-gyeong
# Praindoeuropejski
x-proto-ine
Pojedynczy klasyfikator (Forma krótka)
# Najbardziej formalny koreański
ko-x-f-1
# Bardzo grzeczny japoński
ja-x-p-2
# Prawniczy angielski
en-x-d-legal
# Koreański z Gyeongsang
ko-x-g-gyeong
# Praindoeuropejski
x-a-ine
Wielokrotne klasyfikatory
# Nieformalny ale grzeczny koreański język biznesowy
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
# Formalny i pełen szacunku japoński język medyczny
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med
# Południowy wietnamski z neutralną formalnością, grzeczną mową, domeną techniczną
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech
# Złożona klasyfikacja z wieloma wymiarami
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written
# Odmiany językowe pokazujące rozróżnienie formalność/grzeczność
ko-x-f-5-p-2 # Bardzo swobodny ale grzeczny (do starszego przyjaciela)
ko-x-f-1-p-4 # Bardzo formalny ale familiarny (pisemnie do rówieśnika)
ja-x-f-4-p-1 # Swobodna formalność ale najwyższy szacunek
en-x-f-5-j-4 # Bardzo swobodny angielski z wysokim poziomem tabu
Przypadki użycia
- Aplikacje do nauki języków
- Nauczanie odpowiedniego rejestru dla różnych kontekstów społecznych
- Zapewnianie treningu słownictwa specyficznego dla domeny
- Tłumaczenie maszynowe
- Utrzymanie spójności rejestru w tłumaczeniach
- Stosowanie terminologii specyficznej dla domeny
- Klasyfikacja treści
- Automatyczne kategoryzowanie tekstu według formalności i domeny
- Kierowanie treści do odpowiednich recenzentów lub systemów
- Lingwistyka korpusowa
- Budowanie oznaczonych korpusów do badań językowych
- Badanie wariacji rejestru i domeny
Zasady walidacji
- Długość podetykiety: Każda podetykieta po
x-
musi mieć 8 znaków lub mniej - Kolejność: Klasyfikatory mogą pojawiać się w dowolnej kolejności po
x-
- Unikalność: Każdy typ klasyfikatora powinien pojawiać się tylko raz na tag (z wyjątkiem
conf
, który może pojawiać się wielokrotnie) - Wielkość liter: Tagi powinny być małymi literami (bez rozróżnienia wielkości liter zgodnie z BCP 47)
- Magiczne tagi: Krótkie tagi to pojedyncze znaki;
q
,3
-9
są zarezerwowane do przyszłego użytku - Mieszanie: Formy długie i krótkie mogą być mieszane w tym samym tagu
- Tagi proto: Muszą zaczynać się od
x-
i POWINNY używać kodów ISO 639-5, gdy są dostępne (np.x-proto-sla
niex-proto-slavic
) - Pewność: Klasyfikator
conf
/c
dotyczy bezpośrednio poprzedzającego klasyfikatora - Wartości numeryczne: Muszą mieścić się w zdefiniowanych zakresach (0-5 dla tabu, 0-10 dla ekspertyzy, 0-100 dla wartości procentowych)
- Format daty: Daty używają ISO 8601 bez interpunkcji (YYYY, YYYYMM lub YYYYMMDD)
Kompatybilność
Format LVTag jest w pełni kompatybilny z:
- BCP 47 (RFC 5646)
- Kodami języków ISO 639
- Rejestrem podetykiet języków IANA
- Unicode CLDR
Korzyści
- Precyzja: Umożliwia szczegółową identyfikację odmian językowych
- Rozszerzalność: Można dodawać nowe rejestry i domeny
- Oparty na standardach: Zbudowany na ustanowionym mechanizmie prywatnego użytku BCP 47
- Czytelny maszynowo: Systematyczny format umożliwia automatyczne przetwarzanie
- Czytelny dla człowieka: Jasne, opisowe podetykiety
- Elastyczność: Obsługa zarówno szczegółowych długich, jak i zwięzłych krótkich tagów
- Zwięzłość: Krótkie magiczne tagi umożliwiają kompaktową reprezentację przy zachowaniu jasności
Przyszłe rozszerzenia
LVTag jest zaprojektowany do ewoluowania wraz z potrzebami społeczności technologii językowych. Zapraszamy do zgłaszania sugestii dotyczących nowych klasyfikatorów, ulepszeń istniejących oraz opinii z rzeczywistych implementacji.
Aby zaproponować rozszerzenia lub przyczynić się do specyfikacji:
- Otwórz zgłoszenie na github.com/lvtag/spec
- Dołącz do dyskusji na temat istniejących propozycji
- Podziel się swoimi doświadczeniami z implementacji
- Wyślij pull requesty z ulepszeniami dokumentacji
Zarezerwowane jednoznakowe kody (q
, 3
-9
) są dostępne dla przyszłych znormalizowanych rozszerzeń.
Referencje
Licencja i udzielenie patentów
Ta specyfikacja jest publikowana na licencji CC0 1.0 Universal (Przekazanie do Domeny Publicznej).
Dlaczego CC0: Aby zapewnić maksymalną adopcję i swobodę implementacji, LVTag jest umieszczony w domenie publicznej. To oznacza:
- Nie jest wymagane pozwolenie na użycie, implementację lub modyfikację
- Nie jest wymagane podanie źródła (choć jest doceniane)
- Brak barier prawnych dla użytku komercyjnego lub rządowego
- Kompatybilny ze wszystkimi licencjami oprogramowania
- Używany przez główne standardy takie jak Unicode CLDR
Udzielenie patentów: Wszelkie patenty obejmujące specyfikację LVTag są niniejszym licencjonowane bez opłat dla każdej implementacji zgodnej z tą specyfikacją.
Brak poparcia: Używanie LVTag nie oznacza poparcia ze strony autorów specyfikacji.
W zakresie dozwolonym przez prawo, Danslav Slavenskoj zrzekł się wszystkich praw autorskich i powiązanych lub sąsiednich praw do Specyfikacji formatu Language Variant Tag (LVTag). Ta praca jest publikowana z: Stanów Zjednoczonych Ameryki.