Skip to the content.
LVTag Logo

Specyfikacja LVTag

Wersja 1.0
Stworzony przez Danslava Slavenskoja
Data: Maj 2025

Języki: 中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски

Szybkie linki

Przegląd

Format Language Variant Tag (LVTag) to systematyczne podejście do klasyfikacji języków, które rozszerza standard BCP 47 przy użyciu podetykiet prywatnego użytku. Umożliwia precyzyjną identyfikację odmian językowych w wielu wymiarach, w tym formalności, grzeczności, domeny i ortografii.

Kluczowe korzyści

Rygor klasyfikacji: LVTag wprowadza systematyczną organizację do tagowania języków, zapewniając jasne, oddzielone wymiary dla różnych typów wariacji. W przeciwieństwie do istniejących podetykiet i systemów, które mieszają różne kategorie na tym samym poziomie, LVTag utrzymuje ścisłe rozdzielenie między formalnością, grzecznością, domeną i innymi wymiarami.

Zgodność ze standardami: LVTag jest w pełni kompatybilny z BCP 47 (RFC 5646) i bezproblemowo współpracuje z:

Integracja technologiczna: Tagi LVTag mogą być używane bezpośrednio w:

Przypadki użycia:

Uzasadnienie

Podczas gdy BCP 47 zapewnia doskonałe wsparcie dla identyfikacji języków, skryptów i regionów, brakuje mu znormalizowanych mechanizmów do uchwycenia wariacji socjolingwistycznej w obrębie języka. Obecne standardy nie uwzględniają:

LVTag wypełnia te luki, wykorzystując mechanizm rozszerzenia prywatnego użytku BCP 47 (-x-), zapewniając systematyczny, czytelny maszynowo sposób kodowania tych krytycznych wymiarów wariacji językowej przy zachowaniu pełnej kompatybilności wstecznej.

Precyzyjna klasyfikacja językowa

Pojawienie się dużych modeli językowych i wyrafinowanych narzędzi NLP sprawiło, że precyzyjna klasyfikacja odmian językowych stała się nie tylko użyteczna, ale niezbędna. Nowoczesne systemy muszą:

LVTag zapewnia szczegółowe metadane potrzebne do zrozumienia nie tylko jakiego języka się używa, ale jak się go używa, umożliwiając bardziej zniuansowane i odpowiednie potoki przetwarzania języka.

Specyfikacja formatu

Podstawowa struktura

language-x-[classifier]-[value]-[classifier2]-[value2]...

Gdzie:

Magiczne tagi

LVTag obsługuje zarówno długie, jak i krótkie “magiczne” klasyfikatory dla elastyczności:

Forma długa Forma krótka Opis
ortho w Wariant ortograficzny
form f Poziom formalności (skala 1-5)
polite p Poziom grzeczności/szacunku (skala 1-5)
domain d Specjalistyczne słownictwo lub kontekst zawodowy
geo g Odmiana geograficzna lub regionalna
proto a Prajęzyk lub język zrekonstruowany
hist h Okres historyczny lub etap języka
genre e Gatunek tekstowy lub styl literacki
medium m Medium komunikacyjne (mówione, pisane, cyfrowe)
socio s Socjolekt lub odmiana grupy społecznej
modality o Tryb produkcji językowej
register r Rejestr językowy
pragma u Funkcja komunikacyjna
temporal t Oznaczenie czasowe
evidence v Źródło informacji
affect k Ton emocjonalny
age n Odmiana wiekowa/pokoleniowa
gender i Odmiana płciowa
expert b Poziom ekspertyzy
interact 2 Struktura interakcyjna
prosody y Cechy prozodyczne
lexical l Gęstość leksykalna (0-100)
syntax z Złożoność składniowa (0-100)
start 0 Data rozpoczęcia (ISO 8601 bez interpunkcji)
end 1 Data zakończenia (ISO 8601 bez interpunkcji)
taboo j Poziom treści tabu/wulgarnych (skala 0-5)
conf c Wynik pewności (0-100) dla poprzedniego tagu
q, 3-9 Zarezerwowane do przyszłego użytku

Klasyfikatory

1. Klasyfikator ortograficzny (ortho lub w)

Identyfikuje konkretne konwencje ortograficzne lub warianty systemu pisma wykraczające poza standardowe tagi skryptów.

Format:

Przykłady (w połączeniu ze standardowymi tagami skryptów):

2. Klasyfikator formalności (form lub f)

Identyfikuje poziom formalności użycia języka.

Format:

Skala formalności:

Przykłady:

3. Klasyfikator grzeczności (polite lub p)

Identyfikuje poziom grzeczności/szacunku użycia języka.

Format:

Skala grzeczności:

Przykłady:

4. Klasyfikator domeny (domain lub d)

Identyfikuje specjalistyczne słownictwo lub kontekst zawodowy.

Format:

Przykłady:

5. Klasyfikator geograficzny (geo lub g)

Identyfikuje regionalne lub geograficzne odmiany językowe.

Format:

Przykłady:

6. Klasyfikator proto (proto lub a)

Identyfikuje prajęzyki lub zrekonstruowane języki historyczne.

Format:

Zasady:

Przykłady z kodami ISO 639-5:

Przykłady bez kodów ISO 639-5 (opisowe, więcej niż trzy znaki):

Uwaga:

7. Klasyfikator historyczny (hist lub h)

Identyfikuje okresy historyczne lub etapy języka.

Format:

Przykłady:

8. Klasyfikator gatunku (genre lub e)

Identyfikuje gatunek tekstowy lub styl literacki.

Format:

Przykłady:

9. Klasyfikator medium (medium lub m)

Identyfikuje medium komunikacyjne.

Format:

Przykłady:

10. Klasyfikator socjo (socio lub s)

Identyfikuje socjolekt lub odmiany grup społecznych.

Format:

Przykłady:

11. Klasyfikator modalności (modality lub o)

Identyfikuje podstawowy tryb produkcji językowej.

Format:

Przykłady:

12. Klasyfikator rejestru (register lub r)

Identyfikuje rejestr językowy lub funkcjonalną odmianę użycia języka.

Format:

Przykłady:

13. Klasyfikator funkcji pragmatycznej (pragma lub u)

Identyfikuje funkcję komunikacyjną lub akt mowy.

Format:

Przykłady:

14. Klasyfikator oznaczenia czasowego (temporal lub t)

Identyfikuje aspekty czasowe lub wzorce użycia czasu.

Format:

Przykłady:

15. Klasyfikator ewidencjalności (evidence lub v)

Identyfikuje oznaczenie źródła informacji.

Format:

Przykłady:

16. Klasyfikator afektu/emocji (affect lub k)

Identyfikuje ton emocjonalny lub afekt.

Format:

Przykłady:

17. Klasyfikator wieku/pokolenia (age lub n)

Identyfikuje odmiany językowe związane z wiekiem lub pokoleniem.

Format:

Przykłady:

18. Klasyfikator płci (gender lub i)

Identyfikuje odmiany językowe związane z płcią.

Format:

19. Klasyfikator poziomu ekspertyzy (expert lub b)

Identyfikuje poziom ekspertyzy domenowej w skali 0-10.

Format:

Skala ekspertyzy:

Przykłady:

20. Klasyfikator struktury interakcyjnej (interact lub 2)

Identyfikuje wzorce konwersacyjne lub interakcyjne.

Format:

Przykłady:

21. Klasyfikator cech prozodycznych (prosody lub y)

Identyfikuje cechy prozodyczne lub suprasegmentalne.

Format:

Przykłady:

22. Klasyfikator gęstości leksykalnej (lexical lub l)

Identyfikuje gęstość leksykalną jako wartość numeryczną (0-100).

Format:

Przykłady:

23. Klasyfikator złożoności składniowej (syntax lub z)

Identyfikuje złożoność składniową jako wartość numeryczną (0-100).

Format:

Przykłady:

24. Klasyfikator daty rozpoczęcia (start lub 0)

Identyfikuje datę rozpoczęcia użycia języka (format ISO 8601 bez interpunkcji).

Format:

Formaty dat:

Przykłady:

25. Klasyfikator daty zakończenia (end lub 1)

Identyfikuje datę zakończenia użycia języka (format ISO 8601 bez interpunkcji).

Format:

Formaty dat:

Przykłady:

26. Klasyfikator tabu (taboo lub j)

Identyfikuje poziom treści tabu, wulgarnych lub obraźliwych.

Format:

Przykłady:

27. Klasyfikator pewności (conf lub c)

Wskazuje wynik pewności dla bezpośrednio poprzedzającego klasyfikatora.

Format:

Specjalne zachowanie:

Przykłady:

Wielokrotne klasyfikacje

LVTag obsługuje wiele klasyfikatorów w jednym tagu, aby zapewnić precyzyjną identyfikację języka. Formy długie i krótkie mogą być mieszane:

ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

Powyższe przykłady pokazują koreański z nieformalną formalnością (4), ale grzeczną mową (2) w kontekście biznesowym.

Prawidłowe wartości

Uwaga: Wszystkie wartości muszą mieć 8 znaków lub mniej, aby spełnić ograniczenia długości podetykiet BCP 47. Podczas gdy konkretne wartości dla wielu klasyfikatorów powinny być ustalone przez eksperckie użycie i konsensus społeczności, skale numeryczne, formaty dat i podstawowe wartości wymienione poniżej są zdefiniowane w tym standardzie.

Skala formalności (Uniwersalna)

Poziom Opis Przykłady
1 Najbardziej formalny Dokumenty prawne, oficjalne ceremonie, prace akademickie
2 Formalny Listy biznesowe, artykuły prasowe, prezentacje
3 Neutralny Standardowa rozmowa, e-mail, ogólne pisanie
4 Nieformalny Swobodna rozmowa, osobiste blogi, wiadomości tekstowe
5 Najbardziej swobodny Slang, intymna rozmowa, media społecznościowe

Skala grzeczności (Uniwersalna)

Poziom Opis Przykłady
1 Najbardziej szanujący Zwrot królewski, przywódcy religijni, szacunek dla starszych
2 Bardzo grzeczny Obsługa klienta, formalne spotkania, nauczyciele
3 Grzeczny/neutralny Standardowe interakcje, koledzy
4 Familiarny Przyjaciele, rówieśnicy, swobodni znajomi
5 Intymny/prosty Bliska rodzina, intymni partnerzy

Skala ekspertyzy (Uniwersalna)

Poziom Opis
0 Brak wiedzy
1-2 Początkujący
3-4 Średniozaawansowany
5-6 Zaawansowany
7-8 Ekspert
9-10 Mistrz/Autorytet

Skala tabu (Uniwersalna)

Poziom Opis
0 Brak treści tabu
1 Łagodne tabu
2 Lekkie tabu
3 Umiarkowane tabu
4 Wysokie tabu
5 Ekstremalne tabu

Skala gęstości leksykalnej (Uniwersalna)

Poziom Opis
0-20 Bardzo niska gęstość
21-40 Niska gęstość
41-60 Umiarkowana gęstość
61-80 Wysoka gęstość
81-100 Bardzo wysoka gęstość

Skala złożoności składniowej (Uniwersalna)

Poziom Opis
0-20 Bardzo prosta
21-40 Prosta
41-60 Umiarkowana złożoność
61-80 Złożona
81-100 Bardzo złożona

Wartości domeny

Wartość Opis
legal Terminologia prawna
med Terminologia medyczna
tech Techniczny/IT
business Biznes/korporacyjny
fin Finanse/bankowość
acad Akademicki/naukowy
sci Nauka/badania

Przykłady implementacji

Pojedynczy klasyfikator (Forma długa)

# Najbardziej formalny koreański
ko-x-form-1

# Bardzo grzeczny japoński
ja-x-polite-2

# Prawniczy angielski
en-x-domain-legal

# Koreański z Gyeongsang
ko-x-geo-gyeong

# Praindoeuropejski
x-proto-ine

Pojedynczy klasyfikator (Forma krótka)

# Najbardziej formalny koreański
ko-x-f-1

# Bardzo grzeczny japoński
ja-x-p-2

# Prawniczy angielski
en-x-d-legal

# Koreański z Gyeongsang
ko-x-g-gyeong

# Praindoeuropejski
x-a-ine

Wielokrotne klasyfikatory

# Nieformalny ale grzeczny koreański język biznesowy
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

# Formalny i pełen szacunku japoński język medyczny
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med

# Południowy wietnamski z neutralną formalnością, grzeczną mową, domeną techniczną
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech

# Złożona klasyfikacja z wieloma wymiarami
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written

# Odmiany językowe pokazujące rozróżnienie formalność/grzeczność
ko-x-f-5-p-2  # Bardzo swobodny ale grzeczny (do starszego przyjaciela)
ko-x-f-1-p-4  # Bardzo formalny ale familiarny (pisemnie do rówieśnika)
ja-x-f-4-p-1  # Swobodna formalność ale najwyższy szacunek
en-x-f-5-j-4  # Bardzo swobodny angielski z wysokim poziomem tabu

Przypadki użycia

  1. Aplikacje do nauki języków
    • Nauczanie odpowiedniego rejestru dla różnych kontekstów społecznych
    • Zapewnianie treningu słownictwa specyficznego dla domeny
  2. Tłumaczenie maszynowe
    • Utrzymanie spójności rejestru w tłumaczeniach
    • Stosowanie terminologii specyficznej dla domeny
  3. Klasyfikacja treści
    • Automatyczne kategoryzowanie tekstu według formalności i domeny
    • Kierowanie treści do odpowiednich recenzentów lub systemów
  4. Lingwistyka korpusowa
    • Budowanie oznaczonych korpusów do badań językowych
    • Badanie wariacji rejestru i domeny

Zasady walidacji

  1. Długość podetykiety: Każda podetykieta po x- musi mieć 8 znaków lub mniej
  2. Kolejność: Klasyfikatory mogą pojawiać się w dowolnej kolejności po x-
  3. Unikalność: Każdy typ klasyfikatora powinien pojawiać się tylko raz na tag (z wyjątkiem conf, który może pojawiać się wielokrotnie)
  4. Wielkość liter: Tagi powinny być małymi literami (bez rozróżnienia wielkości liter zgodnie z BCP 47)
  5. Magiczne tagi: Krótkie tagi to pojedyncze znaki; q, 3-9 są zarezerwowane do przyszłego użytku
  6. Mieszanie: Formy długie i krótkie mogą być mieszane w tym samym tagu
  7. Tagi proto: Muszą zaczynać się od x- i POWINNY używać kodów ISO 639-5, gdy są dostępne (np. x-proto-sla nie x-proto-slavic)
  8. Pewność: Klasyfikator conf/c dotyczy bezpośrednio poprzedzającego klasyfikatora
  9. Wartości numeryczne: Muszą mieścić się w zdefiniowanych zakresach (0-5 dla tabu, 0-10 dla ekspertyzy, 0-100 dla wartości procentowych)
  10. Format daty: Daty używają ISO 8601 bez interpunkcji (YYYY, YYYYMM lub YYYYMMDD)

Kompatybilność

Format LVTag jest w pełni kompatybilny z:

Korzyści

  1. Precyzja: Umożliwia szczegółową identyfikację odmian językowych
  2. Rozszerzalność: Można dodawać nowe rejestry i domeny
  3. Oparty na standardach: Zbudowany na ustanowionym mechanizmie prywatnego użytku BCP 47
  4. Czytelny maszynowo: Systematyczny format umożliwia automatyczne przetwarzanie
  5. Czytelny dla człowieka: Jasne, opisowe podetykiety
  6. Elastyczność: Obsługa zarówno szczegółowych długich, jak i zwięzłych krótkich tagów
  7. Zwięzłość: Krótkie magiczne tagi umożliwiają kompaktową reprezentację przy zachowaniu jasności

Przyszłe rozszerzenia

LVTag jest zaprojektowany do ewoluowania wraz z potrzebami społeczności technologii językowych. Zapraszamy do zgłaszania sugestii dotyczących nowych klasyfikatorów, ulepszeń istniejących oraz opinii z rzeczywistych implementacji.

Aby zaproponować rozszerzenia lub przyczynić się do specyfikacji:

Zarezerwowane jednoznakowe kody (q, 3-9) są dostępne dla przyszłych znormalizowanych rozszerzeń.

Referencje


Licencja i udzielenie patentów

Ta specyfikacja jest publikowana na licencji CC0 1.0 Universal (Przekazanie do Domeny Publicznej).

Dlaczego CC0: Aby zapewnić maksymalną adopcję i swobodę implementacji, LVTag jest umieszczony w domenie publicznej. To oznacza:

Udzielenie patentów: Wszelkie patenty obejmujące specyfikację LVTag są niniejszym licencjonowane bez opłat dla każdej implementacji zgodnej z tą specyfikacją.

Brak poparcia: Używanie LVTag nie oznacza poparcia ze strony autorów specyfikacji.

W zakresie dozwolonym przez prawo, Danslav Slavenskoj zrzekł się wszystkich praw autorskich i powiązanych lub sąsiednich praw do Specyfikacji formatu Language Variant Tag (LVTag). Ta praca jest publikowana z: Stanów Zjednoczonych Ameryki.