Skip to the content.
LVTag Logo

LVTag specifikacija

Verzija 1.0
Stvorio: Danslav Slavenskoj
Datum: Svibanj 2025

Jezici: 中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски

Brze poveznice

Pregled

Language Variant Tag (LVTag) format je sustavni pristup klasifikaciji jezika koji proširuje BCP 47 standard korištenjem privatnih podoznaka. Omogućuje preciznu identifikaciju jezičnih varijanti kroz više dimenzija uključujući formalnost, pristojnost, domenu i ortografiju.

Ključne prednosti

Rigoroznost klasifikacije: LVTag donosi sustavnu organizaciju u označavanje jezika pružajući jasne, odvojene dimenzije za različite tipove varijacija. Za razliku od postojećih podoznaka i sustava koji miješaju različite kategorije na istoj razini, LVTag održava striktno odvajanje između formalnosti, pristojnosti, domene i drugih dimenzija.

Kompatibilnost sa standardima: LVTag je potpuno kompatibilan s BCP 47 (RFC 5646) i besprijekorno funkcionira s:

Tehnološka integracija: LVTag oznake mogu se izravno koristiti u:

Slučajevi uporabe:

Obrazloženje

Dok BCP 47 pruža izvrsnu podršku za identifikaciju jezika, pisama i regija, nedostaju mu standardizirani mehanizmi za hvatanje sociolingvističkih varijacija unutar jezika. Trenutni standardi ne adresiraju:

LVTag ispunjava ove praznine koristeći BCP 47 mehanizam privatne uporabe (-x-), pružajući sustavni, strojno čitljiv način kodiranja ovih kritičnih dimenzija jezične varijacije uz održavanje potpune povratne kompatibilnosti.

Precizna jezična klasifikacija

Pojava velikih jezičnih modela i sofisticiranih NLP alata učinila je preciznu klasifikaciju jezičnih varijanti ne samo korisnom već i nužnom. Moderni sustavi trebaju:

LVTag pruža granularne metapodatke potrebne za razumijevanje ne samo koji se jezik koristi, već kako se koristi, omogućujući nijansiranije i prikladnije cjevovode za obradu jezika.

Specifikacija formata

Osnovna struktura

language-x-[classifier]-[value]-[classifier2]-[value2]...

Gdje:

Čarobne oznake

LVTag podržava i dugačke i kratke “čarobne” klasifikatore za fleksibilnost:

Dugački oblik Kratki oblik Opis
ortho w Ortografska varijanta
form f Razina formalnosti (skala 1-5)
polite p Razina pristojnosti/poštovanja (skala 1-5)
domain d Specijalizirani vokabular ili profesionalni kontekst
geo g Geografska ili regionalna varijanta
proto a Prajezik ili rekonstruirani jezik
hist h Povijesno razdoblje ili faza jezika
genre e Tekstualni žanr ili književni stil
medium m Komunikacijski medij (govoren, pisan, digitalni)
socio s Sociolekt ili varijanta društvene grupe
modality o Način jezične produkcije
register r Jezični registar
pragma u Komunikacijska funkcija
temporal t Vremenska oznaka
evidence v Izvor informacija
affect k Emocionalni ton
age n Dobna/generacijska varijanta
gender i Rodna varijanta
expert b Razina stručnosti
interact 2 Interakcijska struktura
prosody y Prozodijska obilježja
lexical l Leksička gustoća (0-100)
syntax z Sintaktička složenost (0-100)
start 0 Datum početka (ISO 8601 bez interpunkcije)
end 1 Datum kraja (ISO 8601 bez interpunkcije)
taboo j Razina tabu/vulgarnog sadržaja (skala 0-5)
conf c Ocjena pouzdanosti (0-100) za prethodnu oznaku
q, 3-9 Rezervirano za buduću uporabu

Klasifikatori

1. Ortografski klasifikator (ortho ili w)

Identificira specifične ortografske konvencije ili varijante pisanja izvan standardnih oznaka pisma.

Format:

Primjeri (kombinirani sa standardnim oznakama pisma):

2. Klasifikator formalnosti (form ili f)

Identificira razinu formalnosti uporabe jezika.

Format:

Skala formalnosti:

Primjeri:

3. Klasifikator pristojnosti (polite ili p)

Identificira razinu pristojnosti/poštovanja uporabe jezika.

Format:

Skala pristojnosti:

Primjeri:

4. Domenski klasifikator (domain ili d)

Identificira specijalizirani vokabular ili profesionalni kontekst.

Format:

Primjeri:

5. Geografski klasifikator (geo ili g)

Identificira regionalne ili geografske jezične varijante.

Format:

Primjeri:

6. Proto klasifikator (proto ili a)

Identificira prajezike ili rekonstruirane povijesne jezike.

Format:

Pravila:

Primjeri s ISO 639-5 kodovima:

Primjeri bez ISO 639-5 kodova (opisni, duži od tri znaka):

Napomena:

7. Povijesni klasifikator (hist ili h)

Identificira povijesna razdoblja ili faze jezika.

Format:

Primjeri:

8. Žanrovski klasifikator (genre ili e)

Identificira tekstualni žanr ili književni stil.

Format:

Primjeri:

9. Medijski klasifikator (medium ili m)

Identificira komunikacijski medij.

Format:

Primjeri:

10. Socio klasifikator (socio ili s)

Identificira socijalekt ili varijante društvenih grupa.

Format:

Primjeri:

11. Modalitetski klasifikator (modality ili o)

Identificira temeljni način jezične produkcije.

Format:

Primjeri:

12. Registarski klasifikator (register ili r)

Identificira jezični registar ili funkcionalnu varijantu uporabe jezika.

Format:

Primjeri:

13. Pragmatički funkcijski klasifikator (pragma ili u)

Identificira komunikacijsku funkciju ili govorni čin.

Format:

Primjeri:

14. Vremenski klasifikator označavanja (temporal ili t)

Identificira vremenske aspekte ili obrasce uporabe vremena.

Format:

Primjeri:

15. Evidencijalni klasifikator (evidence ili v)

Identificira označavanje izvora informacija.

Format:

Primjeri:

16. Afekt/emocija klasifikator (affect ili k)

Identificira emocionalni ton ili afekt.

Format:

Primjeri:

17. Dobni/generacijski klasifikator (age ili n)

Identificira dobno ili generacijski povezane jezične varijante.

Format:

Primjeri:

18. Rodni klasifikator (gender ili i)

Identificira rodno povezane jezične varijante.

Format:

19. Klasifikator razine stručnosti (expert ili b)

Identificira razinu domenske stručnosti na skali 0-10.

Format:

Skala stručnosti:

Primjeri:

20. Interakcijski strukturni klasifikator (interact ili 2)

Identificira konverzacijske ili interakcijske obrasce.

Format:

Primjeri:

21. Prozodijski klasifikator obilježja (prosody ili y)

Identificira prozodijska ili suprasegmentalna obilježja.

Format:

Primjeri:

22. Leksički gustoća klasifikator (lexical ili l)

Identificira leksičku gustoću kao numeričku vrijednost (0-100).

Format:

Primjeri:

23. Sintaktička složenost klasifikator (syntax ili z)

Identificira sintaktičku složenost kao numeričku vrijednost (0-100).

Format:

Primjeri:

24. Klasifikator datuma početka (start ili 0)

Identificira datum početka uporabe jezika (ISO 8601 format bez interpunkcije).

Format:

Formati datuma:

Primjeri:

25. Klasifikator datuma kraja (end ili 1)

Identificira datum kraja uporabe jezika (ISO 8601 format bez interpunkcije).

Format:

Formati datuma:

Primjeri:

26. Tabu klasifikator (taboo ili j)

Identificira razinu tabu, vulgarnog ili uvredljivog sadržaja.

Format:

Primjeri:

27. Klasifikator pouzdanosti (conf ili c)

Označava ocjenu pouzdanosti za neposredno prethodni klasifikator.

Format:

Posebno ponašanje:

Primjeri:

Višestruke klasifikacije

LVTag podržava više klasifikatora u jednoj oznaci za pružanje precizne identifikacije jezika. Dugački i kratki oblici mogu se miješati:

ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

Gornji primjeri pokazuju korejski s neformalnom formalnošću (4) ali pristojnim govorom (2) u poslovnom kontekstu.

Valjane vrijednosti

Napomena: Sve vrijednosti moraju biti 8 znakova ili kraće kako bi se udovoljilo ograničenjima duljine BCP 47 podoznaka. Dok se specifične vrijednosti za mnoge klasifikatore trebaju utvrditi stručnom uporabom i konsenzusom zajednice, numeričke skale, formati datuma i osnovne vrijednosti navedene ispod definirane su u ovom standardu.

Skala formalnosti (Univerzalna)

Razina Opis Primjeri
1 Najformalniji Pravni dokumenti, službene ceremonije, akademski radovi
2 Formalan Poslovni dopisi, novinski članci, prezentacije
3 Neutralan Standardni razgovor, e-mail, opće pisanje
4 Neformalan Ležeran razgovor, osobni blogovi, tekstualne poruke
5 Najležerniji Sleng, intimni razgovor, društveni mediji

Skala pristojnosti (Univerzalna)

Razina Opis Primjeri
1 Najpristojniji Kraljevsko obraćanje, vjerski vođe, poštovanje starijih
2 Vrlo pristojan Korisnička služba, formalni sastanci, učitelji
3 Pristojan/neutralan Standardne interakcije, kolege
4 Familijarno Prijatelji, vršnjaci, ležerni poznanici
5 Intimno/jednostavno Bliska obitelj, intimni partneri

Skala stručnosti (Univerzalna)

Razina Opis
0 Bez znanja
1-2 Početnik
3-4 Srednja razina
5-6 Napredna razina
7-8 Stručnjak
9-10 Majstor/Autoritet

Skala tabua (Univerzalna)

Razina Opis
0 Bez tabu sadržaja
1 Blagi tabu
2 Lagani tabu
3 Umjereni tabu
4 Visoki tabu
5 Ekstremni tabu

Skala leksičke gustoće (Univerzalna)

Razina Opis
0-20 Vrlo niska gustoća
21-40 Niska gustoća
41-60 Umjerena gustoća
61-80 Visoka gustoća
81-100 Vrlo visoka gustoća

Skala sintaktičke složenosti (Univerzalna)

Razina Opis
0-20 Vrlo jednostavno
21-40 Jednostavno
41-60 Umjerena složenost
61-80 Složeno
81-100 Vrlo složeno

Vrijednosti domene

Vrijednost Opis
legal Pravna terminologija
med Medicinska terminologija
tech Tehnička/IT
business Poslovna/korporativna
fin Financije/bankarstvo
acad Akademska/znanstvena
sci Znanstvena/istraživačka

Primjeri implementacije

Pojedinačni klasifikator (Dugački oblik)

# Najformalniji korejski
ko-x-form-1

# Vrlo pristojni japanski
ja-x-polite-2

# Pravni engleski
en-x-domain-legal

# Gyeongsang korejski
ko-x-geo-gyeong

# Praindoeuropski
x-proto-ine

Pojedinačni klasifikator (Kratki oblik)

# Najformalniji korejski
ko-x-f-1

# Vrlo pristojni japanski
ja-x-p-2

# Pravni engleski
en-x-d-legal

# Gyeongsang korejski
ko-x-g-gyeong

# Praindoeuropski
x-a-ine

Višestruki klasifikatori

# Neformalni ali pristojni korejski poslovni jezik
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

# Formalni i pun poštovanja japanski medicinski jezik
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med

# Južni vijetnamski s neutralnom formalnošću, pristojnim govorom, tehničkom domenom
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech

# Složena klasifikacija s više dimenzija
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written

# Jezične varijante koje pokazuju razliku formalnost/pristojnost
ko-x-f-5-p-2  # Vrlo ležeran ali pristojan (starijem prijatelju)
ko-x-f-1-p-4  # Vrlo formalan ali familijarno (pisano vršnjaku)
ja-x-f-4-p-1  # Ležerna formalnost ali najviše poštovanje
en-x-f-5-j-4  # Vrlo ležerni engleski s visokom razinom tabua

Slučajevi uporabe

  1. Aplikacije za učenje jezika
    • Podučavati odgovarajući registar za različite društvene kontekste
    • Pružati domenski specifično vokabularno usavršavanje
  2. Strojno prevođenje
    • Održavati dosljednost registra u prijevodima
    • Primjenjivati domenski specifičnu terminologiju
  3. Klasifikacija sadržaja
    • Automatski kategorizirati tekst prema formalnosti i domeni
    • Usmjeravati sadržaj odgovarajućim recenzentima ili sustavima
  4. Korpusna lingvistika
    • Graditi označene korpuse za lingvističko istraživanje
    • Proučavati varijacije registra i domene

Pravila validacije

  1. Duljina podoznake: Svaka podoznaka nakon x- mora imati 8 znakova ili manje
  2. Redoslijed: Klasifikatori mogu se pojaviti bilo kojim redoslijedom nakon x-
  3. Jedinstvenost: Svaki tip klasifikatora trebao bi se pojaviti samo jednom po oznaci (osim conf koji se može pojaviti više puta)
  4. Velika/mala slova: Oznake bi trebale biti malim slovima (ne razlikuje se veličina slova prema BCP 47)
  5. Čarobne oznake: Kratke oznake su pojedinačni znakovi; q, 3-9 rezervirani su za buduću uporabu
  6. Miješanje: Dugački i kratki oblici mogu se miješati unutar iste oznake
  7. Proto oznake: Moraju počinjati s x- i TREBALE BI koristiti ISO 639-5 kodove kada su dostupni (npr. x-proto-sla ne x-proto-slavic)
  8. Pouzdanost: Klasifikator conf/c odnosi se na neposredno prethodni klasifikator
  9. Numeričke vrijednosti: Moraju biti unutar definiranih raspona (0-5 za tabu, 0-10 za stručnost, 0-100 za postotne vrijednosti)
  10. Format datuma: Datumi koriste ISO 8601 bez interpunkcije (YYYY, YYYYMM ili YYYYMMDD)

Kompatibilnost

LVTag format je potpuno kompatibilan s:

Prednosti

  1. Preciznost: Omogućuje finozrnu identifikaciju jezičnih varijanti
  2. Proširivost: Mogu se dodati novi registri i domene
  3. Temeljen na standardima: Izgrađen na utvrđenom BCP 47 mehanizmu privatne uporabe
  4. Strojno čitljiv: Sustavni format omogućuje automatiziranu obradu
  5. Ljudski čitljiv: Jasne, opisne podoznake
  6. Fleksibilnost: Podrška za detaljne dugačke i sažete kratke oznake
  7. Kratkoća: Kratke čarobne oznake omogućuju kompaktnu reprezentaciju uz održavanje jasnoće

Buduća proširenja

LVTag je dizajniran da evoluira s potrebama zajednice jezičnih tehnologija. Pozdravljamo prijedloge za nove klasifikatore, poboljšanja postojećih i povratne informacije iz stvarnih implementacija.

Za predlaganje proširenja ili doprinos specifikaciji:

Rezervirani jednoznačni kodovi (q, 3-9) dostupni su za buduća standardizirana proširenja.

Reference


Licenca i davanje patenata

Ova specifikacija objavljena je pod CC0 1.0 Universal (Public Domain Dedication).

Zašto CC0: Kako bi osigurali maksimalno prihvaćanje i slobodu implementacije, LVTag je stavljen u javnu domenu. To znači:

Davanje patenata: Svi patenti koji pokrivaju LVTag specifikaciju ovime se licenciraju bez naknade za bilo koju implementaciju koja je u skladu s ovom specifikacijom.

Bez podrške: Korištenje LVTaga ne implicira podršku autora specifikacije.

U mjeri dopuštenoj zakonom, Danslav Slavenskoj odrekao se svih autorskih i srodnih ili susjednih prava na specifikaciju Language Variant Tag (LVTag) formata. Ovaj rad objavljen je iz: Sjedinjene Američke Države. EOF < /dev/null