Skip to the content.
LVTag Logo

LVTag спецификација

Верзија 1.0
Креирао Danslav Slavenskoj
Датум: Мај 2025

Језици: 中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски

Брзе везе

Преглед

Language Variant Tag (LVTag) формат је систематски приступ класификацији језика који проширује BCP 47 стандард коришћењем под-ознака приватне употребе. Омогућава прецизну идентификацију језичких варијанти кроз више димензија укључујући формалност, учтивост, домен и правопис.

Кључне предности

Ригорозност класификације: LVTag доноси систематску организацију у означавање језика пружајући јасне, одвојене димензије за различите типове варијација. За разлику од постојећих под-ознака и система који мешају различите категорије на истом нивоу, LVTag одржава стриктно раздвајање између формалности, учтивости, домена и других димензија.

Компатибилност са стандардима: LVTag је потпуно компатибилан са BCP 47 (RFC 5646) и беспрекорно функционише са:

Технолошка интеграција: LVTag ознаке се могу директно користити у:

Случајеви употребе:

Образложење

Док BCP 47 пружа одличну подршку за идентификацију језика, писама и региона, недостају му стандардизовани механизми за хватање социолингвистичких варијација унутар језика. Тренутни стандарди не покривају:

LVTag попуњава ове празнине користећи BCP 47 механизам проширења приватне употребе (-x-), пружајући систематичан, машински читљив начин кодирања ових критичних димензија језичке варијације уз одржавање потпуне компатибилности уназад.

Прецизна језичка класификација

Појава великих језичких модела и софистицираних NLP алата учинила је прецизну класификацију језичких варијанти не само корисном већ неопходном. Модерни системи морају да:

LVTag пружа грануларне метаподатке потребне за разумевање не само који језик се користи, већ како се користи, омогућавајући нијансираније и одговарајуће процесе обраде језика.

Спецификација формата

Основна структура

language-x-[classifier]-[value]-[classifier2]-[value2]...

Где:

Магичне ознаке

LVTag подржава и дуге и кратке облике “магичних” класификатора за флексибилност:

Дуги облик Кратки облик Опис
ortho w Правописна варијанта
form f Ниво формалности (скала 1-5)
polite p Ниво учтивости/поштовања (скала 1-5)
domain d Специјализован вокабулар или професионални контекст
geo g Географска или регионална варијанта
proto a Прајезик или реконструисан језик
hist h Историјски период или фаза језика
genre e Текстуални жанр или књижевни стил
medium m Медијум комуникације (говорни, писани, дигитални)
socio s Социјалект или варијанта друштвене групе
modality o Начин језичке продукције
register r Језички регистар
pragma u Комуникативна функција
temporal t Временско означавање
evidence v Извор информација
affect k Емоционални тон
age n Старосна/генерацијска варијанта
gender i Родна варијанта
expert b Ниво стручности
interact 2 Интеракциона структура
prosody y Прозодијске карактеристике
lexical l Лексичка густина (0-100)
syntax z Синтаксичка сложеност (0-100)
start 0 Датум почетка (ISO 8601 без интерпункције)
end 1 Датум краја (ISO 8601 без интерпункције)
taboo j Ниво табу/вулгарног садржаја (скала 0-5)
conf c Оцена поверења (0-100) за претходну ознаку
q, 3-9 Резервисано за будућу употребу

Класификатори

1. Правописни класификатор (ortho или w)

Идентификује специфичне правописне конвенције или варијанте система писања изван стандардних ознака писма.

Формат:

Примери (у комбинацији са стандардним ознакама писма):

2. Класификатор формалности (form или f)

Идентификује ниво формалности употребе језика.

Формат:

Скала формалности:

Примери:

3. Класификатор учтивости (polite или p)

Идентификује ниво учтивости/поштовања употребе језика.

Формат:

Скала учтивости:

Примери:

4. Доменски класификатор (domain или d)

Идентификује специјализован вокабулар или професионални контекст.

Формат:

Примери:

5. Географски класификатор (geo или g)

Идентификује регионалне или географске језичке варијанте.

Формат:

Примери:

6. Прото класификатор (proto или a)

Идентификује прајезике или реконструисане историјске језике.

Формат:

Правила:

Примери са ISO 639-5 кодовима:

Примери без ISO 639-5 кодова (описни, више од три карактера):

Напомена:

7. Историјски класификатор (hist или h)

Идентификује историјске периоде или фазе језика.

Формат:

Примери:

8. Жанровски класификатор (genre или e)

Идентификује текстуални жанр или књижевни стил.

Формат:

Примери:

9. Медијски класификатор (medium или m)

Идентификује медијум комуникације.

Формат:

Примери:

10. Социо класификатор (socio или s)

Идентификује социјалект или варијанте друштвених група.

Формат:

Примери:

11. Класификатор модалитета (modality или o)

Идентификује основни начин језичке продукције.

Формат:

Примери:

12. Регистарски класификатор (register или r)

Идентификује језички регистар или функционалну варијанту употребе језика.

Формат:

Примери:

13. Класификатор прагматичке функције (pragma или u)

Идентификује комуникативну функцију или говорни чин.

Формат:

Примери:

14. Класификатор временског означавања (temporal или t)

Идентификује временске аспекте или обрасце употребе времена.

Формат:

Примери:

15. Евиденцијални класификатор (evidence или v)

Идентификује означавање извора информација.

Формат:

Примери:

16. Класификатор афекта/емоције (affect или k)

Идентификује емоционални тон или афекат.

Формат:

Примери:

17. Класификатор старости/генерације (age или n)

Идентификује старосне или генерацијске језичке варијанте.

Формат:

Примери:

18. Родни класификатор (gender или i)

Идентификује родно повезане језичке варијанте.

Формат:

19. Класификатор нивоа стручности (expert или b)

Идентификује ниво доменске стручности на скали 0-10.

Формат:

Скала стручности:

Примери:

20. Класификатор интеракционе структуре (interact или 2)

Идентификује конверзацијске или интеракционе обрасце.

Формат:

Примери:

21. Класификатор прозодијских карактеристика (prosody или y)

Идентификује прозодијске или супрасегменталне карактеристике.

Формат:

Примери:

22. Класификатор лексичке густине (lexical или l)

Идентификује лексичку густину као нумеричку вредност (0-100).

Формат:

Примери:

23. Класификатор синтаксичке сложености (syntax или z)

Идентификује синтаксичку сложеност као нумеричку вредност (0-100).

Формат:

Примери:

24. Класификатор датума почетка (start или 0)

Идентификује датум почетка употребе језика (ISO 8601 формат без интерпункције).

Формат:

Формати датума:

Примери:

25. Класификатор датума краја (end или 1)

Идентификује датум краја употребе језика (ISO 8601 формат без интерпункције).

Формат:

Формати датума:

Примери:

26. Табу класификатор (taboo или j)

Идентификује ниво табу, вулгарног или увредљивог садржаја.

Формат:

Примери:

27. Класификатор поверења (conf или c)

Означава оцену поверења за непосредно претходни класификатор.

Формат:

Посебно понашање:

Примери:

Вишеструке класификације

LVTag подржава више класификатора у једној ознаци за прецизну идентификацију језика. Дуги и кратки облици се могу мешати:

ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

Горњи примери приказују корејски са неформалном формалношћу (4) али учтивим говором (2) у пословном контексту.

Валидне вредности

Напомена: Све вредности морају бити 8 карактера или мање да би се придржавале ограничења дужине под-ознаке BCP 47. Док се специфичне вредности за многе класификаторе треба установити кроз стручну употребу и консензус заједнице, нумеричке скале, формати датума и основне вредности наведене испод су дефинисане у овом стандарду.

Скала формалности (Универзална)

Ниво Опис Примери
1 Најформалнији Правни документи, званичне церемоније, академски радови
2 Формалан Пословна писма, новински чланци, презентације
3 Неутралан Стандардни разговор, имејл, опште писање
4 Неформалан Опуштен разговор, лични блогови, текстуалне поруке
5 Најопуштенији Сленг, интимни разговор, друштвени медији

Скала учтивости (Универзална)

Ниво Опис Примери
1 Најучтивији Краљевско обраћање, верске вође, поштовање старијих
2 Веома учтив Корисничка подршка, формални састанци, наставници
3 Учтив/неутралан Стандардне интеракције, колеге
4 Фамилијаран Пријатељи, вршњаци, повремени познаници
5 Интиман/једноставан Блиска породица, интимни партнери

Скала стручности (Универзална)

Ниво Опис
0 Без знања
1-2 Почетник
3-4 Средњи ниво
5-6 Напредни
7-8 Стручњак
9-10 Мајстор/Ауторитет

Скала табуа (Универзална)

Ниво Опис
0 Без табу садржаја
1 Благи табу
2 Лаки табу
3 Умерени табу
4 Високи табу
5 Екстремни табу

Скала лексичке густине (Универзална)

Ниво Опис
0-20 Веома ниска густина
21-40 Ниска густина
41-60 Умерена густина
61-80 Висока густина
81-100 Веома висока густина

Скала синтаксичке сложености (Универзална)

Ниво Опис
0-20 Веома једноставна
21-40 Једноставна
41-60 Умерена сложеност
61-80 Сложена
81-100 Веома сложена

Вредности домена

Вредност Опис
legal Правна терминологија
med Медицинска терминологија
tech Техничка/ИТ
business Пословна/корпоративна
fin Финансије/банкарство
acad Академска/научна
sci Научна/истраживачка

Примери имплементације

Појединачни класификатор (Дуги облик)

# Најформалнији корејски
ko-x-form-1

# Веома учтив јапански
ja-x-polite-2

# Правни енглески
en-x-domain-legal

# Кјонгсанг корејски
ko-x-geo-gyeong

# Праиндоевропски
x-proto-ine

Појединачни класификатор (Кратки облик)

# Најформалнији корејски
ko-x-f-1

# Веома учтив јапански
ja-x-p-2

# Правни енглески
en-x-d-legal

# Кјонгсанг корејски
ko-x-g-gyeong

# Праиндоевропски
x-a-ine

Вишеструки класификатори

# Неформалан али учтив корејски пословни језик
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

# Формалан и пун поштовања јапански медицински језик
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med

# Јужни вијетнамски са неутралном формалношћу, учтивим говором, техничком доменом
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech

# Сложена класификација са више димензија
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written

# Језичке варијанте које показују разлику формалност/учтивост
ko-x-f-5-p-2  # Веома опуштен али учтив (према старијем пријатељу)
ko-x-f-1-p-4  # Веома формалан али фамилијаран (писано вршњаку)
ja-x-f-4-p-1  # Опуштена формалност али највише поштовање
en-x-f-5-j-4  # Веома опуштен енглески са високим нивоом табуа

Случајеви употребе

  1. Апликације за учење језика
    • Подучавање одговарајућем регистру за различите друштвене контексте
    • Пружање тренинга вокабулара специфичног за домену
  2. Машинско превођење
    • Одржавање доследности регистра у преводима
    • Примена терминологије специфичне за домену
  3. Класификација садржаја
    • Аутоматска категоризација текста према формалности и домени
    • Усмеравање садржаја одговарајућим рецензентима или системима
  4. Корпусна лингвистика
    • Изградња означених корпуса за лингвистичка истраживања
    • Проучавање варијација регистра и домене

Правила валидације

  1. Дужина под-ознаке: Свака под-ознака после x- мора имати 8 карактера или мање
  2. Редослед: Класификатори се могу појавити било којим редоследом после x-
  3. Јединственост: Сваки тип класификатора треба да се појави само једном по ознаци (осим conf који се може појавити више пута)
  4. Велика/мала слова: Ознаке треба да буду малим словима (не прави разлику велика/мала слова према BCP 47)
  5. Магичне ознаке: Ознаке кратког облика су појединачни карактери; q, 3-9 су резервисани за будућу употребу
  6. Мешање: Дуги и кратки облици се могу мешати унутар исте ознаке
  7. Прото ознаке: Морају почињати са x- и ТРЕБА да користе ISO 639-5 кодове када су доступни (нпр. x-proto-sla не x-proto-slavic)
  8. Поверење: Класификатор conf/c се примењује на непосредно претходни класификатор
  9. Нумеричке вредности: Морају бити унутар дефинисаних опсега (0-5 за табу, 0-10 за стручност, 0-100 за процентуалне вредности)
  10. Формат датума: Датуми користе ISO 8601 без интерпункције (YYYY, YYYYMM или YYYYMMDD)

Компатибилност

LVTag формат је потпуно компатибилан са:

Предности

  1. Прецизност: Омогућава финозрну идентификацију језичких варијанти
  2. Проширивост: Нови регистри и домене могу се додати
  3. Заснован на стандардима: Изграђен на утврђеном BCP 47 механизму приватне употребе
  4. Машински читљив: Систематски формат омогућава аутоматизовану обраду
  5. Људски читљив: Јасне, описне под-ознаке
  6. Флексибилност: Подршка за детаљне дуге и сажете кратке ознаке
  7. Краткоћа: Кратке магичне ознаке омогућавају компактну репрезентацију уз задржавање јасноће

Будућа проширења

LVTag је дизајниран да еволуира са потребама заједнице језичких технологија. Поздрављамо предлоге за нове класификаторе, побољшања постојећих и повратне информације из реалних имплементација.

За предлагање проширења или допринос спецификацији:

Резервисани једнокарактерни кодови (q, 3-9) су доступни за будућа стандардизована проширења.

Референце


Лиценца и додела патената

Ова спецификација је објављена под CC0 1.0 Universal (Public Domain Dedication).

Зашто CC0: Да би се обезбедило максимално усвајање и слобода имплементације, LVTag је стављен у јавну својину. То значи:

Додела патената: Сви патенти који покривају LVTag спецификацију се овим дају без накнаде за било коју имплементацију која је у складу са овом спецификацијом.

Без препоруке: Коришћење LVTag не имплицира препоруку аутора спецификације.

У мери дозвољеној законом, Danslav Slavenskoj се одрекао свих ауторских и сродних или суседних права на Language Variant Tag (LVTag) Format Specification. Овај рад је објављен из: Сједињених Америчких Држава.