
Спецификация LVTag
Версия 1.0
Создал Danslav Slavenskoj
Дата: Май 2025
Языки: 中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски
Быстрые ссылки
- JSON схема - Полная схема валидации для формата LVTag
- Определения классификаторов - Машиночитаемые спецификации классификаторов
- Спецификация - Перейти к деталям формата
- Примеры - Посмотреть LVTag в действии
Обзор
Формат Language Variant Tag (LVTag) - это систематический подход к классификации языков, который расширяет стандарт BCP 47 с использованием подтегов частного использования. Он позволяет точно идентифицировать языковые варианты по нескольким измерениям, включая формальность, вежливость, область и орфографию.
Ключевые преимущества
Строгость классификации: LVTag привносит систематическую организацию в языковую маркировку, предоставляя четкие, отдельные измерения для различных типов вариаций. В отличие от существующих подтегов и систем, которые смешивают разные категории на одном уровне, LVTag поддерживает строгое разделение между формальностью, вежливостью, областью и другими измерениями.
Совместимость со стандартами: LVTag полностью совместим с BCP 47 (RFC 5646) и бесшовно работает с:
- Реестром языковых подтегов IANA
- Языковыми кодами ISO 639
- Unicode CLDR
- Языковыми тегами W3C
- Заголовками HTTP Accept-Language
- Атрибутами lang XML
- Атрибутами lang HTML
Технологическая интеграция: Теги LVTag могут использоваться напрямую в:
- Конвейерах обработки естественного языка (NLP)
- Системах машинного перевода
- Системах управления контентом (CMS)
- Библиотеках определения языка
- Поисковых системах и системах поиска информации
- Веб-приложениях и API
- Рабочих процессах локализации
Случаи использования:
- Целевая аудитория: Адаптация контента для соответствующей аудитории на основе регистра и области
- Качество перевода: Поддержание соответствующих уровней формальности и вежливости в машинном переводе
- Изучение языков: Обучение учащихся соответствующему регистру для различных контекстов
- Корпусная лингвистика: Создание точно размеченных корпусов для исследований
- Анализ социальных сетей: Классификация пользовательского контента по регистру и области
- Обслуживание клиентов: Направление сообщений на основе формальности и области соответствующим агентам
Обоснование
Хотя BCP 47 обеспечивает отличную поддержку для идентификации языков, письменностей и регионов, ему не хватает стандартизированных механизмов для фиксации социолингвистических вариаций внутри языка. Текущие стандарты не охватывают:
- Вариации регистра: Нет способа различать формальные и неформальные разновидности одного языка
- Уровни вежливости: Критично для языков, таких как японский, корейский и тайский, где вежливость грамматически закодирована
- Специализированный язык: Нет стандарта для маркировки технических, медицинских или юридических языковых разновидностей
- Социолекты: Нет механизма для идентификации разновидностей социальных групп (молодежный язык, профессиональный жаргон)
- Исторические этапы: Ограниченная поддержка различения классических форм от современных
- Градиенты формальности: Нет числовой шкалы для вычислительной обработки регистра
- Праязыки: Непоследовательное кодирование - некоторые праязыки имеют коды ISO (например,
ine
для PIE), в то время как другие нет, а коды семейств ISO 639-5 недействительны в тегах BCP 47, создавая запутанную ситуацию для исторической лингвистики - Орфографические вариации: Хотя BCP 47 обрабатывает письменности, он не эффективно фиксирует вариации внутри письменностей (орфографические реформы, системы романизации, конкурирующие стандарты), которые фундаментально влияют на обработку текста, поиск и проверку орфографии
LVTag заполняет эти пробелы, используя механизм расширения частного использования BCP 47 (-x-
), предоставляя систематический, машиночитаемый способ кодирования этих критических измерений языковой вариации при сохранении полной обратной совместимости.
Точная языковая классификация
Появление больших языковых моделей и сложных инструментов NLP сделало точную классификацию языковых разновидностей не просто полезной, но необходимой. Современные системы должны:
- Генерировать текст, подходящий для конкретных контекстов (формальный vs. неформальный, вежливый vs. повседневный)
- Обучаться на правильно классифицированных корпусах, чтобы избежать неуместного смешения регистров
- Предоставлять культурно и контекстуально подходящие ответы
- Точно обрабатывать переключение кода и смешанный языковой контент
- Сохранять стилистическую последовательность при переводе или преобразовании текста
- Фильтровать обучающие данные на основе формальности, области или других характеристик
- Адаптировать вывод в соответствии с предпочтениями или требованиями пользователя
LVTag предоставляет детализированные метаданные, необходимые для понимания не только того, какой язык используется, но и как он используется, позволяя создавать более тонкие и подходящие конвейеры обработки языка.
Спецификация формата
Базовая структура
language-x-[classifier]-[value]-[classifier2]-[value2]...
Где:
language
- это действительный подтег основного языка BCP 47 (например,en
,ko
,ja
)x
указывает на начало подтегов частного использованияclassifier
- это идентификатор категории (см. Магические теги ниже)value
- это конкретная классификация в рамках этой категории
Магические теги
LVTag поддерживает как длинные, так и короткие формы “магических” классификаторов для гибкости:
Длинная форма | Короткая форма | Описание |
---|---|---|
ortho |
w |
Орфографический вариант |
form |
f |
Уровень формальности (шкала 1-5) |
polite |
p |
Уровень вежливости/уважения (шкала 1-5) |
domain |
d |
Специализированная лексика или профессиональный контекст |
geo |
g |
Географическая или региональная разновидность |
proto |
a |
Праязык или реконструированный язык |
hist |
h |
Исторический период или этап языка |
genre |
e |
Текстовый жанр или литературный стиль |
medium |
m |
Средство коммуникации (устное, письменное, цифровое) |
socio |
s |
Социолект или разновидность социальной группы |
modality |
o |
Способ языкового производства |
register |
r |
Языковой регистр |
pragma |
u |
Коммуникативная функция |
temporal |
t |
Временная маркировка |
evidence |
v |
Источник информации |
affect |
k |
Эмоциональный тон |
age |
n |
Возрастная/поколенческая разновидность |
gender |
i |
Гендерная разновидность |
expert |
b |
Уровень экспертизы |
interact |
2 |
Интеракциональная структура |
prosody |
y |
Просодические особенности |
lexical |
l |
Лексическая плотность (0-100) |
syntax |
z |
Синтаксическая сложность (0-100) |
start |
0 |
Дата начала (ISO 8601 без пунктуации) |
end |
1 |
Дата окончания (ISO 8601 без пунктуации) |
taboo |
j |
Уровень табуированного/вульгарного контента (шкала 0-5) |
conf |
c |
Оценка уверенности (0-100) для предыдущего тега |
— | q , 3 -9 |
Зарезервировано для будущего использования |
Классификаторы
1. Орфографический классификатор (ortho
или w
)
Идентифицирует конкретные орфографические конвенции или варианты системы письма за пределами стандартных тегов письменности.
Формат:
- Длинный:
language-x-ortho-[variant]
- Короткий:
language-x-w-[variant]
Примеры (в сочетании со стандартными тегами письменности):
az-Latn-x-ortho-new
илиaz-Latn-x-w-new
- Азербайджанский латиница, новая орфографияde-Latn-x-ortho-1901
илиde-Latn-x-w-1901
- Немецкий латиница, орфография 1901 годаzh-Hans-x-ortho-pinyin
илиzh-Hans-x-w-pinyin
- Упрощенный китайский с пиньиньyi-Hebr-x-ortho-yivo
илиyi-Hebr-x-w-yivo
- Идиш еврейское письмо, орфография YIVO
2. Классификатор формальности (form
или f
)
Идентифицирует уровень формальности языкового использования.
Формат:
- Длинный:
language-x-form-[1-5]
- Короткий:
language-x-f-[1-5]
Шкала формальности:
- 1 = Наиболее формальный (письменные документы, официальные речи)
- 2 = Формальный (деловые встречи, академическое письмо)
- 3 = Нейтральный/стандартный (новости, общий разговор)
- 4 = Неформальный (непринужденный разговор, электронные письма друзьям)
- 5 = Наиболее повседневный (интимный разговор, сленг)
Примеры:
ko-x-form-1
илиko-x-f-1
- Наиболее формальный корейскийen-x-form-3
илиen-x-f-3
- Нейтральный английскийja-x-form-5
илиja-x-f-5
- Наиболее повседневный японский
3. Классификатор вежливости (polite
или p
)
Идентифицирует уровень вежливости/уважения языкового использования.
Формат:
- Длинный:
language-x-polite-[1-5]
- Короткий:
language-x-p-[1-5]
Шкала вежливости:
- 1 = Наиболее уважительный/почтительный (королевское обращение, религиозные контексты)
- 2 = Очень вежливый (формальные почетные формы, уважительная речь)
- 3 = Вежливый/нейтральный (стандартная вежливость)
- 4 = Дружеский (между равными, друзьями)
- 5 = Интимный/простой (семья, очень близкие друзья)
Примеры:
ko-x-polite-1
илиko-x-p-1
- Корейский с высшим уважениемja-x-polite-2
илиja-x-p-2
- Очень вежливый японскийth-x-polite-3
илиth-x-p-3
- Стандартно вежливый тайский
4. Классификатор области (domain
или d
)
Идентифицирует специализированную лексику или профессиональный контекст.
Формат:
- Длинный:
language-x-domain-[domain_type]
- Короткий:
language-x-d-[domain_type]
Примеры:
en-x-domain-legal
илиen-x-d-legal
- Юридический английскийja-x-domain-med
илиja-x-d-med
- Медицинский японскийko-x-domain-business
илиko-x-d-business
- Деловой корейскийja-x-domain-tech
илиja-x-d-tech
- Технический японскийen-x-domain-fin
илиen-x-d-fin
- Финансовый английский
5. Географический классификатор (geo
или g
)
Идентифицирует региональные или географические языковые разновидности.
Формат:
- Длинный:
language-x-geo-[region]
- Короткий:
language-x-g-[region]
Примеры:
ko-x-geo-gyeong
илиko-x-g-gyeong
- Корейский из Кёнсан (경상도)ko-x-geo-jeolla
илиko-x-g-jeolla
- Корейский из Чолла (전라도)es-x-geo-riopla
илиes-x-g-riopla
- Риоплатский испанскийpt-x-geo-nordeste
илиpt-x-g-nordeste
- Португальский северо-востока Бразилии
6. Классификатор прото (proto
или a
)
Идентифицирует праязыки или реконструированные исторические языки.
Формат:
- Длинный:
x-proto-[iso639-5_code if available]
- Короткий:
x-a-[iso639-5_code if available]
Правила:
- ДОЛЖЕН использовать коды языковых семейств ISO 639-5, когда они доступны
- Использовать описательные идентификаторы только когда код ISO 639-5 не существует
Примеры с использованием кодов ISO 639-5:
x-proto-ine
илиx-a-ine
- Праиндоевропейскийx-proto-gem
илиx-a-gem
- Прагерманскийx-proto-sla
илиx-a-sla
- Праславянскийx-proto-sem
илиx-a-sem
- Прасемитскийx-proto-cel
илиx-a-cel
- Пракельтскийx-proto-ira
илиx-a-ira
- Праиранскийx-proto-inc
илиx-a-inc
- Праиндоарийскийx-proto-bat
илиx-a-bat
- Прабалтийскийx-proto-roa
илиx-a-roa
- Праромансскийx-proto-trk
илиx-a-trk
- Пратюркский
Примеры без кодов ISO 639-5 (описательные, более трех символов):
x-proto-baltslav
илиx-a-baltslav
- Прабалтославянский (нет кода ISO 639-5)
Примечание:
- Коды языковых семейств (ISO 639-5) НЕ являются действительными как стандартные основные языковые теги BCP 47, поэтому мы реализовали их с использованием x-proto
- Они действительны и предпочтительны в расширениях частного использования (после
x-
) - Поэтому все теги праязыков должны начинаться с
x-
для соответствия BCP 47
7. Исторический классификатор (hist
или h
)
Идентифицирует исторические периоды или этапы языка.
Формат:
- Длинный:
language-x-hist-[period]
- Короткий:
language-x-h-[period]
Примеры:
en-x-hist-old
илиen-x-h-old
- Древнеанглийский периодen-x-hist-middle
илиen-x-h-middle
- Среднеанглийский периодja-x-hist-kobun
илиja-x-h-kobun
- Классический японский (古文)ko-x-hist-hunmin
илиko-x-h-hunmin
- Среднекорейский (훈민정음 период)el-x-hist-koine
илиel-x-h-koine
- Койне греческий (Κοινή)sa-x-hist-vedic
илиsa-x-h-vedic
- Ведийский санскрит (वैदिक)
8. Жанровый классификатор (genre
или e
)
Идентифицирует текстовый жанр или литературный стиль.
Формат:
- Длинный:
language-x-genre-[genre_type]
- Короткий:
language-x-e-[genre_type]
Примеры:
en-x-genre-news
илиen-x-e-news
- Новостной английскийja-x-genre-manga
илиja-x-e-manga
- Японский манга (漫画)ko-x-genre-webtoon
илиko-x-e-webtoon
- Корейский вебтун (웹툰)zh-x-genre-shi
илиzh-x-e-shi
- Китайская поэзия (詩)fr-x-genre-bd
илиfr-x-e-bd
- Французские комиксы (bande dessinée)de-x-genre-marchen
илиde-x-e-marchen
- Немецкие сказки (Märchen)
9. Классификатор средства (medium
или m
)
Идентифицирует средство коммуникации.
Формат:
- Длинный:
language-x-medium-[medium_type]
- Короткий:
language-x-m-[medium_type]
Примеры:
en-x-medium-spoken
илиen-x-m-spoken
- Устный английскийko-x-medium-digital
илиko-x-m-digital
- Цифровой/онлайн корейскийja-x-medium-written
илиja-x-m-written
- Письменный японскийhi-x-medium-bcast
илиhi-x-m-bcast
- Вещательный хиндиzh-x-medium-sms
илиzh-x-m-sms
- Китайский SMS/текстовые сообщения
10. Социо классификатор (socio
или s
)
Идентифицирует социолект или разновидности социальных групп.
Формат:
- Длинный:
language-x-socio-[social_group]
- Короткий:
language-x-s-[social_group]
Примеры:
en-x-socio-academic
илиen-x-s-academic
- Академический социолектen-x-socio-urban
илиen-x-s-urban
- Городской социолектes-x-socio-juvenil
илиes-x-s-juvenil
- Испанский молодежный социолект (jerga juvenil)fr-x-socio-jeune
илиfr-x-s-jeune
- Французский молодежный социолектde-x-socio-jugend
илиde-x-s-jugend
- Немецкий молодежный социолект (Jugendsprache)ko-x-socio-online
илиko-x-s-online
- Корейский онлайн социолект
11. Классификатор модальности (modality
или o
)
Идентифицирует фундаментальный способ языкового производства.
Формат:
- Длинный:
language-x-modality-[mode]
- Короткий:
language-x-o-[mode]
Примеры:
en-x-modality-spoken
илиen-x-o-spoken
- Устный английскийen-x-modality-written
илиen-x-o-written
- Письменный английскийasl-x-modality-signed
илиasl-x-o-signed
- Американский жестовый языкen-x-modality-multi
илиen-x-o-multi
- Мультимодальный английский (речь + жесты)fr-x-modality-tactile
илиfr-x-o-tactile
- Тактильный французский (для слепоглухих)
12. Классификатор регистра (register
или r
)
Идентифицирует языковой регистр или функциональную разновидность языкового использования.
Формат:
- Длинный:
language-x-register-[register_type]
- Короткий:
language-x-r-[register_type]
Примеры:
en-x-register-frozen
илиen-x-r-frozen
- Замороженный регистр (молитвы, клятвы)en-x-register-formal
илиen-x-r-formal
- Формальный регистр (академические статьи)en-x-register-consult
илиen-x-r-consult
- Консультативный регистр (профессиональный)en-x-register-casual
илиen-x-r-casual
- Повседневный регистр (друзья)en-x-register-intimate
илиen-x-r-intimate
- Интимный регистр (семья)
13. Классификатор прагматической функции (pragma
или u
)
Идентифицирует коммуникативную функцию или речевой акт.
Формат:
- Длинный:
language-x-pragma-[function]
- Короткий:
language-x-u-[function]
Примеры:
en-x-pragma-request
илиen-x-u-request
- Функция просьбыja-x-pragma-apology
илиja-x-u-apology
- Функция извиненияes-x-pragma-complmnt
илиes-x-u-complmnt
- Функция комплиментаar-x-pragma-greeting
илиar-x-u-greeting
- Функция приветствияzh-x-pragma-refusal
илиzh-x-u-refusal
- Функция отказа
14. Классификатор временной маркировки (temporal
или t
)
Идентифицирует временные аспекты или паттерны использования времени.
Формат:
- Длинный:
language-x-temporal-[aspect]
- Короткий:
language-x-t-[aspect]
Примеры:
en-x-temporal-past
илиen-x-t-past
- Ориентированный на прошлое дискурсja-x-temporal-nonpast
илиja-x-t-nonpast
- Фокус на непрошлоеid-x-temporal-atemprl
илиid-x-t-atemprl
- Вневременной/атемпоральныйfr-x-temporal-future
илиfr-x-t-future
- Ориентированный на будущееzh-x-temporal-aspect
илиzh-x-t-aspect
- Аспектуальный фокус
15. Эвиденциальный классификатор (evidence
или v
)
Идентифицирует маркировку источника информации.
Формат:
- Длинный:
language-x-evidence-[source]
- Короткий:
language-x-v-[source]
Примеры:
qu-x-evidence-direct
илиqu-x-v-direct
- Прямой свидетельtr-x-evidence-hearsay
илиtr-x-v-hearsay
- По слухам/сообщеноja-x-evidence-infer
илиja-x-v-infer
- Инференциальныйen-x-evidence-assume
илиen-x-v-assume
- Предполагаемыйde-x-evidence-quote
илиde-x-v-quote
- Цитативный
16. Классификатор аффекта/эмоции (affect
или k
)
Идентифицирует эмоциональный тон или аффект.
Формат:
- Длинный:
language-x-affect-[emotion]
- Короткий:
language-x-k-[emotion]
Примеры:
en-x-affect-angry
илиen-x-k-angry
- Сердитый тонja-x-affect-humble
илиja-x-k-humble
- Смиренный аффектes-x-affect-joyful
илиes-x-k-joyful
- Радостное выражениеko-x-affect-sad
илиko-x-k-sad
- Грустный/меланхоличныйfr-x-affect-neutral
илиfr-x-k-neutral
- Нейтральный аффект
17. Классификатор возраста/поколения (age
или n
)
Идентифицирует возрастные или поколенческие языковые разновидности.
Формат:
- Длинный:
language-x-age-[generation]
- Короткий:
language-x-n-[generation]
Примеры:
en-x-age-child
илиen-x-n-child
- Детская речьja-x-age-teen
илиja-x-n-teen
- Подростковый языкko-x-age-elder
илиko-x-n-elder
- Речь пожилыхes-x-age-genz
илиes-x-n-genz
- Поколение Zzh-x-age-millenl
илиzh-x-n-millenl
- Речь миллениалов
18. Гендерный классификатор (gender
или i
)
Идентифицирует гендерные языковые разновидности.
Формат:
- Длинный:
language-x-gender-[identity]
- Короткий:
language-x-i-[identity]
19. Классификатор уровня экспертизы (expert
или b
)
Идентифицирует уровень предметной экспертизы по шкале 0-10.
Формат:
- Длинный:
language-x-expert-[0-10]
- Короткий:
language-x-b-[0-10]
Шкала экспертизы:
- 0 = Нет знаний
- 1-2 = Начинающий
- 3-4 = Средний уровень
- 5-6 = Продвинутый
- 7-8 = Эксперт
- 9-10 = Мастер/Авторитет
Примеры:
en-x-expert-0
илиen-x-b-0
- Нет экспертизыde-x-expert-3
илиde-x-b-3
- Средний уровеньja-x-expert-7
илиja-x-b-7
- Уровень экспертаes-x-expert-9
илиes-x-b-9
- Уровень мастераzh-x-expert-5
илиzh-x-b-5
- Продвинутый уровень
20. Классификатор интеракциональной структуры (interact
или 2
)
Идентифицирует разговорные или интеракциональные паттерны.
Формат:
- Длинный:
language-x-interact-[structure]
- Короткий:
language-x-2-[structure]
Примеры:
en-x-interact-turn
илиen-x-2-turn
- Смена очередиja-x-interact-overlap
илиja-x-2-overlap
- Перекрывающаяся речьes-x-interact-monolog
илиes-x-2-monolog
- Монологическийar-x-interact-dialog
илиar-x-2-dialog
- Диалогическийzh-x-interact-multi
илиzh-x-2-multi
- Многосторонний
21. Классификатор просодических особенностей (prosody
или y
)
Идентифицирует просодические или суперсегментные особенности.
Формат:
- Длинный:
language-x-prosody-[feature]
- Короткий:
language-x-y-[feature]
Примеры:
en-x-prosody-stress
илиen-x-y-stress
- Ударный ритмja-x-prosody-pitch
илиja-x-y-pitch
- Тональное ударениеfr-x-prosody-syllable
илиfr-x-y-syllable
- Слоговой ритмzh-x-prosody-tone
илиzh-x-y-tone
- Тональные паттерныes-x-prosody-rhythm
илиes-x-y-rhythm
- Ритмические паттерны
22. Классификатор лексической плотности (lexical
или l
)
Идентифицирует лексическую плотность как числовое значение (0-100).
Формат:
- Длинный:
language-x-lexical-[0-100]
- Короткий:
language-x-l-[0-100]
Примеры:
en-x-lexical-20
илиen-x-l-20
- Низкая плотность (20%)de-x-lexical-55
илиde-x-l-55
- Средняя плотность (55%)ja-x-lexical-75
илиja-x-l-75
- Высокая плотность (75%)es-x-lexical-40
илиes-x-l-40
- Умеренная плотность (40%)zh-x-lexical-85
илиzh-x-l-85
- Очень высокая плотность (85%)
23. Классификатор синтаксической сложности (syntax
или z
)
Идентифицирует синтаксическую сложность как числовое значение (0-100).
Формат:
- Длинный:
language-x-syntax-[0-100]
- Короткий:
language-x-z-[0-100]
Примеры:
en-x-syntax-15
илиen-x-z-15
- Простой синтаксис (15%)de-x-syntax-70
илиde-x-z-70
- Сложный синтаксис (70%)ja-x-syntax-45
илиja-x-z-45
- Умеренная сложность (45%)es-x-syntax-30
илиes-x-z-30
- Низкая сложность (30%)zh-x-syntax-60
илиzh-x-z-60
- Высокая сложность (60%)
24. Классификатор даты начала (start
или 0
)
Идентифицирует дату начала языкового использования (формат ISO 8601 без пунктуации).
Формат:
- Длинный:
language-x-start-[YYYYMMDD]
- Короткий:
language-x-0-[YYYYMMDD]
Форматы дат:
- Полная дата: YYYYMMDD
- Год-месяц: YYYYMM
- Только год: YYYY
Примеры:
en-x-start-20240315
илиen-x-0-20240315
- Английский начиная с 15 марта 2024ja-x-start-19890108
илиja-x-0-19890108
- Японский начиная с 8 января 1989es-x-start-202403
илиes-x-0-202403
- Испанский начиная с марта 2024
25. Классификатор даты окончания (end
или 1
)
Идентифицирует дату окончания языкового использования (формат ISO 8601 без пунктуации).
Формат:
- Длинный:
language-x-end-[YYYYMMDD]
- Короткий:
language-x-1-[YYYYMMDD]
Форматы дат:
- Полная дата: YYYYMMDD
- Год-месяц: YYYYMM
- Только год: YYYY
Примеры:
en-x-end-20240415
илиen-x-1-20240415
- Английский заканчивающийся 15 апреля 2024ja-x-end-20190430
илиja-x-1-20190430
- Японский заканчивающийся 30 апреля 2019es-x-end-202412
илиes-x-1-202412
- Испанский заканчивающийся в декабре 2024
26. Классификатор табу (taboo
или j
)
Идентифицирует уровень табуированного, вульгарного или оскорбительного контента.
Формат:
- Длинный:
language-x-taboo-[0-5]
- Короткий:
language-x-j-[0-5]
Примеры:
en-x-taboo-0
илиen-x-j-0
- Нет табуированного контентаen-x-taboo-3
илиen-x-j-3
- Умеренный уровень табуja-x-form-5-taboo-4
илиja-x-f-5-j-4
- Очень повседневный японский с высоким уровнем табу
27. Классификатор уверенности (conf
или c
)
Указывает оценку уверенности для непосредственно предшествующего классификатора.
Формат:
- Длинный:
language-x-[classifier]-[value]-conf-[0-100]
- Короткий:
language-x-[classifier]-[value]-c-[0-100]
Особое поведение:
- Оценка уверенности применяется к непосредственно предшествующему классификатору
- Несколько оценок уверенности могут использоваться для разных классификаторов
- Если нет предшествующего классификатора, уверенность применяется к базовому языковому тегу
Примеры:
en-x-form-3-conf-95
илиen-x-f-3-c-95
- Нейтральная формальность с 95% уверенностьюko-x-polite-2-conf-80-domain-med-conf-60
илиko-x-p-2-c-80-d-med-c-60
- Очень вежливый (80% уверенности) медицинский корейский (60% уверенности)ja-x-hist-kobun-conf-100
илиja-x-h-kobun-c-100
- Классический японский со 100% уверенностьюx-proto-ine-conf-75
илиx-a-ine-c-75
- Праиндоевропейский с 75% уверенностью
Множественные классификации
LVTag поддерживает несколько классификаторов в одном теге для обеспечения точной языковой идентификации. Длинные и короткие формы могут смешиваться:
ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
Приведенные выше примеры показывают корейский с неформальной формальностью (4), но вежливой речью (2) в деловом контексте.
Допустимые значения
Примечание: Все значения должны быть 8 символов или меньше для соответствия ограничениям длины подтегов BCP 47. Хотя конкретные значения для многих классификаторов должны устанавливаться через экспертное использование и консенсус сообщества, числовые шкалы, форматы дат и базовые значения, перечисленные ниже, определены в этом стандарте.
Шкала формальности (Универсальная)
Уровень | Описание | Примеры |
---|---|---|
1 | Наиболее формальный | Юридические документы, официальные церемонии, академические статьи |
2 | Формальный | Деловые письма, новостные статьи, презентации |
3 | Нейтральный | Стандартный разговор, электронная почта, общее письмо |
4 | Неформальный | Повседневный разговор, личные блоги, текстовые сообщения |
5 | Наиболее повседневный | Сленг, интимный разговор, социальные сети |
Шкала вежливости (Универсальная)
Уровень | Описание | Примеры |
---|---|---|
1 | Наиболее уважительный | Королевское обращение, религиозные лидеры, уважение к старшим |
2 | Очень вежливый | Обслуживание клиентов, формальные встречи, учителя |
3 | Вежливый/нейтральный | Стандартные взаимодействия, коллеги |
4 | Дружеский | Друзья, ровесники, случайные знакомые |
5 | Интимный/простой | Близкая семья, интимные партнеры |
Шкала экспертизы (Универсальная)
Уровень | Описание |
---|---|
0 | Нет знаний |
1-2 | Начинающий |
3-4 | Средний уровень |
5-6 | Продвинутый |
7-8 | Эксперт |
9-10 | Мастер/Авторитет |
Шкала табу (Универсальная)
Уровень | Описание |
---|---|
0 | Нет табуированного контента |
1 | Мягкое табу |
2 | Легкое табу |
3 | Умеренное табу |
4 | Высокое табу |
5 | Экстремальное табу |
Шкала лексической плотности (Универсальная)
Уровень | Описание |
---|---|
0-20 | Очень низкая плотность |
21-40 | Низкая плотность |
41-60 | Умеренная плотность |
61-80 | Высокая плотность |
81-100 | Очень высокая плотность |
Шкала синтаксической сложности (Универсальная)
Уровень | Описание |
---|---|
0-20 | Очень простая |
21-40 | Простая |
41-60 | Умеренная сложность |
61-80 | Сложная |
81-100 | Очень сложная |
Значения области
Значение | Описание |
---|---|
legal |
Юридическая терминология |
med |
Медицинская терминология |
tech |
Техническая/ИТ |
business |
Бизнес/корпоративная |
fin |
Финансы/банковское дело |
acad |
Академическая/научная |
sci |
Научная/исследовательская |
Примеры реализации
Одиночный классификатор (Длинная форма)
# Наиболее формальный корейский
ko-x-form-1
# Очень вежливый японский
ja-x-polite-2
# Юридический английский
en-x-domain-legal
# Корейский из Кёнсан
ko-x-geo-gyeong
# Праиндоевропейский
x-proto-ine
Одиночный классификатор (Короткая форма)
# Наиболее формальный корейский
ko-x-f-1
# Очень вежливый японский
ja-x-p-2
# Юридический английский
en-x-d-legal
# Корейский из Кёнсан
ko-x-g-gyeong
# Праиндоевропейский
x-a-ine
Множественные классификаторы
# Неформальный но вежливый корейский деловой язык
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business
# Формальный и уважительный японский медицинский язык
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med
# Южный вьетнамский с нейтральной формальностью, вежливой речью, технической областью
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech
# Сложная классификация с несколькими измерениями
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written
# Языковые разновидности, показывающие различие формальность/вежливость
ko-x-f-5-p-2 # Очень повседневный но вежливый (к старшему другу)
ko-x-f-1-p-4 # Очень формальный но дружеский (письменно к ровеснику)
ja-x-f-4-p-1 # Повседневная формальность но высшее уважение
en-x-f-5-j-4 # Очень повседневный английский с высоким уровнем табу
Случаи использования
- Приложения для изучения языков
- Обучение соответствующему регистру для различных социальных контекстов
- Предоставление тренировки словаря для конкретной области
- Машинный перевод
- Поддержание последовательности регистра в переводах
- Применение терминологии для конкретной области
- Классификация контента
- Автоматическая категоризация текста по формальности и области
- Направление контента соответствующим рецензентам или системам
- Корпусная лингвистика
- Создание размеченных корпусов для лингвистических исследований
- Изучение вариаций регистра и области
Правила валидации
- Длина подтега: Каждый подтег после
x-
должен быть 8 символов или меньше - Порядок: Классификаторы могут появляться в любом порядке после
x-
- Уникальность: Каждый тип классификатора должен появляться только один раз на тег (кроме
conf
, который может появляться несколько раз) - Регистр: Теги должны быть в нижнем регистре (нечувствительны к регистру согласно BCP 47)
- Магические теги: Теги короткой формы - это одиночные символы;
q
,3
-9
зарезервированы для будущего использования - Смешивание: Длинные и короткие формы могут смешиваться в одном теге
- Теги прото: Должны начинаться с
x-
и ДОЛЖНЫ использовать коды ISO 639-5, когда доступны (например,x-proto-sla
неx-proto-slavic
) - Уверенность: Классификатор
conf
/c
применяется к непосредственно предшествующему классификатору - Числовые значения: Должны быть в пределах определенных диапазонов (0-5 для табу, 0-10 для экспертизы, 0-100 для процентных значений)
- Формат даты: Даты используют ISO 8601 без пунктуации (YYYY, YYYYMM или YYYYMMDD)
Совместимость
Формат LVTag полностью совместим с:
- BCP 47 (RFC 5646)
- Языковыми кодами ISO 639
- Реестром языковых подтегов IANA
- Unicode CLDR
Преимущества
- Точность: Позволяет детальную идентификацию языковых разновидностей
- Расширяемость: Могут быть добавлены новые регистры и области
- Основан на стандартах: Построен на установленном механизме частного использования BCP 47
- Машиночитаемый: Систематический формат позволяет автоматизированную обработку
- Читаемый человеком: Ясные, описательные подтеги
- Гибкость: Поддержка как подробных длинных, так и кратких коротких тегов
- Краткость: Короткие магические теги позволяют компактное представление при сохранении ясности
Будущие расширения
LVTag разработан для развития вместе с потребностями сообщества языковых технологий. Мы приветствуем предложения для новых классификаторов, улучшений существующих и отзывы от реальных реализаций.
Чтобы предложить расширения или внести вклад в спецификацию:
- Откройте issue на github.com/lvtag/spec
- Присоединитесь к обсуждению существующих предложений
- Поделитесь своим опытом реализации
- Отправьте pull requests для улучшений документации
Зарезервированные однобуквенные коды (q
, 3
-9
) доступны для будущих стандартизированных расширений.
Ссылки
Лицензия и предоставление патентов
Эта спецификация выпущена под CC0 1.0 Universal (Public Domain Dedication).
Почему CC0: Чтобы обеспечить максимальное принятие и свободу реализации, LVTag помещен в общественное достояние. Это означает:
- Не требуется разрешение для использования, реализации или модификации
- Не требуется указание авторства (хотя это приветствуется)
- Нет правовых барьеров для коммерческого или государственного использования
- Совместим со всеми лицензиями программного обеспечения
- Используется основными стандартами, такими как Unicode CLDR
Предоставление патентов: Любые патенты, охватывающие спецификацию LVTag, настоящим лицензируются без лицензионных отчислений для любой реализации, соответствующей этой спецификации.
Без одобрения: Использование LVTag не подразумевает одобрения авторами спецификации.
В пределах, разрешенных законом, Danslav Slavenskoj отказался от всех авторских и смежных или соседних прав на Спецификацию формата Language Variant Tag (LVTag). Эта работа опубликована из: Соединенных Штатов Америки.