Skip to the content.
LVTag Logo

Спецификация LVTag

Версия 1.0
Создал Danslav Slavenskoj
Дата: Май 2025

Языки: 中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски

Быстрые ссылки

Обзор

Формат Language Variant Tag (LVTag) - это систематический подход к классификации языков, который расширяет стандарт BCP 47 с использованием подтегов частного использования. Он позволяет точно идентифицировать языковые варианты по нескольким измерениям, включая формальность, вежливость, область и орфографию.

Ключевые преимущества

Строгость классификации: LVTag привносит систематическую организацию в языковую маркировку, предоставляя четкие, отдельные измерения для различных типов вариаций. В отличие от существующих подтегов и систем, которые смешивают разные категории на одном уровне, LVTag поддерживает строгое разделение между формальностью, вежливостью, областью и другими измерениями.

Совместимость со стандартами: LVTag полностью совместим с BCP 47 (RFC 5646) и бесшовно работает с:

Технологическая интеграция: Теги LVTag могут использоваться напрямую в:

Случаи использования:

Обоснование

Хотя BCP 47 обеспечивает отличную поддержку для идентификации языков, письменностей и регионов, ему не хватает стандартизированных механизмов для фиксации социолингвистических вариаций внутри языка. Текущие стандарты не охватывают:

LVTag заполняет эти пробелы, используя механизм расширения частного использования BCP 47 (-x-), предоставляя систематический, машиночитаемый способ кодирования этих критических измерений языковой вариации при сохранении полной обратной совместимости.

Точная языковая классификация

Появление больших языковых моделей и сложных инструментов NLP сделало точную классификацию языковых разновидностей не просто полезной, но необходимой. Современные системы должны:

LVTag предоставляет детализированные метаданные, необходимые для понимания не только того, какой язык используется, но и как он используется, позволяя создавать более тонкие и подходящие конвейеры обработки языка.

Спецификация формата

Базовая структура

language-x-[classifier]-[value]-[classifier2]-[value2]...

Где:

Магические теги

LVTag поддерживает как длинные, так и короткие формы “магических” классификаторов для гибкости:

Длинная форма Короткая форма Описание
ortho w Орфографический вариант
form f Уровень формальности (шкала 1-5)
polite p Уровень вежливости/уважения (шкала 1-5)
domain d Специализированная лексика или профессиональный контекст
geo g Географическая или региональная разновидность
proto a Праязык или реконструированный язык
hist h Исторический период или этап языка
genre e Текстовый жанр или литературный стиль
medium m Средство коммуникации (устное, письменное, цифровое)
socio s Социолект или разновидность социальной группы
modality o Способ языкового производства
register r Языковой регистр
pragma u Коммуникативная функция
temporal t Временная маркировка
evidence v Источник информации
affect k Эмоциональный тон
age n Возрастная/поколенческая разновидность
gender i Гендерная разновидность
expert b Уровень экспертизы
interact 2 Интеракциональная структура
prosody y Просодические особенности
lexical l Лексическая плотность (0-100)
syntax z Синтаксическая сложность (0-100)
start 0 Дата начала (ISO 8601 без пунктуации)
end 1 Дата окончания (ISO 8601 без пунктуации)
taboo j Уровень табуированного/вульгарного контента (шкала 0-5)
conf c Оценка уверенности (0-100) для предыдущего тега
q, 3-9 Зарезервировано для будущего использования

Классификаторы

1. Орфографический классификатор (ortho или w)

Идентифицирует конкретные орфографические конвенции или варианты системы письма за пределами стандартных тегов письменности.

Формат:

Примеры (в сочетании со стандартными тегами письменности):

2. Классификатор формальности (form или f)

Идентифицирует уровень формальности языкового использования.

Формат:

Шкала формальности:

Примеры:

3. Классификатор вежливости (polite или p)

Идентифицирует уровень вежливости/уважения языкового использования.

Формат:

Шкала вежливости:

Примеры:

4. Классификатор области (domain или d)

Идентифицирует специализированную лексику или профессиональный контекст.

Формат:

Примеры:

5. Географический классификатор (geo или g)

Идентифицирует региональные или географические языковые разновидности.

Формат:

Примеры:

6. Классификатор прото (proto или a)

Идентифицирует праязыки или реконструированные исторические языки.

Формат:

Правила:

Примеры с использованием кодов ISO 639-5:

Примеры без кодов ISO 639-5 (описательные, более трех символов):

Примечание:

7. Исторический классификатор (hist или h)

Идентифицирует исторические периоды или этапы языка.

Формат:

Примеры:

8. Жанровый классификатор (genre или e)

Идентифицирует текстовый жанр или литературный стиль.

Формат:

Примеры:

9. Классификатор средства (medium или m)

Идентифицирует средство коммуникации.

Формат:

Примеры:

10. Социо классификатор (socio или s)

Идентифицирует социолект или разновидности социальных групп.

Формат:

Примеры:

11. Классификатор модальности (modality или o)

Идентифицирует фундаментальный способ языкового производства.

Формат:

Примеры:

12. Классификатор регистра (register или r)

Идентифицирует языковой регистр или функциональную разновидность языкового использования.

Формат:

Примеры:

13. Классификатор прагматической функции (pragma или u)

Идентифицирует коммуникативную функцию или речевой акт.

Формат:

Примеры:

14. Классификатор временной маркировки (temporal или t)

Идентифицирует временные аспекты или паттерны использования времени.

Формат:

Примеры:

15. Эвиденциальный классификатор (evidence или v)

Идентифицирует маркировку источника информации.

Формат:

Примеры:

16. Классификатор аффекта/эмоции (affect или k)

Идентифицирует эмоциональный тон или аффект.

Формат:

Примеры:

17. Классификатор возраста/поколения (age или n)

Идентифицирует возрастные или поколенческие языковые разновидности.

Формат:

Примеры:

18. Гендерный классификатор (gender или i)

Идентифицирует гендерные языковые разновидности.

Формат:

19. Классификатор уровня экспертизы (expert или b)

Идентифицирует уровень предметной экспертизы по шкале 0-10.

Формат:

Шкала экспертизы:

Примеры:

20. Классификатор интеракциональной структуры (interact или 2)

Идентифицирует разговорные или интеракциональные паттерны.

Формат:

Примеры:

21. Классификатор просодических особенностей (prosody или y)

Идентифицирует просодические или суперсегментные особенности.

Формат:

Примеры:

22. Классификатор лексической плотности (lexical или l)

Идентифицирует лексическую плотность как числовое значение (0-100).

Формат:

Примеры:

23. Классификатор синтаксической сложности (syntax или z)

Идентифицирует синтаксическую сложность как числовое значение (0-100).

Формат:

Примеры:

24. Классификатор даты начала (start или 0)

Идентифицирует дату начала языкового использования (формат ISO 8601 без пунктуации).

Формат:

Форматы дат:

Примеры:

25. Классификатор даты окончания (end или 1)

Идентифицирует дату окончания языкового использования (формат ISO 8601 без пунктуации).

Формат:

Форматы дат:

Примеры:

26. Классификатор табу (taboo или j)

Идентифицирует уровень табуированного, вульгарного или оскорбительного контента.

Формат:

Примеры:

27. Классификатор уверенности (conf или c)

Указывает оценку уверенности для непосредственно предшествующего классификатора.

Формат:

Особое поведение:

Примеры:

Множественные классификации

LVTag поддерживает несколько классификаторов в одном теге для обеспечения точной языковой идентификации. Длинные и короткие формы могут смешиваться:

ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

Приведенные выше примеры показывают корейский с неформальной формальностью (4), но вежливой речью (2) в деловом контексте.

Допустимые значения

Примечание: Все значения должны быть 8 символов или меньше для соответствия ограничениям длины подтегов BCP 47. Хотя конкретные значения для многих классификаторов должны устанавливаться через экспертное использование и консенсус сообщества, числовые шкалы, форматы дат и базовые значения, перечисленные ниже, определены в этом стандарте.

Шкала формальности (Универсальная)

Уровень Описание Примеры
1 Наиболее формальный Юридические документы, официальные церемонии, академические статьи
2 Формальный Деловые письма, новостные статьи, презентации
3 Нейтральный Стандартный разговор, электронная почта, общее письмо
4 Неформальный Повседневный разговор, личные блоги, текстовые сообщения
5 Наиболее повседневный Сленг, интимный разговор, социальные сети

Шкала вежливости (Универсальная)

Уровень Описание Примеры
1 Наиболее уважительный Королевское обращение, религиозные лидеры, уважение к старшим
2 Очень вежливый Обслуживание клиентов, формальные встречи, учителя
3 Вежливый/нейтральный Стандартные взаимодействия, коллеги
4 Дружеский Друзья, ровесники, случайные знакомые
5 Интимный/простой Близкая семья, интимные партнеры

Шкала экспертизы (Универсальная)

Уровень Описание
0 Нет знаний
1-2 Начинающий
3-4 Средний уровень
5-6 Продвинутый
7-8 Эксперт
9-10 Мастер/Авторитет

Шкала табу (Универсальная)

Уровень Описание
0 Нет табуированного контента
1 Мягкое табу
2 Легкое табу
3 Умеренное табу
4 Высокое табу
5 Экстремальное табу

Шкала лексической плотности (Универсальная)

Уровень Описание
0-20 Очень низкая плотность
21-40 Низкая плотность
41-60 Умеренная плотность
61-80 Высокая плотность
81-100 Очень высокая плотность

Шкала синтаксической сложности (Универсальная)

Уровень Описание
0-20 Очень простая
21-40 Простая
41-60 Умеренная сложность
61-80 Сложная
81-100 Очень сложная

Значения области

Значение Описание
legal Юридическая терминология
med Медицинская терминология
tech Техническая/ИТ
business Бизнес/корпоративная
fin Финансы/банковское дело
acad Академическая/научная
sci Научная/исследовательская

Примеры реализации

Одиночный классификатор (Длинная форма)

# Наиболее формальный корейский
ko-x-form-1

# Очень вежливый японский
ja-x-polite-2

# Юридический английский
en-x-domain-legal

# Корейский из Кёнсан
ko-x-geo-gyeong

# Праиндоевропейский
x-proto-ine

Одиночный классификатор (Короткая форма)

# Наиболее формальный корейский
ko-x-f-1

# Очень вежливый японский
ja-x-p-2

# Юридический английский
en-x-d-legal

# Корейский из Кёнсан
ko-x-g-gyeong

# Праиндоевропейский
x-a-ine

Множественные классификаторы

# Неформальный но вежливый корейский деловой язык
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

# Формальный и уважительный японский медицинский язык
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med

# Южный вьетнамский с нейтральной формальностью, вежливой речью, технической областью
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech

# Сложная классификация с несколькими измерениями
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written

# Языковые разновидности, показывающие различие формальность/вежливость
ko-x-f-5-p-2  # Очень повседневный но вежливый (к старшему другу)
ko-x-f-1-p-4  # Очень формальный но дружеский (письменно к ровеснику)
ja-x-f-4-p-1  # Повседневная формальность но высшее уважение
en-x-f-5-j-4  # Очень повседневный английский с высоким уровнем табу

Случаи использования

  1. Приложения для изучения языков
    • Обучение соответствующему регистру для различных социальных контекстов
    • Предоставление тренировки словаря для конкретной области
  2. Машинный перевод
    • Поддержание последовательности регистра в переводах
    • Применение терминологии для конкретной области
  3. Классификация контента
    • Автоматическая категоризация текста по формальности и области
    • Направление контента соответствующим рецензентам или системам
  4. Корпусная лингвистика
    • Создание размеченных корпусов для лингвистических исследований
    • Изучение вариаций регистра и области

Правила валидации

  1. Длина подтега: Каждый подтег после x- должен быть 8 символов или меньше
  2. Порядок: Классификаторы могут появляться в любом порядке после x-
  3. Уникальность: Каждый тип классификатора должен появляться только один раз на тег (кроме conf, который может появляться несколько раз)
  4. Регистр: Теги должны быть в нижнем регистре (нечувствительны к регистру согласно BCP 47)
  5. Магические теги: Теги короткой формы - это одиночные символы; q, 3-9 зарезервированы для будущего использования
  6. Смешивание: Длинные и короткие формы могут смешиваться в одном теге
  7. Теги прото: Должны начинаться с x- и ДОЛЖНЫ использовать коды ISO 639-5, когда доступны (например, x-proto-sla не x-proto-slavic)
  8. Уверенность: Классификатор conf/c применяется к непосредственно предшествующему классификатору
  9. Числовые значения: Должны быть в пределах определенных диапазонов (0-5 для табу, 0-10 для экспертизы, 0-100 для процентных значений)
  10. Формат даты: Даты используют ISO 8601 без пунктуации (YYYY, YYYYMM или YYYYMMDD)

Совместимость

Формат LVTag полностью совместим с:

Преимущества

  1. Точность: Позволяет детальную идентификацию языковых разновидностей
  2. Расширяемость: Могут быть добавлены новые регистры и области
  3. Основан на стандартах: Построен на установленном механизме частного использования BCP 47
  4. Машиночитаемый: Систематический формат позволяет автоматизированную обработку
  5. Читаемый человеком: Ясные, описательные подтеги
  6. Гибкость: Поддержка как подробных длинных, так и кратких коротких тегов
  7. Краткость: Короткие магические теги позволяют компактное представление при сохранении ясности

Будущие расширения

LVTag разработан для развития вместе с потребностями сообщества языковых технологий. Мы приветствуем предложения для новых классификаторов, улучшений существующих и отзывы от реальных реализаций.

Чтобы предложить расширения или внести вклад в спецификацию:

Зарезервированные однобуквенные коды (q, 3-9) доступны для будущих стандартизированных расширений.

Ссылки


Лицензия и предоставление патентов

Эта спецификация выпущена под CC0 1.0 Universal (Public Domain Dedication).

Почему CC0: Чтобы обеспечить максимальное принятие и свободу реализации, LVTag помещен в общественное достояние. Это означает:

Предоставление патентов: Любые патенты, охватывающие спецификацию LVTag, настоящим лицензируются без лицензионных отчислений для любой реализации, соответствующей этой спецификации.

Без одобрения: Использование LVTag не подразумевает одобрения авторами спецификации.

В пределах, разрешенных законом, Danslav Slavenskoj отказался от всех авторских и смежных или соседних прав на Спецификацию формата Language Variant Tag (LVTag). Эта работа опубликована из: Соединенных Штатов Америки.