Skip to the content.
LVTag Logo

LVTag 规范

版本 1.0
创建者:Danslav Slavenskoj
日期:2025年5月

语言:中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски

快速链接

概述

语言变体标记(LVTag)格式是一种系统化的语言分类方法,它使用私有用途子标签扩展了 BCP 47 标准。它能够跨多个维度精确识别语言变体,包括正式程度、礼貌程度、领域和正字法。

主要优势

分类严谨性:LVTag 通过为不同类型的变体提供清晰、独立的维度,为语言标记带来了系统化的组织。与现有的在同一级别混合不同类别的子标签和系统不同,LVTag 在正式程度、礼貌程度、领域和其他维度之间保持严格的分离。

标准兼容性:LVTag 完全符合 BCP 47(RFC 5646)并与以下标准无缝协作:

技术集成:LVTag 标签可直接用于:

使用案例

理论依据

虽然 BCP 47 为识别语言、文字和地区提供了出色的支持,但它缺乏捕获语言内部社会语言学变体的标准化机制。当前标准未能解决:

LVTag 使用 BCP 47 的私有用途扩展机制(-x-)填补了这些空白,提供了一种系统化、机器可读的方式来编码语言变体的这些关键维度,同时保持完全的向后兼容性。

精确的语言分类

大型语言模型和复杂 NLP 工具的出现使得精确的语言变体分类不仅有用而且必不可少。现代系统需要:

LVTag 提供了理解不仅使用什么语言,而且如何使用语言所需的细粒度元数据,从而实现更细致和适当的语言处理管道。

格式规范

基本结构

language-x-[classifier]-[value]-[classifier2]-[value2]...

其中:

魔术标签

LVTag 支持长格式和短格式”魔术”分类器以提供灵活性:

长格式 短格式 描述
ortho w 正字法变体
form f 正式程度(1-5 级)
polite p 礼貌/尊敬程度(1-5 级)
domain d 专业词汇或专业语境
geo g 地理或地区变体
proto a 原始语言或重建语言
hist h 语言的历史时期或阶段
genre e 文本体裁或文学风格
medium m 交流媒介(口语、书面语、数字)
socio s 社会方言或社会群体变体
modality o 语言产生模式
register r 语言语域
pragma u 交际功能
temporal t 时间标记
evidence v 信息来源
affect k 情感语调
age n 年龄/世代变体
gender i 性别变体
expert b 专业水平
interact 2 互动结构
prosody y 韵律特征
lexical l 词汇密度(0-100)
syntax z 句法复杂度(0-100)
start 0 开始日期(无标点的 ISO 8601)
end 1 结束日期(无标点的 ISO 8601)
taboo j 禁忌/粗俗内容级别(0-5 级)
conf c 前一个标签的置信度分数(0-100)
q3-9 保留供将来使用

分类器

1. 正字法分类器(orthow

识别标准文字标签之外的特定正字法约定或书写系统变体。

格式:

示例(与标准文字标签结合):

2. 正式程度分类器(formf

识别语言使用的正式程度。

格式:

正式程度量表:

示例:

3. 礼貌分类器(politep

识别语言使用的礼貌/尊敬程度。

格式:

礼貌程度量表:

示例:

4. 领域分类器(domaind

识别专业词汇或专业语境。

格式:

示例:

5. 地理分类器(geog

识别地区或地理语言变体。

格式:

示例:

6. 原始语言分类器(protoa

识别原始语言或重建的历史语言。

格式:

规则:

使用 ISO 639-5 代码的示例:

没有 ISO 639-5 代码的示例(描述性,超过三个字符):

注意:

7. 历史分类器(histh

识别语言的历史时期或阶段。

格式:

示例:

8. 体裁分类器(genree

识别文本体裁或文学风格。

格式:

示例:

9. 媒介分类器(mediumm

识别交流媒介。

格式:

示例:

10. 社会方言分类器(socios

识别社会方言或社会群体变体。

格式:

示例:

11. 模态分类器(modalityo

识别语言产生的基本模式。

格式:

示例:

12. 语域分类器(registerr

识别语言使用的语言语域或功能变体。

格式:

示例:

13. 语用功能分类器(pragmau

识别交际功能或言语行为。

格式:

示例:

14. 时间标记分类器(temporalt

识别时间方面或时态使用模式。

格式:

示例:

15. 证据性分类器(evidencev

识别信息来源标记。

格式:

示例:

16. 情感/情绪分类器(affectk

识别情感语调或情感。

格式:

示例:

17. 年龄/世代分类器(agen

识别与年龄相关或世代语言变体。

格式:

示例:

18. 性别分类器(genderi

识别与性别相关的语言变体。

格式:

19. 专业水平分类器(expertb

识别 0-10 级的领域专业水平。

格式:

专业水平量表:

示例:

20. 互动结构分类器(interact2

识别对话或互动模式。

格式:

示例:

21. 韵律特征分类器(prosodyy

识别韵律或超音段特征。

格式:

示例:

22. 词汇密度分类器(lexicall

将词汇密度识别为数值(0-100)。

格式:

示例:

23. 句法复杂度分类器(syntaxz

将句法复杂度识别为数值(0-100)。

格式:

示例:

24. 开始日期分类器(start0

识别语言使用的开始日期(无标点的 ISO 8601 格式)。

格式:

日期格式:

示例:

25. 结束日期分类器(end1

识别语言使用的结束日期(无标点的 ISO 8601 格式)。

格式:

日期格式:

示例:

26. 禁忌分类器(tabooj

识别禁忌、粗俗或冒犯性内容的级别。

格式:

示例:

27. 置信度分类器(confc

表示紧邻前面的分类器的置信度分数。

格式:

特殊行为:

示例:

多重分类

LVTag 支持在单个标签中使用多个分类器以提供精确的语言识别。长格式和短格式可以混合使用:

ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

上述示例显示了在商务语境中具有非正式正式程度(4)但礼貌语言(2)的韩语。

有效值

注意:所有值必须为 8 个字符或更短,以符合 BCP 47 子标签长度限制。虽然许多分类器的特定值将通过专家使用和社区共识来建立,但本标准中定义了数字量表、日期格式和下面列出的基本值。

正式程度量表(通用)

级别 描述 示例
1 最正式 法律文件、官方仪式、学术论文
2 正式 商务信函、新闻文章、演示文稿
3 中性 标准对话、电子邮件、一般写作
4 非正式 随意对话、个人博客、短信
5 最随意 俚语、亲密对话、社交媒体

礼貌程度量表(通用)

级别 描述 示例
1 最尊敬 皇室称呼、宗教领袖、老年人尊敬
2 非常礼貌 客户服务、正式会议、教师
3 礼貌/中性 标准互动、同事
4 熟悉 朋友、同伴、随意的熟人
5 亲密/平实 亲密的家人、亲密的伴侣

专业水平量表(通用)

级别 描述
0 无知识
1-2 初学者
3-4 中级
5-6 高级
7-8 专家
9-10 大师/权威

禁忌量表(通用)

级别 描述
0 无禁忌内容
1 轻微禁忌
2 轻度禁忌
3 中等禁忌
4 高度禁忌
5 极端禁忌

词汇密度量表(通用)

级别 描述
0-20 非常低密度
21-40 低密度
41-60 中等密度
61-80 高密度
81-100 非常高密度

句法复杂度量表(通用)

级别 描述
0-20 非常简单
21-40 简单
41-60 中等复杂度
61-80 复杂
81-100 非常复杂

领域值

描述
legal 法律术语
med 医学术语
tech 技术/IT
business 商业/企业
fin 金融/银行
acad 学术/学者
sci 科学/研究

实现示例

单一分类器(长格式)

# 最正式的韩语
ko-x-form-1

# 非常礼貌的日语
ja-x-polite-2

# 法律英语
en-x-domain-legal

# 庆尚道韩语
ko-x-geo-gyeong

# 原始印欧语
x-proto-ine

单一分类器(短格式)

# 最正式的韩语
ko-x-f-1

# 非常礼貌的日语
ja-x-p-2

# 法律英语
en-x-d-legal

# 庆尚道韩语
ko-x-g-gyeong

# 原始印欧语
x-a-ine

多重分类器

# 非正式但礼貌的韩语商务语言
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

# 正式且尊敬的日语医学语言
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med

# 南越南语,中性正式程度,礼貌语言,技术领域
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech

# 具有多个维度的复杂分类
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written

# 显示正式程度/礼貌区别的语言变体
ko-x-f-5-p-2  # 非常随意但礼貌(对年长的朋友)
ko-x-f-1-p-4  # 非常正式但熟悉(写给同伴)
ja-x-f-4-p-1  # 随意正式程度但最高敬意
en-x-f-5-j-4  # 非常随意的英语,禁忌级别高

使用案例

  1. 语言学习应用程序
    • 教授不同社交语境的适当语域
    • 提供特定领域的词汇训练
  2. 机器翻译
    • 在翻译中保持语域一致性
    • 应用特定领域的术语
  3. 内容分类
    • 按正式程度和领域自动分类文本
    • 将内容路由到适当的审查员或系统
  4. 语料库语言学
    • 为语言研究构建标记的语料库
    • 研究语域和领域变体

验证规则

  1. 子标签长度x- 之后的每个子标签必须为 8 个字符或更少
  2. 顺序:分类器可以在 x- 之后以任何顺序出现
  3. 唯一性:每个分类器类型在每个标签中应该只出现一次(除了可以多次出现的 conf
  4. 大小写:标签应该是小写的(根据 BCP 47 不区分大小写)
  5. 魔术标签:短格式标签是单个字符;q3-9 保留供将来使用
  6. 混合:长格式和短格式可以在同一标签内混合
  7. 原始标签:必须以 x- 开头,并且应该在可用时使用 ISO 639-5 代码(例如,x-proto-sla 而不是 x-proto-slavic
  8. 置信度conf/c 分类器适用于紧邻前面的分类器
  9. 数值:必须在定义的范围内(禁忌为 0-5,专业知识为 0-10,百分比值为 0-100)
  10. 日期格式:日期使用无标点的 ISO 8601(YYYY、YYYYMM 或 YYYYMMDD)

兼容性

LVTag 格式完全兼容:

优势

  1. 精确性:实现细粒度的语言变体识别
  2. 可扩展性:可以添加新的语域和领域
  3. 基于标准:建立在已建立的 BCP 47 私有用途机制上
  4. 机器可读:系统化格式支持自动处理
  5. 人类可读:清晰、描述性的子标签
  6. 灵活性:支持详细的长格式和简洁的短格式标签
  7. 简洁性:短魔术标签在保持清晰的同时实现紧凑表示

未来扩展

LVTag 旨在随着语言技术社区的需求而发展。我们欢迎对新分类器的建议、对现有分类器的改进以及实际实施反馈。

要提议扩展或为规范做出贡献:

保留的单字符代码(q3-9)可用于未来的标准化扩展。

参考资料


许可和专利授权

本规范在 CC0 1.0 通用(公共领域奉献) 下发布。

为什么选择 CC0:为确保最大程度的采用和实施自由,LVTag 被置于公共领域。这意味着:

专利授权:涵盖 LVTag 规范的任何专利特此免版税许可,适用于符合本规范的任何实施。

无背书:使用 LVTag 并不意味着规范作者的背书。

在法律允许的范围内,Danslav Slavenskoj 已放弃语言变体标记(LVTag)格式规范的所有版权和相关或邻接权。本作品发布自:美利坚合众国。