Skip to the content.
LVTag Logo

LVTag 規範

版本 1.0
創建者:Danslav Slavenskoj
日期:2025年5月

語言中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски

快速連結

概述

語言變體標記(LVTag)格式是一種系統化的語言分類方法,它使用私有用途子標籤擴展了 BCP 47 標準。它能夠跨多個維度精確識別語言變體,包括正式程度、禮貌程度、領域和正字法。

主要優勢

分類嚴謹性:LVTag 通過為不同類型的變體提供清晰、獨立的維度,為語言標記帶來了系統化的組織。與現有的在同一級別混合不同類別的子標籤和系統不同,LVTag 在正式程度、禮貌程度、領域和其他維度之間保持嚴格的分離。

標準相容性:LVTag 完全符合 BCP 47(RFC 5646)並與以下標準無縫協作:

技術整合:LVTag 標籤可直接用於:

使用案例

理論依據

雖然 BCP 47 為識別語言、文字和地區提供了出色的支援,但它缺乏捕獲語言內部社會語言學變體的標準化機制。當前標準未能解決:

LVTag 使用 BCP 47 的私有用途擴展機制(-x-)填補了這些空白,提供了一種系統化、機器可讀的方式來編碼語言變體的這些關鍵維度,同時保持完全的向後相容性。

精確的語言分類

大型語言模型和複雜 NLP 工具的出現使得精確的語言變體分類不僅有用而且必不可少。現代系統需要:

LVTag 提供了理解不僅使用什麼語言,而且如何使用語言所需的細粒度元資料,從而實現更細緻和適當的語言處理管道。

格式規範

基本結構

language-x-[classifier]-[value]-[classifier2]-[value2]...

其中:

魔術標籤

LVTag 支援長格式和短格式「魔術」分類器以提供靈活性:

長格式 短格式 描述
ortho w 正字法變體
form f 正式程度(1-5 級)
polite p 禮貌/尊敬程度(1-5 級)
domain d 專業詞彙或專業語境
geo g 地理或地區變體
proto a 原始語言或重建語言
hist h 語言的歷史時期或階段
genre e 文字體裁或文學風格
medium m 交流媒介(口語、書面語、數位)
socio s 社會方言或社會群體變體
modality o 語言產生模式
register r 語言語域
pragma u 交際功能
temporal t 時間標記
evidence v 資訊來源
affect k 情感語調
age n 年齡/世代變體
gender i 性別變體
expert b 專業水平
interact 2 互動結構
prosody y 韻律特徵
lexical l 詞彙密度(0-100)
syntax z 句法複雜度(0-100)
start 0 開始日期(無標點的 ISO 8601)
end 1 結束日期(無標點的 ISO 8601)
taboo j 禁忌/粗俗內容級別(0-5 級)
conf c 前一個標籤的置信度分數(0-100)
q3-9 保留供將來使用

分類器

1. 正字法分類器(orthow

識別標準文字標籤之外的特定正字法約定或書寫系統變體。

格式:

示例(與標準文字標籤結合):

2. 正式程度分類器(formf

識別語言使用的正式程度。

格式:

正式程度量表:

示例:

3. 禮貌分類器(politep

識別語言使用的禮貌/尊敬程度。

格式:

禮貌程度量表:

示例:

4. 領域分類器(domaind

識別專業詞彙或專業語境。

格式:

示例:

5. 地理分類器(geog

識別地區或地理語言變體。

格式:

示例:

6. 原始語言分類器(protoa

識別原始語言或重建的歷史語言。

格式:

規則:

使用 ISO 639-5 代碼的示例:

沒有 ISO 639-5 代碼的示例(描述性,超過三個字元):

注意:

7. 歷史分類器(histh

識別語言的歷史時期或階段。

格式:

示例:

8. 體裁分類器(genree

識別文字體裁或文學風格。

格式:

示例:

9. 媒介分類器(mediumm

識別交流媒介。

格式:

示例:

10. 社會方言分類器(socios

識別社會方言或社會群體變體。

格式:

示例:

11. 模態分類器(modalityo

識別語言產生的基本模式。

格式:

示例:

12. 語域分類器(registerr

識別語言使用的語言語域或功能變體。

格式:

示例:

13. 語用功能分類器(pragmau

識別交際功能或言語行為。

格式:

示例:

14. 時間標記分類器(temporalt

識別時間方面或時態使用模式。

格式:

示例:

15. 證據性分類器(evidencev

識別資訊來源標記。

格式:

示例:

16. 情感/情緒分類器(affectk

識別情感語調或情感。

格式:

示例:

17. 年齡/世代分類器(agen

識別與年齡相關或世代語言變體。

格式:

示例:

18. 性別分類器(genderi

識別與性別相關的語言變體。

格式:

19. 專業水平分類器(expertb

識別 0-10 級的領域專業水平。

格式:

專業水平量表:

示例:

20. 互動結構分類器(interact2

識別對話或互動模式。

格式:

示例:

21. 韻律特徵分類器(prosodyy

識別韻律或超音段特徵。

格式:

示例:

22. 詞彙密度分類器(lexicall

將詞彙密度識別為數值(0-100)。

格式:

示例:

23. 句法複雜度分類器(syntaxz

將句法複雜度識別為數值(0-100)。

格式:

示例:

24. 開始日期分類器(start0

識別語言使用的開始日期(無標點的 ISO 8601 格式)。

格式:

日期格式:

示例:

25. 結束日期分類器(end1

識別語言使用的結束日期(無標點的 ISO 8601 格式)。

格式:

日期格式:

示例:

26. 禁忌分類器(tabooj

識別禁忌、粗俗或冒犯性內容的級別。

格式:

示例:

27. 置信度分類器(confc

表示緊鄰前面的分類器的置信度分數。

格式:

特殊行為:

示例:

多重分類

LVTag 支援在單個標籤中使用多個分類器以提供精確的語言識別。長格式和短格式可以混合使用:

ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

上述示例顯示了在商務語境中具有非正式正式程度(4)但禮貌語言(2)的韓語。

有效值

注意:所有值必須為 8 個字元或更短,以符合 BCP 47 子標籤長度限制。雖然許多分類器的特定值將通過專家使用和社群共識來建立,但本標準中定義了數字量表、日期格式和下面列出的基本值。

正式程度量表(通用)

級別 描述 示例
1 最正式 法律文件、官方儀式、學術論文
2 正式 商務信函、新聞文章、演示文稿
3 中性 標準對話、電子郵件、一般寫作
4 非正式 隨意對話、個人部落格、簡訊
5 最隨意 俚語、親密對話、社群媒體

禮貌程度量表(通用)

級別 描述 示例
1 最尊敬 皇室稱呼、宗教領袖、老年人尊敬
2 非常禮貌 客戶服務、正式會議、教師
3 禮貌/中性 標準互動、同事
4 熟悉 朋友、同伴、隨意的熟人
5 親密/平實 親密的家人、親密的伴侶

專業水平量表(通用)

級別 描述
0 無知識
1-2 初學者
3-4 中級
5-6 高級
7-8 專家
9-10 大師/權威

禁忌量表(通用)

級別 描述
0 無禁忌內容
1 輕微禁忌
2 輕度禁忌
3 中等禁忌
4 高度禁忌
5 極端禁忌

詞彙密度量表(通用)

級別 描述
0-20 非常低密度
21-40 低密度
41-60 中等密度
61-80 高密度
81-100 非常高密度

句法複雜度量表(通用)

級別 描述
0-20 非常簡單
21-40 簡單
41-60 中等複雜度
61-80 複雜
81-100 非常複雜

領域值

描述
legal 法律術語
med 醫學術語
tech 技術/IT
business 商業/企業
fin 金融/銀行
acad 學術/學者
sci 科學/研究

實現示例

單一分類器(長格式)

# 最正式的韓語
ko-x-form-1

# 非常禮貌的日語
ja-x-polite-2

# 法律英語
en-x-domain-legal

# 慶尚道韓語
ko-x-geo-gyeong

# 原始印歐語
x-proto-ine

單一分類器(短格式)

# 最正式的韓語
ko-x-f-1

# 非常禮貌的日語
ja-x-p-2

# 法律英語
en-x-d-legal

# 慶尚道韓語
ko-x-g-gyeong

# 原始印歐語
x-a-ine

多重分類器

# 非正式但禮貌的韓語商務語言
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

# 正式且尊敬的日語醫學語言
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med

# 南越南語,中性正式程度,禮貌語言,技術領域
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech

# 具有多個維度的複雜分類
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written

# 顯示正式程度/禮貌區別的語言變體
ko-x-f-5-p-2  # 非常隨意但禮貌(對年長的朋友)
ko-x-f-1-p-4  # 非常正式但熟悉(寫給同伴)
ja-x-f-4-p-1  # 隨意正式程度但最高敬意
en-x-f-5-j-4  # 非常隨意的英語,禁忌級別高

使用案例

  1. 語言學習應用程式
    • 教授不同社交語境的適當語域
    • 提供特定領域的詞彙訓練
  2. 機器翻譯
    • 在翻譯中保持語域一致性
    • 應用特定領域的術語
  3. 內容分類
    • 按正式程度和領域自動分類文字
    • 將內容路由到適當的審查員或系統
  4. 語料庫語言學
    • 為語言研究構建標記的語料庫
    • 研究語域和領域變體

驗證規則

  1. 子標籤長度x- 之後的每個子標籤必須為 8 個字元或更少
  2. 順序:分類器可以在 x- 之後以任何順序出現
  3. 唯一性:每個分類器類型在每個標籤中應該只出現一次(除了可以多次出現的 conf
  4. 大小寫:標籤應該是小寫的(根據 BCP 47 不區分大小寫)
  5. 魔術標籤:短格式標籤是單個字元;q3-9 保留供將來使用
  6. 混合:長格式和短格式可以在同一標籤內混合
  7. 原始標籤:必須以 x- 開頭,並且應該在可用時使用 ISO 639-5 代碼(例如,x-proto-sla 而不是 x-proto-slavic
  8. 置信度conf/c 分類器適用於緊鄰前面的分類器
  9. 數值:必須在定義的範圍內(禁忌為 0-5,專業知識為 0-10,百分比值為 0-100)
  10. 日期格式:日期使用無標點的 ISO 8601(YYYY、YYYYMM 或 YYYYMMDD)

相容性

LVTag 格式完全相容:

優勢

  1. 精確性:實現細粒度的語言變體識別
  2. 可擴展性:可以添加新的語域和領域
  3. 基於標準:建立在已建立的 BCP 47 私有用途機制上
  4. 機器可讀:系統化格式支援自動處理
  5. 人類可讀:清晰、描述性的子標籤
  6. 靈活性:支援詳細的長格式和簡潔的短格式標籤
  7. 簡潔性:短魔術標籤在保持清晰的同時實現緊湊表示

未來擴展

LVTag 旨在隨著語言技術社群的需求而發展。我們歡迎對新分類器的建議、對現有分類器的改進以及實際實施回饋。

要提議擴展或為規範做出貢獻:

保留的單字元代碼(q3-9)可用於未來的標準化擴展。

參考資料


授權和專利授權

本規範在 CC0 1.0 通用(公共領域奉獻) 下發布。

為什麼選擇 CC0:為確保最大程度的採用和實施自由,LVTag 被置於公共領域。這意味著:

專利授權:涵蓋 LVTag 規範的任何專利特此免版稅許可,適用於符合本規範的任何實施。

無背書:使用 LVTag 並不意味著規範作者的背書。

在法律允許的範圍內,Danslav Slavenskoj 已放棄語言變體標記(LVTag)格式規範的所有版權和相關或鄰接權。本作品發布自:美利堅合眾國。