Skip to the content.
LVTag Logo

LVTag 仕様

バージョン 1.0
作成者:Danslav Slavenskoj
日付:2025年5月

言語中文简体 中文繁體 Čeština Deutsch English Español Français Hrvatski 日本語 한국어 Polski Português Русский Српски

クイックリンク

概要

Language Variant Tag (LVTag) フォーマットは、プライベート使用サブタグを使用して BCP 47 標準を拡張する、言語分類への体系的なアプローチです。フォーマルさ、丁寧さ、ドメイン、正書法を含む複数の次元にわたって言語変種の正確な識別を可能にします。

主な利点

分類の厳密性:LVTag は、異なるタイプの変化に対して明確で分離された次元を提供することにより、言語タグ付けに体系的な組織をもたらします。同じレベルで異なるカテゴリを混在させる既存のサブタグやシステムとは異なり、LVTag はフォーマルさ、丁寧さ、ドメイン、その他の次元間の厳格な分離を維持します。

標準との互換性:LVTag は BCP 47 (RFC 5646) と完全に互換性があり、以下とシームレスに動作します:

技術統合:LVTag タグは以下で直接使用できます:

使用例

根拠

BCP 47 は言語、文字、地域の識別に優れたサポートを提供していますが、言語内の社会言語学的変化を捉えるための標準化されたメカニズムが欠けています。現在の標準は以下に対応していません:

LVTag は BCP 47 のプライベート使用拡張メカニズム(-x-)を使用してこれらのギャップを埋め、完全な後方互換性を維持しながら、言語変化のこれらの重要な次元をエンコードする体系的で機械可読な方法を提供します。

正確な言語分類

大規模言語モデルと洗練された NLP ツールの出現により、正確な言語変種分類は有用であるだけでなく、不可欠になりました。現代のシステムは以下を必要とします:

LVTag は、どの言語が使用されているかだけでなく、どのように使用されているかを理解するために必要な詳細なメタデータを提供し、より微妙で適切な言語処理パイプラインを可能にします。

フォーマット仕様

基本構造

language-x-[classifier]-[value]-[classifier2]-[value2]...

ここで:

マジックタグ

LVTag は柔軟性のために長形式と短形式の「マジック」分類器の両方をサポートします:

長形式 短形式 説明
ortho w 正書法の変種
form f フォーマルさレベル(1-5 スケール)
polite p 丁寧さ/敬意レベル(1-5 スケール)
domain d 専門語彙または専門的コンテキスト
geo g 地理的または地域的変種
proto a 祖語または再建された言語
hist h 言語の歴史的期間または段階
genre e テキストジャンルまたは文学的スタイル
medium m コミュニケーション媒体(話し言葉、書き言葉、デジタル)
socio s 社会方言または社会グループ変種
modality o 言語産出モード
register r 言語レジスター
pragma u コミュニケーション機能
temporal t 時間的マーキング
evidence v 情報源
affect k 感情的トーン
age n 年齢/世代変種
gender i ジェンダー変種
expert b 専門知識レベル
interact 2 相互作用構造
prosody y 韻律的特徴
lexical l 語彙密度(0-100)
syntax z 構文的複雑さ(0-100)
start 0 開始日(句読点なしの ISO 8601)
end 1 終了日(句読点なしの ISO 8601)
taboo j タブー/下品なコンテンツレベル(0-5 スケール)
conf c 前のタグの信頼度スコア(0-100)
q3-9 将来の使用のために予約

分類器

1. 正書法分類器(ortho または w

標準的な文字タグを超えた特定の正書法規則または書記体系の変種を識別します。

形式:

例(標準文字タグと組み合わせ):

2. フォーマルさ分類器(form または f

言語使用のフォーマルさレベルを識別します。

形式:

フォーマルさスケール:

例:

3. 丁寧さ分類器(polite または p

言語使用の丁寧さ/敬意レベルを識別します。

形式:

丁寧さスケール:

例:

4. ドメイン分類器(domain または d

専門語彙または専門的コンテキストを識別します。

形式:

例:

5. 地理的分類器(geo または g

地域的または地理的言語変種を識別します。

形式:

例:

6. 祖語分類器(proto または a

祖語または再建された歴史的言語を識別します。

形式:

規則:

ISO 639-5 コードを使用した例:

ISO 639-5 コードなしの例(記述的、3文字以上):

注記:

7. 歴史的分類器(hist または h

言語の歴史的期間または段階を識別します。

形式:

例:

8. ジャンル分類器(genre または e

テキストジャンルまたは文学的スタイルを識別します。

形式:

例:

9. 媒体分類器(medium または m

コミュニケーション媒体を識別します。

形式:

例:

10. 社会方言分類器(socio または s

社会方言または社会グループ変種を識別します。

形式:

例:

11. モダリティ分類器(modality または o

言語産出の基本的なモードを識別します。

形式:

例:

12. レジスター分類器(register または r

言語使用の言語レジスターまたは機能的変種を識別します。

形式:

例:

13. 語用論的機能分類器(pragma または u

コミュニケーション機能または発話行為を識別します。

形式:

例:

14. 時間的マーキング分類器(temporal または t

時間的側面または時制使用パターンを識別します。

形式:

例:

15. 証拠性分類器(evidence または v

情報源マーキングを識別します。

形式:

例:

16. 感情/情動分類器(affect または k

感情的トーンまたは情動を識別します。

形式:

例:

17. 年齢/世代分類器(age または n

年齢関連または世代的言語変種を識別します。

形式:

例:

18. ジェンダー分類器(gender または i

ジェンダー関連の言語変種を識別します。

形式:

19. 専門知識レベル分類器(expert または b

0-10スケールでドメインの専門知識レベルを識別します。

形式:

専門知識スケール:

例:

20. 相互作用構造分類器(interact または 2

会話または相互作用パターンを識別します。

形式:

例:

21. 韻律的特徴分類器(prosody または y

韻律的または超分節的特徴を識別します。

形式:

例:

22. 語彙密度分類器(lexical または l

語彙密度を数値(0-100)として識別します。

形式:

例:

23. 構文的複雑さ分類器(syntax または z

構文的複雑さを数値(0-100)として識別します。

形式:

例:

24. 開始日分類器(start または 0

言語使用の開始日を識別します(句読点なしの ISO 8601 形式)。

形式:

日付形式:

例:

25. 終了日分類器(end または 1

言語使用の終了日を識別します(句読点なしの ISO 8601 形式)。

形式:

日付形式:

例:

26. タブー分類器(taboo または j

タブー、下品、または不快なコンテンツのレベルを識別します。

形式:

例:

27. 信頼度分類器(conf または c

直前の分類器の信頼度スコアを示します。

形式:

特別な動作:

例:

複数の分類

LVTag は、正確な言語識別を提供するために単一のタグで複数の分類器をサポートします。長形式と短形式の両方を混在させることができます:

ko-x-form-4-domain-business
ko-x-f-4-d-business
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

上記の例は、ビジネスコンテキストでインフォーマルなフォーマルさ(4)だが丁寧な話し言葉(2)の韓国語を示しています。

有効な値

注記:すべての値は BCP 47 サブタグ長の制限に準拠するために 8 文字以下でなければなりません。多くの分類器の特定の値は専門家の使用とコミュニティの合意によって確立されるべきですが、数値スケール、日付形式、および以下に示す基本値はこの標準で定義されています。

フォーマルさスケール(ユニバーサル)

レベル 説明
1 最もフォーマル 法的文書、公式式典、学術論文
2 フォーマル ビジネスレター、ニュース記事、プレゼンテーション
3 ニュートラル 標準的な会話、電子メール、一般的な文章
4 インフォーマル カジュアルな会話、個人ブログ、テキストメッセージ
5 最もカジュアル スラング、親密な会話、ソーシャルメディア

丁寧さスケール(ユニバーサル)

レベル 説明
1 最も敬意のある 王室への呼びかけ、宗教指導者、年配者への敬意
2 非常に丁寧 カスタマーサービス、フォーマルな会議、教師
3 丁寧/ニュートラル 標準的なやり取り、同僚
4 親しみやすい 友人、仲間、カジュアルな知人
5 親密/平易 親しい家族、親密なパートナー

専門知識スケール(ユニバーサル)

レベル 説明
0 知識なし
1-2 初心者
3-4 中級
5-6 上級
7-8 エキスパート
9-10 マスター/権威

タブースケール(ユニバーサル)

レベル 説明
0 タブーコンテンツなし
1 軽度のタブー
2 軽いタブー
3 中程度のタブー
4 高いタブー
5 極端なタブー

語彙密度スケール(ユニバーサル)

レベル 説明
0-20 非常に低い密度
21-40 低い密度
41-60 中程度の密度
61-80 高い密度
81-100 非常に高い密度

構文的複雑さスケール(ユニバーサル)

レベル 説明
0-20 非常に単純
21-40 単純
41-60 中程度の複雑さ
61-80 複雑
81-100 非常に複雑

ドメイン値

説明
legal 法律用語
med 医学用語
tech 技術/IT
business ビジネス/企業
fin 金融/銀行
acad 学術/学問
sci 科学/研究

実装例

単一分類器(長形式)

# 最もフォーマルな韓国語
ko-x-form-1

# 非常に丁寧な日本語
ja-x-polite-2

# 法律英語
en-x-domain-legal

# 慶尚道韓国語
ko-x-geo-gyeong

# 印欧祖語
x-proto-ine

単一分類器(短形式)

# 最もフォーマルな韓国語
ko-x-f-1

# 非常に丁寧な日本語
ja-x-p-2

# 法律英語
en-x-d-legal

# 慶尚道韓国語
ko-x-g-gyeong

# 印欧祖語
x-a-ine

複数の分類器

# インフォーマルだが丁寧な韓国語ビジネス言語
ko-x-form-4-polite-2-domain-business
ko-x-f-4-p-2-d-business

# フォーマルで敬意のある日本語医学言語
ja-x-form-1-polite-1-domain-med
ja-x-f-1-p-1-d-med

# ニュートラルなフォーマルさ、丁寧な話し言葉、技術的ドメインの南ベトナム語
vi-x-geo-southern-form-3-polite-2-domain-tech
vi-x-g-southern-f-3-p-2-d-tech

# 複数の次元を持つ複雑な分類
en-x-h-middle-e-poetry-m-written-f-1
ja-x-f-2-p-1-d-med-h-kobun-m-written

# フォーマルさ/丁寧さの区別を示す言語変種
ko-x-f-5-p-2  # 非常にカジュアルだが丁寧(年上の友人に)
ko-x-f-1-p-4  # 非常にフォーマルだが親しみやすい(同僚への書面)
ja-x-f-4-p-1  # カジュアルなフォーマルさだが最高の敬意
en-x-f-5-j-4  # 非常にカジュアルな英語で高いタブーレベル

使用例

  1. 言語学習アプリケーション
    • 異なる社会的コンテキストに適したレジスターを教える
    • ドメイン固有の語彙トレーニングを提供する
  2. 機械翻訳
    • 翻訳でレジスターの一貫性を維持する
    • ドメイン固有の用語を適用する
  3. コンテンツ分類
    • フォーマルさとドメインによってテキストを自動的に分類する
    • 適切なレビュアーまたはシステムにコンテンツをルーティングする
  4. コーパス言語学
    • 言語研究のためのタグ付きコーパスを構築する
    • レジスターとドメインの変化を研究する

検証ルール

  1. サブタグの長さx- の後の各サブタグは 8 文字以下でなければならない
  2. 順序:分類器は x- の後に任意の順序で表示できる
  3. 一意性:各分類器タイプはタグごとに 1 回のみ表示されるべきである(複数回表示できる conf を除く)
  4. 大文字小文字:タグは小文字であるべきである(BCP 47 に従って大文字小文字を区別しない)
  5. マジックタグ:短形式タグは単一文字である;q3-9 は将来の使用のために予約されている
  6. 混在:長形式と短形式は同じタグ内で混在できる
  7. 祖語タグx- で始まる必要があり、利用可能な場合は ISO 639-5 コードを使用すべきである(例:x-proto-sla であり x-proto-slavic ではない)
  8. 信頼度conf/c 分類器は直前の分類器に適用される
  9. 数値:定義された範囲内でなければならない(タブーは 0-5、専門知識は 0-10、パーセンテージ値は 0-100)
  10. 日付形式:日付は句読点なしの ISO 8601 を使用する(YYYY、YYYYMM、または YYYYMMDD)

互換性

LVTag フォーマットは以下と完全に互換性があります:

利点

  1. 精度:細かい言語変種識別を可能にする
  2. 拡張性:新しいレジスターとドメインを追加できる
  3. 標準ベース:確立された BCP 47 プライベート使用メカニズム上に構築
  4. 機械可読:体系的なフォーマットにより自動処理が可能
  5. 人間可読:明確で記述的なサブタグ
  6. 柔軟性:詳細な長形式と簡潔な短形式タグの両方をサポート
  7. 簡潔さ:短いマジックタグにより、明確さを維持しながらコンパクトな表現が可能

将来の拡張

LVTag は言語技術コミュニティのニーズとともに進化するように設計されています。新しい分類器の提案、既存の分類器の改善、実際の実装からのフィードバックを歓迎します。

拡張を提案したり、仕様に貢献したりするには:

予約された単一文字コード(q3-9)は、将来の標準化された拡張のために利用可能です。

参考文献


ライセンスと特許許可

この仕様は CC0 1.0 Universal (Public Domain Dedication) の下でリリースされています。

なぜ CC0:最大限の採用と実装の自由を確保するため、LVTag はパブリックドメインに置かれています。これは以下を意味します:

特許許可:LVTag 仕様をカバーするすべての特許は、この仕様に準拠するすべての実装に対してロイヤリティフリーでライセンスされます。

推奨なし:LVTag の使用は、仕様作成者による推奨を意味するものではありません。

法律で許可される範囲で、Danslav Slavenskoj は Language Variant Tag (LVTag) Format Specification に対するすべての著作権および関連または隣接する権利を放棄しました。この作品は以下から公開されています:アメリカ合衆国。