各地漢語詞彙距離·古音小鏡

The distance of sinitic vocabulary in different places
—— 漢語詞彙相似度的可視化觀察工具

基本原理

1284種漢語、每種漢語約1200詞、詞表項統一，統計每兩種漢語的「詞彙相似度」，顯示在網絡圖中，觀察漢語之間的親疏關係。

詞彙相似度的計算

每個語言約有1200詞，對比兩個語言，詞如果字面全同+1分（如太陽-太陽）、不同但有一個字相同的+0.3分（如太陽-太影）、不同但有一個以上字相同的+0.5分（如太陽-太陽佛），一詞有多個說法的各自計算取平均值。理論上，兩個語言之間的得分在0-約1200分之間，該數值除以實際參與對比詞數（約1200個），得到兩個語言的「詞彙相似度」，在0-100%之間，該數值越大，語言間越親密。這個計算方法較粗暴，優點是可電腦計算，快速出結果。

統計數據

語保工程1284種漢語詞彙（公開材料）。

尚存問題和不足

①機械的字面比較，對多字詞裡的核心語素、次要語素不做區分，不如人工準確。
②一詞多字的尚未統一，如圳-甽、坳-岙等，它們所記是同一語素，從語言角度是完全相同的，但計算中只認字，被識別為不同。
③無字可寫的詞（記錄為□、■、☒的），未做比較。

感謝近年來工作在一線的每一位漢語調查工作者！

各地漢語詞彙距離 · 古音小鏡