![]() The distance of sinitic vocabulary in different places —— 漢語詞彙相似度的可視化觀察工具 基本原理1284種漢語、每種漢語約1200詞、詞表項統一,統計每兩種漢語的「詞彙相似度」,顯示在網絡圖中,觀察漢語之間的親疏關係。詞彙相似度的計算每個語言約有1200詞,對比兩個語言,詞如果字面全同+1分(如太陽-太陽)、不同但有一個字相同的+0.3分(如太陽-太影)、不同但有一個以上字相同的+0.5分(如太陽-太陽佛),一詞有多個說法的各自計算取平均值。 理論上,兩個語言之間的得分在0-約1200分之間,該數值除以實際參與對比詞數(約1200個),得到兩個語言的「詞彙相似度」,在0-100%之間,該數值越大,語言間越親密。 這個計算方法較粗暴,優點是可電腦計算,快速出結果。統計數據語保工程1284種漢語詞彙(公開材料)。尚存問題和不足①機械的字面比較,對多字詞裡的核心語素、次要語素不做區分,不如人工準確。②一詞多字的尚未統一,如圳-甽、坳-岙等,它們所記是同一語素,從語言角度是完全相同的,但計算中只認字,被識別為不同。 ③無字可寫的詞(記錄為□、■、☒的),未做比較。 感謝近年來工作在一線的每一位漢語調查工作者! |
各地漢語詞彙距離 · 古音小鏡 |