提示:近來機器人較多、網站若有卡頓、請隔10分鐘後再試

The distance of sinitic vocabulary in different places
—— 漢語詞彙相似度的可視化觀察工具

基本原理

1284種漢語、每種漢語約1200詞、詞表項統一,統計每兩種漢語的「詞彙相似度」,顯示在網絡圖中,觀察漢語之間的親疏關係。

詞彙相似度的計算

每個語言約有1200詞,對比兩個語言,詞如果字面全同+1分(如太陽-太陽)、不同但有一個字相同的+0.3分(如太陽-太影)、不同但有一個以上字相同的+0.5分(如太陽-太陽佛),一詞有多個說法的各自計算取平均值。 理論上,兩個語言之間的得分在0-約1200分之間,該數值除以實際參與對比詞數(約1200個),得到兩個語言的「詞彙相似度」,在0-100%之間,該數值越大,語言間越親密。 這個計算方法較粗暴,優點是可電腦計算,快速出結果。

統計數據

語保工程1284種漢語詞彙(公開材料)。

尚存問題和不足

①機械的字面比較,對多字詞裡的核心語素、次要語素不做區分,不如人工準確。
②一詞多字的尚未統一,如圳-甽、坳-岙等,它們所記是同一語素,從語言角度是完全相同的,但計算中只認字,被識別為不同。
③無字可寫的詞(記錄為□、■、☒的),未做比較。

感謝近年來工作在一線的每一位漢語調查工作者!

 
蘇ICP備17001294號 | 0.44MB 0.88MB 0.005s | 材料如有冒犯通知即刪