提示:近來機器人較多、網站若有卡頓、請隔10分鐘後再試
方法古音小鏡用計算機求取民族語同源語素的方法
目的語音對應和滿足語音對應的同源詞,是歷史語言學的精華,設計電腦程序,找到它們,節省人腦開銷,讓研究者專注更重要的工作。
基本原理 ① 音標是否相似(編輯距離) ✘不採用
② 語音是否對應 ✔採用
不以音標相似判斷同源語素,以語音對應判斷同源語素;先求取語音對應,再求取同源語素;把音標換成任何值都不影響結果。
優點:無需給定任何已知的語言學知識,零負擔起跑。
求語音對應求取語音對應的2個條件(需同時滿足):
音類實際接觸須大於隨機概率。
音類實際接觸較隨機概率的富餘須大於後者的不確定程度。
解釋:實際上條件②可覆蓋條件①。不確定程度主要來自樣本數量規模,如詞表規模小、音類規模小會影響到可信程度,給您一張百詞表,您顯然不敢用,因為數量太少,不能良好反映該語言真實的音素比例。樣本越小,不確定程度越大,樣本越大,不確定程度越小。通過統計理論知,該不確定程度呈高斯分佈,我們可量化它的標準差,即知道它的擺動範圍,得到可信區間。 這好比我們不但知道某考生的考試平均分,還知道他的發揮穩定性,可判斷他考多少分是可信的。為了形象理解,網頁中把不確定性叫噪聲,這樣,以上的①是信量評價,②是噪聲評價,①和②形成信噪比,它如同一道門檻,可控制同源詞的質量。僅通過信量求取語音對應是粗糙的、不嚴謹的,古音小鏡用信噪比求取語音對應,這樣可以熨平材料差異,得到可信度一致性較好的同源詞。它使詞數多寡懸殊的詞表可公平比較,使音節數量差異很大的語言可公平比較,可以從理論上預知錯率,實現誤差量化。
音節對齊實際的詞有多個音節,我們並不知道語素的次序,哪個音節應該對哪個呢?比如甲語言2個音節,乙語言3個音節,那麼可存在6種音節組合,但只有一種是對的。
採取以下辦法:
① 取全部詞的全部組合(比如上面例子6組全取),讓所有音碰撞,統計語音對應(這時無用信息量是很大的,結果是很糟糕的,但不要緊,裡頭已取到對應信息,它們是有序的,而不對應信息是無序的,它們的疊加仍然是有序的)。
② 以求取的語音對應(它們是量化的數值),代入所有音節組合,取總值最大的那個組合(比如上面例子6組裡只取1組),所有詞的音節組合確定後,再統計語音對應(這時的結果會變好一點)。
③ 不斷重複②的操作:

求取 → 代入
↑    ↓
代入 → 求取


循環轉圈,隨著次數增多,語音對應逐漸精確,音節對齊逐漸準確,噪聲逐漸減小,結論的質量逐漸提高。這樣得到的結果並不100%正確,但可能性最大。
逼近和穩定由於參與比較的多個音節部位(比如聲、韻、調)是相互咬合的,以上「音節對齊」是個收斂的過程,且結果導向趨勢是積極的、而不是錯誤的放大。重複循環運行到結果不再改變,停止它,這時得到可能性最大的音節對齊結果和噪聲最小的語音對應結果。該方法避免了通過IPA音值相似來對齊音節。
求同源語素以上操作,得到聲母對應、韻母對應、聲調對應(它們都是數值),用這3對數值篩取同源語素,網有了魚就有了。如此得到的同源語素,它們的聲母、韻母、聲調,大多擁有較多對應例子,這是同源詞最直接的證據,但少數仍然可能只有自己一個對應例子,原因是該音詞少、語言遙遠、詞表較小等,這也是正常的。
錯誤率和局限錯誤率:平均約3%,平均每30根對應線中有一根錯誤(不同詞裡有多有少不均勻)。
局限:「同源語素」包含同源詞和借詞,只要能產生語音對應規律,都視為「同源語素」。
算力可行性循環逼近會消耗很多算力,在目前中高性能電腦上,一對語言可控制在5s左右,100個語言兩兩組合的時間開銷是:5*(100*100/2) ≈ 7小時,在可接受範圍內。目前電腦算力已跨過該方法的忍受門檻。
素材內部縱深包含語言/素材出處同源詞求取設置備註
苗瑤語素
2021-06-20 推出
約2500年苗瑤語系(46種)
語保工程
比對部位:聲、韻、調
信噪比閾值:1.5
刪除孤例數:2
川黔滇苗語分為黔中苗語、西部苗語兩類
侗台語素
2021-10-05 推出
約4500年侗台語系(74種)
語保工程
比對部位:聲、韻、調
信噪比閾值:1.5
刪除孤例數:2
仱語:侗水語
依語:北部壯語
儂語:南部壯語
貝話:臨高話
僚語:仡佬語
羌語素
2024-03-02 推出
約6000年羌語群語言42種
語保工程
比對部位:聲、韻
信噪比閾值:2
刪除孤例數:2
藏語素A
2025-01-12 推出
約2000年藏語43種
孫凱博士和阿錯教授製作數據庫(來自專著和論文材料)
比對部位:聲、韻
信噪比閾值:2
刪除孤例數:2
藏語素B
2024-03-22 推出
約2000年藏語29種
語保工程
比對部位:聲、韻
信噪比閾值:2
刪除孤例數:2
尼語素
2024-05-25 推出
約4000年緬彝語88種
怒蘇語:孫宏開《怒族語言簡志》
感謝葛佳琦製作和分享材料
緬甸語:汪大年、蔡向陽《緬甸語方言研究》
感謝潘悟雲分享材料
其他:語保工程
比對部位:聲、韻
信噪比閾值:2
刪除孤例數:2
即緬彝語、「尼」是該民族團體的代表性自稱
僰語素
2024-05-30 推出
約6000年漢藏語的中國西南遠古分化語30種
白語/土家語/納西語/景頗語/獨龍語
語保工程
比對部位:聲、韻
信噪比閾值:2
刪除孤例數:2
該地區上古稱「僰」
康語素
2024-10-08 推出
約1500年東方藏區康巴藏語52種
鈴木博之《川西民族走廊・チベット語方言研究》
鈴木博之/長野泰彦《川西民族走廊・チベット語方言分類語彙集》
比對部位:聲、韻
信噪比閾值:2
刪除孤例數:2
南亞語素
2025-2-12 推出
約9000年南亞語系(全部14分支)
Sealang數據471筆+中國語保工程21筆
比對部位:聲、元、尾
信噪比閾值:1.5
刪除孤例數:2
舉例在「苗瑤語」的「豬圈」一詞中大約可分析為5個語素
 
蘇ICP備17001294號 | 0.47MB 0.91MB 0.006s | 材料如有冒犯通知即刪