語系學

古音小鏡用電腦程序求取民族語同源詞的方法
目標	符合語音對應的同源詞是歷史語言學的精華，開動腦筋，設計電腦程序，找到它們，節省人腦開銷，讓研究者專注更重要的工作。（把機械勞動交給電腦，讓人類專注於靈感和突破）
舉例	46種苗瑤語的「豬圈」可能有5個同源語素，灰色連線是程序發現的語音對應，線越粗對應詞越多。
基本原理	① 音標是否相似（編輯距離） ✘不採用　　② 語音是否對應 ✔採用　　不以音標相似判斷同源詞，以語音對應判斷同源詞；先求取語音對應，再求取同源詞；把音標換成任何值都不影響結果。它的優點是，無需給定任何已知的語言學知識（如國際音標的差異程度等），零負擔起跑。
求語音對應	一、古音小鏡求取語音對應的2個條件（同時滿足）：　　第一條：音類實際接觸須大於隨機概率。　　第二條：音類實際接觸較隨機概率的富餘須大於後者的不確定程度。　　（實際上條件②已覆蓋條件①、滿足②必滿足①）二、解釋：　　第一條很好理解，主要解釋第二條。　　① 不確定程度主要來自樣本規模，如詞表小、音類小會影響到可信程度。給我一張100詞表，顯然我不太敢用，因為數量較少，隨機性較強，不能穩定反映該語言的音類比例、對應比例。但詞表達到500詞時，我就很喜歡它，因為反映的音類面貌基本穩定。如果達到1000詞，那麼更理想。對於音類特別多的語言（如嘉絨語的複輔音），那麼需要更大的詞表才可靠。　　② 樣本越小，不確定程度越大，樣本越大，不確定程度越小。通過統計理論知，它是高斯分佈的（像一個鐘形），我們可算出它的彌散範圍（標準差），得到可信的區間。這好比我們不但知道某考生歷次考試的平均分，還知道他的發揮穩定性（不確定程度），這樣我們就有把握：他這次考多少分是可信的。　　③ 為了形象理解，網頁中把不確定性叫噪聲。這樣，以上的第一條是信量評價，第二條是噪聲評價，兩者形成信噪比，它如同一道門檻，可控制同源詞的質量。　　④ 只用第一條求取語音對應是粗糙的、不嚴謹的，追加第二條（形成信噪比）求取語音對應，質量更好。三、優點：　　① 可熨平材料差異，詞數不同的詞表，得到可信度相同的同源詞（在小詞表中會損失更多同源詞、但可信度一致），使詞數多寡懸殊的詞表可公平比較，使音節數量差異很大的語言可公平比較。　　② 可從理論上知道錯誤率，實現誤差量化。
音節對齊	音節對齊不是核心問題但很重要，比如kong ki（公雞）和ci kong（雞公）互為倒置，需要倒置對齊，實際情況中還有更複雜的多音節詞。　　一、高信噪比即對齊　　基本思路是：對齊後的音節，會使兩個語言點全部義項的語音連線有序性最好（信噪比最高）。　　實際的詞有多個音節，比如甲語言有2個音節，乙語言也有2個音節，那麼可存在2種組合。這裡採用這個辦法：　　① 取全部詞的全部組合，讓所有音碰撞，統計全部對應信息（這時無用信息量很大，結果是很糟糕的，但不要緊，裡頭已取到相同語素的語音對應，它們是有序的，而不相同語素的語音對應是無序的，它們的疊加仍然是有序的——雖然噪聲較大）。　　② 用以上的全部語音對應，代入所有音節組合，取信噪比（聲母、韻母、元音、韻尾等音節各部位的得分綜合）最大的那個組合，比如上面2組裡只取1組，所有詞的音節組合確定後，再統計語音對應（這時的結果會變好一點，噪聲變小）。　　③ 不斷重複②的操作：求取 → 代入 ↑　　　 ↓ 代入 → 求取　　循環轉圈，隨著次數增多，語音對應逐漸有序，音節對齊逐漸精確，噪聲逐漸減小，結論的質量逐漸提高。這樣得到的結果並不100%正確，它是在「可能性」上得到一個較合理的結果。二、逼近和穩定　　由於參與比較的多個音節部位（如聲母、韻母）是相互咬合的，以上「音節對齊」是收斂的，結果導向趨勢是積極、而不是錯誤的放大。重複循環運行到結果不再改變，停止它，這時得到可能性最大的音節對齊結果和噪聲最小的語音對應結果。該方法避免了通過IPA音值相似來對齊音節。
求同源詞	音節對齊後求語音對應，得到聲母對應、韻母對應、元音對應、韻尾對應等（它們都是數值），用它們就可以網取同源詞。網有了，魚就有了。得到的這些同源詞，多數擁有對應例子，這些例子會在網頁中被查到，便於用戶辨別。但少數仍然可能只有自己一個對應例子（最常見如聲母對應例子很多，但韻母只能找到一例），原因可能是詞表較小、該音類詞少、語言遙遠等多種情況，這是正常的，只是這類同源可信度要打折扣。
錯率和局限	錯誤率：多數情況下約3%-5%，即每20-30根對應線中有1根錯誤（不同詞裡不均勻）。局限：「同源詞」包含狹義的發生學同源詞和外來借詞，只要能產生語音對應規律，都視為「同源詞」。
可行性	在目前普通電腦上，平均一對語言約5秒（大部分時間花在音節對齊上），100個語言兩兩組合的時間開銷是：5秒(100100/2) ≈ 7小時，在可接受範圍。（最近，漢藏語約有1000筆材料參與運算，兩兩產生100萬個組合，時間開銷估算約：5秒(10001000/2) ≈ 29天，不可接受，使用一台64核的工作站並行完成。2025-11-15）
站長 2021-6-20（2025-11-1修改）