| 古音小鏡用電腦程序求取民族語同源詞的方法 | |
|---|---|
| 目標 | 符合語音對應的同源詞,是歷史語言學的精華。開動腦筋,設計電腦程序,找到它們。節省機械性勞動,讓研究者專注更重要的工作。 |
| 舉例 | ![]() 46種苗瑤語的「豬圈」可能有5個同源語素,灰色連線是程序發現的語音對應,線越粗對應詞越多。 |
| 基本原理 |
① 音標是否相似(編輯距離) ✘不採用 ② 語音是否對應 ✔採用 不以音標相似判斷同源詞,以語音對應判斷同源詞;先求取語音對應,再求取同源詞;把音標換成任何值都不影響結果。它的優點是,無需給定任何已知的語言學知識(如國際音標的差異程度等),零負擔起跑。 |
| 求語音對應 | 一、古音小鏡求取語音對應的2個條件(同時滿足):
第①條:音類實際接觸須大於隨機概率。 第②條:音類實際接觸較隨機概率的富餘須大於後者的不確定程度。 (實際上條件②已覆蓋條件①、滿足②必滿足①) 二、解釋: ① 第①條很好理解,主要解釋第②條。 ② 不確定程度主要來自樣本規模,如詞表小、音類小會影響到可信程度。給我一張100詞表,顯然我不太敢用,因為數量較少,隨機性較強,不能穩定反映該語言的音類比例、對應比例。但詞表達到500詞時,我就很喜歡它,因為反映的音類面貌基本穩定。如果達到1000詞,那麼更理想。對於音類特別多的語言(如嘉絨語的複輔音),那麼需要更大的詞表才可靠。 ③ 樣本越小,不確定程度越大,樣本越大,不確定程度越小。通過統計理論知,它是高斯分佈的(像一個鐘形),我們可算出它的彌散範圍(標準差),得到可信的區間。這好比我們不但知道某考生歷次考試的平均分,還知道他的發揮穩定性(不確定程度),這樣我們就有把握:他這次考多少分是可信的。 ④ 為了形象理解,網頁中把不確定性叫噪聲。這樣,以上的第①條是信量評價,第②條是噪聲評價,兩者形成信噪比,它如同一道門檻,可控制同源詞的質量。 ⑤ 只用第①條求取語音對應是粗糙的、不嚴謹的,現在追加②(形成信噪比)求取語音對應,質量會更好。 三、優點: ① 可熨平材料差異,詞數不同的詞表,得到可信度相同的同源詞(在小詞表中會損失更多同源詞、但可信度一致),使詞數多寡懸殊的詞表可公平比較,使音節數量差異很大的語言可公平比較。 ② 可從理論上知道錯誤率,實現誤差量化。 |
| 音節對齊 |
一、低信息熵即對齊
信息熵是工科概念,我們吸取它理念來對齊音節。基本思路是:對齊後的音節,會使這兩個語言點的全部語音對應的有序性最好(信噪比最高)。 實際的詞有多個音節,我們並不知道對應次序,比如一個詞,甲語言有2個音節,乙語言有2個音節,那麼可存在2種組合。這裡採用這個辦法: ① 取全部詞的全部組合,讓所有音碰撞,統計全部對應信息(這時無用信息量很大,結果是很糟糕的,但不要緊,裡頭已取到相同語素的語音對應,它們是有序的,而不相同語素的語音對應是無序的,它們的疊加仍然是有序的——雖然噪聲較大)。 ② 用以上的全部語音對應,代入所有音節組合,取信噪比(聲母、韻母、元音、韻尾等音節各部位的得分綜合)最大的那個組合,比如上面2組裡只取1組,所有詞的音節組合確定後,再統計語音對應(這時的結果會變好一點,噪聲變小)。 ③ 不斷重複②的操作: 求取 → 代入 ↑ ↓ 代入 → 求取 循環轉圈,隨著次數增多,語音對應逐漸有序,音節對齊逐漸精確,噪聲逐漸減小,結論的質量逐漸提高。這樣得到的結果並不100%正確,它是在「可能性」上得到一個較合理的結果。 二、逼近和穩定 由於參與比較的多個音節部位(如聲母、韻母)是相互咬合的,以上「音節對齊」是收斂的,結果導向趨勢是積極、而不是錯誤的放大。重複循環運行到結果不再改變,停止它,這時得到可能性最大的音節對齊結果和噪聲最小的語音對應結果。該方法避免了通過IPA音值相似來對齊音節。 |
| 求同源詞 | 通過以上操作,得到聲母對應、韻母對應、元音對應、韻尾對應等(它們都是數值),用它倆網取同源詞,網有了,魚就有了。 得到的這些同源詞,多數擁有對應例子,這些例子會在網頁中被查到,便於用戶辨別。但少數仍然可能只有自己一個對應例子(最常見如聲母對應例子很多,但韻母只能找到一例),原因可能是詞表較小、該音類詞少、語言遙遠等多種情況,這是正常的,只是這類同源詞的可信度要打折扣了。 |
| 錯率和局限 | 錯誤率:多數情況下約3%-5%,即每20-30根對應線中有1根錯誤(不同詞裡不均勻)。
局限:「同源詞」包含同源詞和借詞,只要能產生語音對應規律,都視為「同源詞」。 |
| 可行性 | 在目前中高性能電腦上,一對語言可控制在5s左右,100個語言兩兩組合的時間開銷是:5*(100*100/2) ≈ 7小時,在可接受範圍內,目前的普通電腦可以應付。 | 站長 2021-6-20(2025-11-1修改) |