方法 | 古音小鏡用計算機求取民族語同源語素的方法 |
---|---|
目的 | 語音對應和滿足語音對應的同源詞,是歷史語言學的精華,設計電腦程序,找到它們,節省人腦開銷,讓研究者專注更重要的工作。 |
基本原理 |
① 音標是否相似(編輯距離) ✘不採用 ② 語音是否對應 ✔採用 不以音標相似判斷同源語素,以語音對應判斷同源語素;先求取語音對應,再求取同源語素;把音標換成任何值都不影響結果。 優點:無需給定任何已知的語言學知識,零負擔起跑。 |
求語音對應 | 求取語音對應的2個條件(需同時滿足):
① 音類實際接觸須大於隨機概率。 ② 音類實際接觸較隨機概率的富餘須大於後者的不確定程度。 解釋:實際上條件②可覆蓋條件①。不確定程度主要來自樣本數量規模,如詞表規模小、音類規模小會影響到可信程度,給您一張百詞表,您顯然不敢用,因為數量太少,不能良好反映該語言真實的音素比例。樣本越小,不確定程度越大,樣本越大,不確定程度越小。通過統計理論知,該不確定程度呈高斯分佈,我們可量化它的標準差,即知道它的擺動範圍,得到可信區間。 這好比我們不但知道某考生的考試平均分,還知道他的發揮穩定性,可判斷他考多少分是可信的。為了形象理解,網頁中把不確定性叫噪聲,這樣,以上的①是信量評價,②是噪聲評價,①和②形成信噪比,它如同一道門檻,可控制同源詞的質量。僅通過信量求取語音對應是粗糙的、不嚴謹的,古音小鏡用信噪比求取語音對應,這樣可以熨平材料差異,得到可信度一致性較好的同源詞。它使詞數多寡懸殊的詞表可公平比較,使音節數量差異很大的語言可公平比較,可以從理論上預知錯率,實現誤差量化。 |
音節對齊 | 實際的詞有多個音節,我們並不知道語素的次序,哪個音節應該對哪個呢?比如甲語言2個音節,乙語言3個音節,那麼可存在6種音節組合,但只有一種是對的。
採取以下辦法: ① 取全部詞的全部組合(比如上面例子6組全取),讓所有音碰撞,統計語音對應(這時無用信息量是很大的,結果是很糟糕的,但不要緊,裡頭已取到對應信息,它們是有序的,而不對應信息是無序的,它們的疊加仍然是有序的)。 ② 以求取的語音對應(它們是量化的數值),代入所有音節組合,取總值最大的那個組合(比如上面例子6組裡只取1組),所有詞的音節組合確定後,再統計語音對應(這時的結果會變好一點)。 ③ 不斷重複②的操作: 求取 → 代入 ↑ ↓ 代入 → 求取 循環轉圈,隨著次數增多,語音對應逐漸精確,音節對齊逐漸準確,噪聲逐漸減小,結論的質量逐漸提高。這樣得到的結果並不100%正確,但可能性最大。 |
逼近和穩定 | 由於參與比較的多個音節部位(比如聲、韻、調)是相互咬合的,以上「音節對齊」是個收斂的過程,且結果導向趨勢是積極的、而不是錯誤的放大。重複循環運行到結果不再改變,停止它,這時得到可能性最大的音節對齊結果和噪聲最小的語音對應結果。該方法避免了通過IPA音值相似來對齊音節。 |
求同源語素 | 以上操作,得到聲母對應、韻母對應、聲調對應(它們都是數值),用這3對數值篩取同源語素,網有了魚就有了。如此得到的同源語素,它們的聲母、韻母、聲調,大多擁有較多對應例子,這是同源詞最直接的證據,但少數仍然可能只有自己一個對應例子,原因是該音詞少、語言遙遠、詞表較小等,這也是正常的。 |
錯誤率和局限 | 錯誤率:平均約3%,平均每30根對應線中有一根錯誤(不同詞裡有多有少不均勻)。 局限:「同源語素」包含同源詞和借詞,只要能產生語音對應規律,都視為「同源語素」。 |
算力可行性 | 循環逼近會消耗很多算力,在目前中高性能電腦上,一對語言可控制在5s左右,100個語言兩兩組合的時間開銷是:5*(100*100/2) ≈ 7小時,在可接受範圍內。目前電腦算力已跨過該方法的忍受門檻。 |
素材 | 內部縱深 | 包含語言/素材出處 | 同源詞求取設置 | 備註 |
---|---|---|---|---|
苗瑤語素 2021-06-20 推出 | 約2500年 | 苗瑤語系(46種) 語保工程 | 比對部位:聲、韻、調 信噪比閾值:1.5 刪除孤例數:2 | 川黔滇苗語分為黔中苗語、西部苗語兩類 |
侗台語素 2021-10-05 推出 | 約4500年 | 侗台語系(74種) 語保工程 | 比對部位:聲、韻、調 信噪比閾值:1.5 刪除孤例數:2 | 仱語:侗水語 依語:北部壯語 儂語:南部壯語 貝話:臨高話 僚語:仡佬語 |
羌語素 2024-03-02 推出 | 約6000年 | 羌語群語言42種 語保工程 | 比對部位:聲、韻 信噪比閾值:2 刪除孤例數:2 | |
藏語素A 2025-01-12 推出 | 約2000年 | 藏語43種 孫凱博士和阿錯教授製作數據庫(來自專著和論文材料) | 比對部位:聲、韻 信噪比閾值:2 刪除孤例數:2 | |
藏語素B 2024-03-22 推出 | 約2000年 | 藏語29種 語保工程 | 比對部位:聲、韻 信噪比閾值:2 刪除孤例數:2 | |
尼語素 2024-05-25 推出 | 約4000年 | 緬彝語88種 怒蘇語:孫宏開《怒族語言簡志》 感謝葛佳琦製作和分享材料 緬甸語:汪大年、蔡向陽《緬甸語方言研究》 感謝潘悟雲分享材料 其他:語保工程 | 比對部位:聲、韻 信噪比閾值:2 刪除孤例數:2 | 即緬彝語、「尼」是該民族團體的代表性自稱 |
僰語素 2024-05-30 推出 | 約6000年 | 漢藏語的中國西南遠古分化語30種 白語/土家語/納西語/景頗語/獨龍語 語保工程 | 比對部位:聲、韻 信噪比閾值:2 刪除孤例數:2 | 該地區上古稱「僰」 |
康語素 2024-10-08 推出 | 約1500年 | 東方藏區康巴藏語52種 鈴木博之《川西民族走廊・チベット語方言研究》 鈴木博之/長野泰彦《川西民族走廊・チベット語方言分類語彙集》 | 比對部位:聲、韻 信噪比閾值:2 刪除孤例數:2 | |
南亞語素 2025-2-12 推出 | 約9000年 | 南亞語系(全部14分支) Sealang數據471筆+中國語保工程21筆 | 比對部位:聲、元、尾 信噪比閾值:1.5 刪除孤例數:2 | |
同源語素求取由於設置不同、不同功能間的結果不具有可比性 較多素材取材於語保工程公開材料、感謝近幾年工作在一線的民族語言調查工作者! |
舉例 | 在「苗瑤語」的「豬圈」一詞中大約可分析為5個語素 |
---|---|
![]() |