| 漢藏語系關係樹(Sino-Tibetan/Trans-Himalayan Tree) 1036筆材料 ↓點擊顯示大圖↓ |
|---|
![]() |
| 一、材料和方法 |
|---|
| 一、材料 有1036筆材料參與建樹: ① STEDT:449筆,太重要了! ② 中國語保工程:207筆,近10年中國新调查材料。 ③ Stevey7788維基詞典:134筆,補充譜系位置重要的藏南、尼泊爾、喜馬拉雅小眾語。 ④ 长野泰彥團隊「rGyalrongic Languages Database」數據庫:83筆,嘉絨語為主,全部原創。 ⑤ 李大勤團隊瀕危語(最新公開出版材料):12筆,譜系地位重要的南西藏語言,境外罕見的詳細詞彙記錄。 ⑥ 內藤丘/游涵/龔勛緬語組數據集:38筆,高質量。 ⑦ 修至誠STBP:17筆,修至誠網站分享的數據,包含茉魯、烏貢等稀缺材料。 ⑧ 其他來源(出版物、錄入、友贈送等):96筆。 二、方法 ① 樹形的確定:穩定義項的語音映射有序性(樸素原理:常用詞的語音對齊越好→語言越親),它貼近歷史語言學重視音變規律的本懷,無需識別同源詞,也無需考量音標的音值。2025版古音小鏡新量化方法克服了詞數、音系結構的影響,使各種材料可公平對比。 方法詳情>> 穩定義項>> ② 樹齡的確定:採用歷史事件定位。詳情>> ③ 安全的逐層聚類:由①形成熱圖後,聚類程序尋找明顯相似的親緣區塊,區塊之間用集體均值聚類(≠平均連接法)。可避免異常數據破壞樹形,區塊之間關係穩定,加減材料對結果影響小,更安全;克服「數據越多錯誤越大」老問題,由於採用區塊均值,材料越多越可靠。聚類、生樹程序由古音小鏡編寫。詳情>> ④ 必要的人工參與:由③加入噪聲產生多種樹形,用虛線合併不確定處,消除激進成分。先做出56個語支內部樹,語支之間亦用成員均值聚類,形成語支樹,最後合併成1036筆材料的大樹。熱圖和關係樹並現,問題較直觀,便於討論。 ⑤ 特點:古音小鏡特色,獨立結論,有別於學界常用方法(如詞彙年代學、語音編輯距離等)。 三、增補四條原則 關係樹依據「材料+方法」產生的數值,此外增補四條原則,參與處理樹形: 原則一:藏文化圈和藏語有數值關係的語言不視為藏語的親戚,除非有過硬證據。(最小Bodish原則) 原則二:漢文化圈和漢語有數值關係的語言不視為漢語的親戚,除非有過硬證據。(白、蔡龍不歸漢原則) 原則三:Arunachal和塔尼語有數值關係的語言不視為塔尼語的親戚,除非有過硬證據。 原則四:差異程度相同的語言,地理距離近的分化時間長。 前三條用於處理強勢語言和弱勢語言的關係,它是假定的,不是實證的,本方法不分辨借詞。 原則四是一條常識,大家都懂,但很難量化,所以不輕易使用,使用時我必會註明。 |
| 二、誰是漢藏語系第一分支? |
|---|
圖:漢藏語系語支關係熱圖 關係樹有56個語支,以上熱圖是確定語支關係的依據。對於「Arunachal語最根部」假說,有壞消息,也有好消息。壞消息是五個語支輸給漢語:Mey、Idu、Siang、Kman、Miji;好消息是三個語支戰勝和追平漢語:Puroik、Bugun、Hruso(Puroik顯著戰勝漢語,Bugun、Hruso和漢語打成平手)。分析熱圖,有四種樹形畫法可討論: ②保守畫法: ③理性畫法: ④激進畫法: 本樹使用④激進畫法,以平衡長期以來漢藏語分類對文化弱勢小語種的忽視。 不管哪種畫法,漢語第一分支的地位都會失去。Puroik、Bugun、Hruso的存在,將是「漢-藏緬」二分體系永遠揮之不去的夢魘。 補充: ① Roger Blench 和 Mark W.Post做了大量工作,他們2013年工作稿中已描繪了「Arunachal語最根部」的藍圖(見附錄),他們曾有更激進的孤立語想法,這是自由和銳利的探索;修至誠首次用數據統計得到「Arunachal語最根部」,它比三棵大刊物貝葉斯樹更早,發佈在他的網站上(見附錄)。 ② 白語、蔡龍語大部分常用詞是漢語借詞,因此熱圖表現和漢語相同,本站把它倆視為特殊語言,一般討論時不涉及它倆。 ③ 通用聚類軟件會怎麼做呢?大概率是這樣:首先Puroik聚於Mey和Bugun(後驗100%),然後因Mey的較高借詞比例,該三人小組會聚類在主流漢藏語中,Puroik成為一根普通的內部樹枝,特異性被殺掉;漢語由於缺乏像Mey這樣的紐帶,無法和其他語言聯繫,會成為根部分支。(我雖然很喜歡用聚類幹活,但它們不會深度思考) |
| 三、為何古音小鏡樹齡更長? |
|---|
| 古音小鏡樹齡比主流長約20%-45%,主要是以下原因: ① 不同的語言,雖然以相似的詞彙半衰期發展,但詞彙創新往往相同(實際上多為地理性、相同文化區流行新概念),因此語言間「趨異速度」並不快,即縱向快,但橫向慢。經典詞彙年代學默認「橫向=縱向疊加」,實際是「橫向<縱向疊加」,導致經典估算年代偏晚、樹齡偏短。 ② 核心詞衰變會逐漸變慢:先快速失去不穩定的詞,再慢慢失去穩定的詞。經驗衰變率來自速度較快的前期,導致經典方法對完整年代的估算偏晚、樹齡偏短。 ③ 新的貝葉斯模型大多放棄了恆定詞彙速率,改用歷史事件校準和定位,但經典估算值在貝葉斯項目中仍然起到監督作用、參考作用,影響力仍然存在。 所以,不是古音小鏡樹齡更長,而是主流樹齡偏短。 |
| 四、為何古音小鏡樹形和詞彙年代學的不同? |
|---|
| 古音小鏡樹形,和詞彙年代學樹形,都會被地理欺騙,形成偽譜系。 假設有3個完全相同的語言ABC,A和B地理近(如100公里),C離它倆很遠(如1000公里),那麼發展1000年後,再去觀察它們,不同方法的結論會這樣: 在這個話題中,「羌語支語言」表現明顯。三顆貝葉斯樹裡,它們的差異較普通,古音小鏡樹裡,它們的差異較大。 原因是這些語言長期生活在地理較近的共同藏文化區中,詞彙趨同,分歧減弱,但「語音映射有序性」並不局限於相同詞語的數量,它檢測詞語在傳遞中的語音規則性(同源詞優於借詞)。 它的較低數值反映,這些語言分離很早、基底古老。 在那嘉語族中也如此:詞彙年代學會自然地分出那嘉-庫基兩類,吻合地理分佈;在「語音映射有序性」方法中,那嘉語族最大差異發生在地理臨近的奧語支-澤梅語支間,其他語言(包括庫基)介於它倆。 |
| 附:近期漢藏語系優秀分類12種 | ||||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
② 范德林落葉(van Driem、2012) 我自己摸了一遍,所得結果和這些落葉非常相似(差異見此)。 這些落葉之間保持了很大差異,我認為都超過甲骨文年代,而且它們覆蓋全部漢藏語,是一套完備分類。 這42片落葉,除了少數幾片(如Qiangic、Angami-Pochuri、Lhokpu)可商量,大部分已一錘定音,離完美只有稍加調整的微小距離。 漢藏語顯然不是侗台語那樣層級分明的梯子樹,而是類似南亞語的耙形樹,各種偽層級讓人心力交瘁,最終學術主流很可能會回歸到范德林落葉。100年後,我們做的各種分類樹都會淘汰,范德林落葉可能永存。如果你是新人,趕緊擁抱它不會有大錯。 ③ 布倫奇..樹(Roger Blench & Mark W.Post、2013) 學術推進從造反開始! ④ 沙加爾..樹(2019-04) 展示了不可思議的Sal-Sinitic分支(後驗0.54),雖然是不對的,但有立場,沒有遷就觀眾。這顆樹的各種時間值我最滿意。 ⑤ 張夢翰..樹(2019-04) 顏值最佳的漢藏樹,適合打印出來掛在墻上細細欣賞。 ⑥ 張函芝..樹(2020-11) 最誠實的一顆貝葉斯樹,明顯爭議的晚近年代值(原因來自用於校準年代的歷史事件),各種不合常理的聚合… 真貨都有瑕疵(我自己出的樹也常是這樣),它沒有遮掩,是一棵原汁原味的樹,我喜歡! ⑦ 修至誠樹(Andy Hsiu、2019-01) 修至誠在自己網站研究漢藏語,不愛和獵奇雜誌攀談文明傳播宏大敘事,保持自由探索。(2019年時,學界已經知道Arunachal語的譜系重要性,但兩棵談語言起源的大刊物貝葉斯樹缺席,反而是未刊登的修至誠樹收入了這些重要語言,得到驚人但正確的答案。貝葉斯本來是科學家探索真相的,但在語言文明研究中,它更像一個美女的衣櫃(參數靈活、樹形豐富、取捨自便),穿什麼衣服,取決於要講什麼故事,修至誠不講故事,他得到的答案相對純粹) ⑧ 吳美欣..樹(2022) 提供了神秘的Arunachal語完整關係,使人們第一次知道它們的可信關係(部分外部漢藏語使用2019「沙加爾..樹」材料)。 ⑨ 高天俊樹(2023) 中國境內藏緬語新樹。 ⑩ 高天俊網(2023) 中國境內藏緬語網絡關係。 ⑪ 向-吳樹(2024) 向柏霖2024年文章中用「吳美欣..樹」論文附件產生的樹(同樣,外部語言使用2019「沙加爾..樹」材料)。 ⑫ Glottolog 5.2 → Sino-Tibetan 幾乎天天使用,非常方便,沒有人能掌握這麼多語言,它做到了!它有多達19個一級分支,不以語言小而忽視地位,是大進步,多數一級分支是靠得住的(在我的數據中證實)。 以上12種分類都有扎實的數據支持或調查支持,言之有物,在我做更大的樹前,已參考了它們。 | ||||||||||||||||||||||||||||
| 探索語言不是證明一個光鮮的祖先,而是正視多元的文化。 探索語言不是證明一個體面的文明,而是正視坎坷和苦難。 保持愛心!追求自由!探索真相! www.kaom.net |