部件樣態:分析與測試

最後編輯:2019-11-29 建立:2015-10-02 歷史紀錄

 

  • SAU-CHIN C源自零時字引(簡報)與個人心理學研究心得
  • 從必學的基礎中文字歸納的部件樣態(外形,結構,位置),能否應付現代中文的組字需求?
  • 台灣教學學者建立的中文字部件資料庫與分析研究
    • Cool Chinese漢字、部件五項線上查詢平台
    • 部件結構與分析報告: 陳學志*、張瓅勻、邱郁秀、宋曜廷、張國恩(2011)。中文部件組字與形構資料庫之建立及其在識字教學上之應用。教育心理學報,43卷,閱讀專刊,269-290。
    • 必學的中文字有6,097字(對照簡體字5,793字),包含在IDS-Basic之內
    • IDS 字形結構(from wiki) vs. Cool Chinese 字形結構(from paper)
    • YAP S

SAU-CHIN C*

*

  • 還需要進行的資料處理
  1. IDS資料的處理
  • * 只有特殊序號的部件中文字(&...;) => 查找可對應的實際字符 => 沒有者以簡易編碼代替

2.結構差異的字條分析

  • * 比較結構分類不同的字條之結構分類差異
  • * 比較結構分類不同的字條之部件分析差異

3.結構相同的字條分析

  • * 結構分類相同的字條,比較部件分析差異

 

4.決定部件樣態:

  • * 從結構相同的字條,歸納經過前三步驟,透過以下分析程序所得到的部件樣態

第一層結構 -> 可分析部件位置(?) -> 第二層結構 -> 可分析部件位置 (?) -> ... -> 第n層結構 -> 可分析部件 位置(無) end

 

ex1. 佶: 第一層⿰ -> 可分析部件 (右) -> 第二層⿱ -> 可分析部件(無)

ex2. 蛇: 第一層⿰ -> 可分析部件 (右) -> 第二層⿱ -> 可分析部件(無)

 

  • * 範圍內字條經過以上程序,得到構成部件的部件樣態資訊。部件樣態必須包含外形、結構與位置資訊。

 

5.部件樣態定義與測試

  • * 單一部件,統計結構+位置的樣態
  • e.g., "心"在"態","心" 在 "愛","心" 在 "沁"分為三種樣態
  • e.g., "宀"在"安","宀"在"實","宀"在"蛇"分為三種樣態

Validation Test

  • * 測試樣本:IDS-Basic 6,097字之外的字條
    • 非Basic的字集
  • * 測試方法: (1)從測試樣本隨機抽樣一定規模的字條
    • (2)可用部件樣態成功組字的字條比例