法規正規化 (Law Formalization) 2.0

來由

https://github.com/g0v/laweasyread-data

https://github.com/g0v/twlaw

年久失修,需要統整各種 parser 與規劃統一的法條機讀格式。

現在的正規化 toolchain:

TWLaw (HTML) -> (JSON) -> (Git) -> TW-Law-Corpus (Markdown)

TWLaw (HTML) -> LawEasyRead-Data (JSON) -> LawEasyRead (MongoDB)

立法院法律系統與全國法規資料庫不一致。

考量

扁平/組織

分條分項/增修/Metadata

盡可能不要XML

暫時提案

擬似 Markdown 的人讀格式,有嚴謹的 spec:

或是充滿 metadata 的 JSON 格式。

參考資料

USLM: http://uscode.house.gov/download/resources/USLM-User-Guide.pdf