g0cr / g0vcaptcha

Strategy

此專案的目的在批次處理文件的掃描圖檔,轉換為文字。

*.gov.tw 上許多報告文件雖是 PDF,但其內容卻是紙本報告掃描而成的圖檔,無法快速傳成文字格式、或建立索引。因此必需要由人工來處理。

運作方面,打算仿效 recaptcha 的方式,先把圖檔切成較小的文字區塊,一方面可以丟給程式做 OCR,另一方面做出界面讓使用者提供正確答案。

最終的產品,是把上傳的圖檔轉成純文字格式,讓人可以搜尋,或讓外部搜尋引擎可以抓取內容回去。

Scope

web app: http://g0cr.gugod.org/

git repo: https://github.com/g0v/g0vcaptch

Web App

Background job

Structure

Wireframe / Content

Visual

白老鼠/狗食部落客