g0cr / g0vcaptcha

編輯歷史

時間	作者	版本
2014-06-21 13:31 – 13:33	Kang-min Liu	r1036 – r1101
顯示 diff （17 行未修改）讓人上傳文件顯示機器辨識的結果 - 讓人可修正機器辨識的文字 + + 實做多種機器辨識演算法，以提升整體的正確率（recall）讓人可修正機器辨識的文字顯示人工辨識的結果 *提供搜尋介面，讓人可搜尋文件內容（17 行未修改）
2014-06-15 15:49 – 15:51	Kang-min Liu	r1020 – r1035
顯示 diff - g0vcaptcha + ggcr / 0vcaptcha Strategy （7 行未修改） Scope - git repo: https://github.com/g0v/g0vcaptcha + web app: http://gcr. + gugod.org/git repo: https://github.com/g0v/g0vcaptch + Web App （22 行未修改）
2014-06-08 12:03 – 12:21	Kang-min Liu	r649 – r1019
顯示 diff （6 行未修改）運作方面，打算仿效 recaptcha 的方式，先把圖檔切成較小的文字區塊，一方面可以丟給程式做 OCR，另一方面做出界面讓使用者提供正確答案。 - - Scope - 提供/不提供哪些功能？ - 這些功能的使用流程各自是什麼？ - （產出文件：flow chart） - - Structure - 首頁、level 1、level 2... 共有哪些頁面？ - 頁面之間的連結關係長什麼樣子？ - （產出文件：網站架構圖） - - Wireframe / Content - 每頁的內容各自是什麼？ - 頁面上各元素大概會放在什麼位置、有多大尺寸？ - 頁面上有哪些與使用者互動的區塊？ - （產出文件：文案、頁面框線圖） - - Visual - 每頁實際上看起來會長什麼樣子 - 精確的排版、配色、字體大小、視覺特效 - （產出文件：識別系統 / 設計稿 / prototype） - 白老鼠/狗食部落客 - 如果有這功能，我可以把我們所有客戶的captcha都逐步換上。 + 最終的產品，是把上傳的圖檔轉成純文字格式，讓人可以搜尋，或讓外部搜尋引擎可以抓取內容回去。 - 進展 + Scope git repo: https://github.com/g0v/g0vcaptcha （3 行未修改）讓人可修正機器辨識的文字顯示人工辨識的結果 + 提供搜尋介面，讓人可搜尋文件內容 + 提供每份文件的靜態版，讓外部搜尋引擎抓取 + 讓人可提供文件的輔助資訊，例如：來源，摘要，原下載網址。 Background job 抓取文件中有字的區塊，並進行機器辨識 - * + 目前使用 tesseract 做成 HOCR 格式的輸出。 + 整合所有區塊，製成成靜態版（純文字及 HTML） + + + Structure + + Wireframe / Content + + Visual + + 白老鼠/狗食部落客 + *如果有這功能，我可以把我們所有客戶的captcha都逐步換上。
2014-06-08 12:03	(unknown)	r648
顯示 diff （45 行未修改）
2014-06-08 11:57 – 12:03	Kang-min Liu	r416 – r647
顯示 diff （30 行未修改）白老鼠/狗食部落客如果有這功能，我可以把我們所有客戶的captcha都逐步換上。 + + 進展 + git repo: https://github.com/g0v/g0vcaptcha + + Web App + 讓人上傳文件 + 顯示機器辨識的結果 + 讓人可修正機器辨識的文字 + 顯示人工辨識的結果 + + Background job + 抓取文件中有字的區塊，並進行機器辨識 +
2013-11-05 21:04 – 21:05	Kang-min Liu	r398 – r415
顯示 diff （3 行未修改）此專案的目的在批次處理文件的掃描圖檔，轉換為文字。 - .gov.tw 上許多報告文件雖是 PDF，但其內容卻紙本報告掃描而成的圖檔，無法傳成文字格式。因此必需要由人工來處理。 + .gov.tw 上許多報告文件雖是 PDF，但其內容卻是紙本報告掃描而成的圖檔，無法快速傳成文字格式、或建立索引。因此必需要由人工來處理。 - 運作方面，打算仿效 recaptcha 的方式，先把圖檔切成較小的文字區塊，一方面給程式做 OCR，另一方面做出界面讓使用者提供正確答案。 + 運作方面，打算仿效 recaptcha 的方式，先把圖檔切成較小的文字區塊，一方面可以丟給程式做 OCR，另一方面做出界面讓使用者提供正確答案。 *Scope （22 行未修改）
2013-10-29 01:47 – 01:50	Charles Chuang	r360 – r397
顯示 diff （27 行未修改）精確的排版、配色、字體大小、視覺特效（產出文件：識別系統 / 設計稿 / prototype） + + 白老鼠/狗食部落客 + 如果有這功能，我可以把我們所有客戶的captcha都逐步換上。
2013-10-26 06:33 – 06:33	Kang-min Liu	r358 – r359
顯示 diff （5 行未修改） .gov.tw 上許多報告文件雖是 PDF，但其內容卻紙本報告掃描而成的圖檔，無法傳成文字格式。因此必需要由人工來處理。 - 運作方向，打算仿效 recaptcha 的方式，先把圖檔切成較小的文字區塊，一方面給程式做 OCR，另一方面做出界面讓使用者提供正確答案。 + 運作方面，打算仿效 recaptcha 的方式，先把圖檔切成較小的文字區塊，一方面給程式做 OCR，另一方面做出界面讓使用者提供正確答案。 Scope （19 行未修改）
2013-10-24 06:35 – 07:05	Kang-min Liu	r1 – r357
顯示 diff g0vcaptcha - This pad text is synchronized as you type, so that everyone viewing this page sees the same text. This allows you to collaborate seamlessly on documents! + Strategy + 此專案的目的在批次處理文件的掃描圖檔，轉換為文字。 + + .gov.tw 上許多報告文件雖是 PDF，但其內容卻紙本報告掃描而成的圖檔，無法傳成文字格式。因此必需要由人工來處理。 + + 運作方向，打算仿效 recaptcha 的方式，先把圖檔切成較小的文字區塊，一方面給程式做 OCR，另一方面做出界面讓使用者提供正確答案。 + + Scope + 提供/不提供哪些功能？ + 這些功能的使用流程各自是什麼？ + （產出文件：flow chart） + + Structure + 首頁、level 1、level 2... 共有哪些頁面？ + 頁面之間的連結關係長什麼樣子？ + （產出文件：網站架構圖） + + Wireframe / Content + 每頁的內容各自是什麼？ + 頁面上各元素大概會放在什麼位置、有多大尺寸？ + 頁面上有哪些與使用者互動的區塊？ + （產出文件：文案、頁面框線圖） + + Visual + 每頁實際上看起來會長什麼樣子 + 精確的排版、配色、字體大小、視覺特效 + *（產出文件：識別系統 / 設計稿 / prototype）
2013-10-24 06:35	(unknown)	r0
顯示 diff + g0vcaptcha + This pad text is synchronized as you type, so that everyone viewing this page sees the same text. This allows you to collaborate seamlessly on documents!