g0cr / g0vcaptcha
編輯歷史
| 時間 | 作者 | 版本 |
|---|---|---|
| 2014-06-21 13:31 – 13:33 | r1036 – r1101 | |
顯示 diff(17 行未修改)
*讓人上傳文件
*顯示機器辨識的結果
- *讓人可修正機器辨識的文字
+ *
+ *實做多種機器辨識演算法,以提升整體的正確率(recall)讓人可修正機器辨識的文字
*顯示人工辨識的結果
*提供搜尋介面,讓人可搜尋文件內容
(17 行未修改)
|
||
| 2014-06-15 15:49 – 15:51 | r1020 – r1035 | |
顯示 diff- g0vcaptcha
+ ggcr / 0vcaptcha
*Strategy
(7 行未修改)
*Scope
- git repo: https://github.com/g0v/g0vcaptcha
+ web app: http://gcr.
+ gugod.org/git repo: https://github.com/g0v/g0vcaptch
+
Web App
(22 行未修改)
|
||
| 2014-06-08 12:03 – 12:21 | r649 – r1019 | |
顯示 diff(6 行未修改)
運作方面,打算仿效 recaptcha 的方式,先把圖檔切成較小的文字區塊,一方面可以丟給程式做 OCR,另一方面做出界面讓使用者提供正確答案。
-
- *Scope
- *提供/不提供哪些功能?
- *這些功能的使用流程各自是什麼?
- *(產出文件:flow chart)
-
- *Structure
- *首頁、level 1、level 2... 共有哪些頁面?
- *頁面之間的連結關係長什麼樣子?
- *(產出文件:網站架構圖)
-
- *Wireframe / Content
- *每頁的內容各自是什麼?
- *頁面上各元素大概會放在什麼位置、有多大尺寸?
- *頁面上有哪些與使用者互動的區塊?
- *(產出文件:文案、頁面框線圖)
-
- *Visual
- *每頁實際上看起來會長什麼樣子
- *精確的排版、配色、字體大小、視覺特效
- *(產出文件:識別系統 / 設計稿 / prototype)
- *白老鼠/狗食部落客
- *如果有這功能,我可以把我們所有客戶的captcha都逐步換上。
+ 最終的產品,是把上傳的圖檔轉成純文字格式,讓人可以搜尋,或讓外部搜尋引擎可以抓取內容回去。
- 進展
+ *Scope
git repo: https://github.com/g0v/g0vcaptcha
(3 行未修改)
*讓人可修正機器辨識的文字
*顯示人工辨識的結果
+ *提供搜尋介面,讓人可搜尋文件內容
+ *提供每份文件的靜態版,讓外部搜尋引擎抓取
+ *讓人可提供文件的輔助資訊,例如:來源,摘要,原下載網址。
Background job
*抓取文件中有字的區塊,並進行機器辨識
- *
+ *目前使用 tesseract 做成 HOCR 格式的輸出。
+ *整合所有區塊,製成成靜態版(純文字及 HTML)
+
+
+ *Structure
+
+ *Wireframe / Content
+
+ *Visual
+
+ *白老鼠/狗食部落客
+ *如果有這功能,我可以把我們所有客戶的captcha都逐步換上。
|
||
| 2014-06-08 12:03 | r648 | |
顯示 diff(45 行未修改)
|
||
| 2014-06-08 11:57 – 12:03 | r416 – r647 | |
顯示 diff(30 行未修改)
*白老鼠/狗食部落客
*如果有這功能,我可以把我們所有客戶的captcha都逐步換上。
+
+ 進展
+ git repo: https://github.com/g0v/g0vcaptcha
+
+ Web App
+ *讓人上傳文件
+ *顯示機器辨識的結果
+ *讓人可修正機器辨識的文字
+ *顯示人工辨識的結果
+
+ Background job
+ *抓取文件中有字的區塊,並進行機器辨識
+ *
|
||
| 2013-11-05 21:04 – 21:05 | r398 – r415 | |
顯示 diff(3 行未修改)
此專案的目的在批次處理文件的掃描圖檔,轉換為文字。
- *.gov.tw 上許多報告文件雖是 PDF,但其內容卻紙本報告掃描而成的圖檔,無法傳成文字格式。因此必需要由人工來處理。
+ *.gov.tw 上許多報告文件雖是 PDF,但其內容卻是紙本報告掃描而成的圖檔,無法快速傳成文字格式、或建立索引。因此必需要由人工來處理。
- 運作方面,打算仿效 recaptcha 的方式,先把圖檔切成較小的文字區塊,一方面給程式做 OCR,另一方面做出界面讓使用者提供正確答案。
+ 運作方面,打算仿效 recaptcha 的方式,先把圖檔切成較小的文字區塊,一方面可以丟給程式做 OCR,另一方面做出界面讓使用者提供正確答案。
*Scope
(22 行未修改)
|
||
| 2013-10-29 01:47 – 01:50 | r360 – r397 | |
顯示 diff(27 行未修改)
*精確的排版、配色、字體大小、視覺特效
*(產出文件:識別系統 / 設計稿 / prototype)
+
+ *白老鼠/狗食部落客
+ *如果有這功能,我可以把我們所有客戶的captcha都逐步換上。
|
||
| 2013-10-26 06:33 – 06:33 | r358 – r359 | |
顯示 diff(5 行未修改)
*.gov.tw 上許多報告文件雖是 PDF,但其內容卻紙本報告掃描而成的圖檔,無法傳成文字格式。因此必需要由人工來處理。
- 運作方向,打算仿效 recaptcha 的方式,先把圖檔切成較小的文字區塊,一方面給程式做 OCR,另一方面做出界面讓使用者提供正確答案。
+ 運作方面,打算仿效 recaptcha 的方式,先把圖檔切成較小的文字區塊,一方面給程式做 OCR,另一方面做出界面讓使用者提供正確答案。
*Scope
(19 行未修改)
|
||
| 2013-10-24 06:35 – 07:05 | r1 – r357 | |
顯示 diff g0vcaptcha
- This pad text is synchronized as you type, so that everyone viewing this page sees the same text. This allows you to collaborate seamlessly on documents!
+ *Strategy
+ 此專案的目的在批次處理文件的掃描圖檔,轉換為文字。
+
+ *.gov.tw 上許多報告文件雖是 PDF,但其內容卻紙本報告掃描而成的圖檔,無法傳成文字格式。因此必需要由人工來處理。
+
+ 運作方向,打算仿效 recaptcha 的方式,先把圖檔切成較小的文字區塊,一方面給程式做 OCR,另一方面做出界面讓使用者提供正確答案。
+
+ *Scope
+ *提供/不提供哪些功能?
+ *這些功能的使用流程各自是什麼?
+ *(產出文件:flow chart)
+
+ *Structure
+ *首頁、level 1、level 2... 共有哪些頁面?
+ *頁面之間的連結關係長什麼樣子?
+ *(產出文件:網站架構圖)
+
+ *Wireframe / Content
+ *每頁的內容各自是什麼?
+ *頁面上各元素大概會放在什麼位置、有多大尺寸?
+ *頁面上有哪些與使用者互動的區塊?
+ *(產出文件:文案、頁面框線圖)
+
+ *Visual
+ *每頁實際上看起來會長什麼樣子
+ *精確的排版、配色、字體大小、視覺特效
+ *(產出文件:識別系統 / 設計稿 / prototype)
|
||
| 2013-10-24 06:35 | r0 | |
顯示 diff+ g0vcaptcha
+ This pad text is synchronized as you type, so that everyone viewing this page sees the same text. This allows you to collaborate seamlessly on documents!
|
||