方正銳思--文字識別軟件
來源:中國電子政務網 更新時間:2008-03-11

將字符實現電子化一般采用兩種方式:人工鍵入和自動輸入。由于人工鍵入的速度慢,勞動強度大,滿足不了當今文檔管理、圖書情報管理等行業對于處理大量文字資料實現電子化的需求,從而易造成文檔資料的積壓。為了適應市場需求,北大方正技術研究院推出有完全自主知識產權的方正銳思文字識別軟件,有效的解決和滿足了當今不同行業對于海量信息資料從傳統保存方式向電子保存方式的轉變。方正銳思文字識別軟件憑借北大方正技術研究院在OCR領域的研究經驗與技術實力,采用多項專利技術,實現了海量紙質文件的快速錄入。方正銳思不僅能夠實現基本文字字符的電子化,而且強化了可識別的字體范圍,增強了對字體變體的適應性,提高了對粗體字、粘連字符、模糊樣張的識別率。另外,方正銳思能夠準確識別粘連在一起的字符,這對于識別年代久遠的鉛印樣張尤為重要。該產品目前可廣泛運用于媒體、數字圖書館、檔案資料館、政府機關等行業,實現了海量文字、圖表、圖像等形式的自動錄入。

 

應用目標

方正銳思憑借北大方正技術研究院扎實的技術實力和自主的專利技術,較高的文字識別率,不僅能夠有效的實現傳統的OCR功能特點,而且針對不同的行業需求,推出銀行票據識別、增值稅發票識別、檔案識別、工商報表識別、表格自動錄入等應用領域的OCR軟件產品。

方正銳思按照應用對象的不同,分為通用版、檔案版、公文版和CEB專業版四種版本,可以根據需要定制版本。

另外,方正銳思還可以向其他應用系統提供通用版、檔案公文版以及具備票據識別等多種類型的開發包,并可以根據具體的需要定制開發包。

應用模型

Ø         掃描:方正銳思自帶掃描程序,可以直接設置掃描參數及掃描樣張,掃描后可將文件自動保存到預定的目標中。

Ø         圖像處理:方正銳思可自動完成圖像的“去污點”處理,而無需用戶干涉。“去污”只需在系統的內部進行,不會修改用戶原圖,可以保留用戶資料的原貌。

Ø         版面分析:方正銳思可以自動進行版面理解并進行定位,能夠準確劃分劃框區、文本區、表格區、圖像區,并且可用線框對各區域進行標識。同時,方正銳思對版面分析的功能也可由用戶手動完成,用戶可對系統的分析結果加以修改。

Ø         識別 方正銳思可以識別印刷簡體中文、表格、中英文混排等形式,能自動根據上下文進行多候選字的挑選與確認。

Ø         校對:方正銳思具有較強的查錯糾錯能力,可對可疑字以突出顏色進行標注,便于操作員發現錯誤和修改。

Ø         版面還原:可以將識別并修改好的文本進行還原,并形成供計算機閱讀和查詢檢索的DocTxtCEB格式的數字文檔。

Ø         方正銳思通用版:最終識別結果可以輸出成DocTxt格式。

Ø         方正銳思公文版:最終可以對完成識別的電子文檔進行標引,從而進入方正博通等公文管理系統。

Ø         方正銳思檔案版:最終可以將完成識別的電子檔案匯入方正博通公文檔案一體化管理。

  方正銳思通用版流程圖                             方正銳思公文/檔案版版流程圖

 

功能特點

1.多種字體識別:識別核心內嵌字體達50多種,針對字體的變異,實際識別的字體超過100種。(囊括一般書籍報刊、雜志中能見到的字體。)

2.字符識別范圍廣:支持GBK2312字符集的全部簡體漢字(共6763個);同時支持部分常用GBK2312以外的34級簡體漢字;支持所有大小寫英文字母及其變體、全部標點、阿拉伯數字及數百個常用符號,并且支持斜體字符識別。

3.識別多種版式:支持中文、英文樣張的識別;支持中英文、數字符號混排的樣張。

4.有較高的識別率:對一般的書刊雜志、報紙等樣張,字體為1號一小五號字號,采用300dpi的分辨率進行掃描,漢字部分識別率一般都可達到99%以上。對純中文或英文、符號較少的樣張,可達到近100%的漢字識別率。對英文、符號較多的混排文章,總體識別率可達到98%以上。

5.識別速度快:對于普通樣張,可到達近500字符/秒的速度。

6.支持老樣張識別:能很好的識別粘連字、粗體字以及各種老字體;對于檔案館、圖書館收藏的舊鉛印資料,達到較高識別率。

7.圖像識別范圍廣:支持黑白(包括白底黑字和黑底白字)、灰度、彩色圖像的識別,可以讀取多種圖像格式。

8.支持表格識別:不僅可實現對一般表格的識別,而且可識別部分非常規表格(無邊框的表格,且能自動補上邊框;表格線有一定傾斜度;表格線有一定彎曲;表格線很粗;表格線不很清晰等)。

9.中英文混合排版識別:對于中文、英文、數字、符號大量混排的樣張有較高的識別率。

10.數碼相機樣張識別:采用獨特的圖像幾何矯正技術,比較理想地解決了數碼相機樣張內容扭曲變形的情況。

11.對識別結果進行版面恢復將識別出的內容,包括文字、字母符號、表格、圖像、花邊等輸出為Word文檔,還原成跟掃描文稿版面的布局一樣,實現“所見即所得”。也可輸出為Txt格式的文檔,供檢索等使用。 在輸出時,可將多個圖片的識別內容合并輸入到一個Word文檔或Txt文件中,這在對一篇文章被掃描為幾個頁面時,能很方便地恢復原貌。

12.較強的修正功能:對于識別圖像有較強的糾斜功能(糾正傾斜角可達10度左右),且糾正精度高,同時可自動糾正掃描樣張的傾斜;可自動去噪,去除掃描圖像上的污點與干擾,且這種去噪的操作在系統內部就可自動完成。

13.準確的版面分析:能對較復雜的版面進行正確的分析,如文藝類、娛樂類等報紙,能自動分辨出待識別樣張中的表格、圖像、文字等區域。

14.工作過程自動處理: 整個掃描、圖像預處理、版面分析、識別都由系統自動完成,不僅提高效率,而且降低對操作員技能的要求。

15.方便的后編改操作: 方正銳思可將識別的文字結果和圖像一并顯示,可清晰的將不能識別的文字和可能錯誤的字符分別用特定的標記和顏色強調表示,修正操作簡單便捷。



铁牛视频app下载苹果-铁牛视频app下载地址-铁牛视频app破解版ios