OCR (Optical Character Recognition,光學(xué)字符識(shí)別)是指電子設(shè)備(例如掃描儀或數(shù)碼相機(jī))檢查紙上打印的字符,通過(guò)檢測(cè)暗、亮的模式確定其形狀,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過(guò)程;即,針對(duì)印刷體字符,采用光學(xué)的方式將紙質(zhì)文檔中的文字轉(zhuǎn)換成為黑白點(diǎn)陣的圖像文件,并通過(guò)識(shí)別軟件將圖像中的文字轉(zhuǎn)換成文本格式,供文字處理軟件進(jìn)一步編輯加工的技術(shù)。如何除錯(cuò)或利用輔助信息提高識(shí)別正確率,是OCR的課題,ICR(Intelligent Character Recognition)的名詞也因此而產(chǎn)生。衡量一個(gè)OCR系統(tǒng)性能好壞的主要指標(biāo)有:拒識(shí)率、誤識(shí)率、識(shí)別速度、用戶界面的友好性,產(chǎn)品的穩(wěn)定性,易用性及可行性等。

圖像輸入、預(yù)處理:圖像輸入:對(duì)于不同的圖像格式,有著不同的存儲(chǔ)格式,不同的壓縮方式,目前有OpenCV,CxImage等開(kāi)源項(xiàng)目 。預(yù)處理:主要包括二值化,噪聲去除,傾斜較正等二值化:對(duì)攝像頭拍攝的圖片,大多數(shù)是彩像,彩像所含信息量巨大,對(duì)于圖片的內(nèi)容,我們可以簡(jiǎn)單的分為前景與背景,為了讓計(jì)算機(jī)更快的,更好的識(shí)別文字,我們需要先對(duì)彩進(jìn)行處理,使圖片只前景信息與背景信息,可以簡(jiǎn)單的定義前景信息為黑色,背景信息為白色,這就是二值化圖了。

白條、黑條的寬度不同,相應(yīng)的電信號(hào)持續(xù)時(shí)間長(zhǎng)短也不同.但是,由光電轉(zhuǎn)換器輸出的與條形碼的條和空相應(yīng)的電信號(hào)一般僅10mV左右,不能直接使用,因而先要將光電轉(zhuǎn)換器輸出的電信號(hào)送放大器放大.放大后的電信號(hào)仍然是一個(gè)模擬電信號(hào),為了避免由條形碼中的疵點(diǎn)和污點(diǎn)導(dǎo)致錯(cuò)誤信號(hào),在放大電路后需加一電路,把模擬信號(hào)轉(zhuǎn)換成數(shù)字電信號(hào),以便計(jì)算機(jī)系統(tǒng)能準(zhǔn)確判讀。