"); //-->
編者按:
“清風不識字,何事亂翻書。”
早在1929年,德國科學家Tausheck提出了OCR的概念,定義為將印刷體的字符從紙質文檔中識別出來。而技術發展至今,識字,已不再僅限于識別書本上的文字,而是要識別真實世界開放場景中的文字。因此,也衍生出了一系列問題,例如真實環境中文字角度不可控、語種復雜多樣、環境噪聲多變等,針對這些問題,學術界開展了OCR領域研究工作。本文中,來自華中科技大學的白翔教授,將為大家介紹過去一年中,OCR領域的研究進展。
文末,大講堂提供文中提到參考文獻的下載鏈接。


報告從文本檢測,文本識別,端到端識別,還有數據集四個方面展開。

文本檢測方面。首先是去年自動化所發表在ICCV的研究成果。之前的回歸方法大多為計算給定的default box和待要檢測的文本框的offset,而這里采用的是基于一個像素點回歸的方法,也就是回歸文本框與當前像素點的offset。另一個區別是融合不同層的特征,通過多任務學習進行文本分割以及文本框的回歸。整體上,他們的工作在場景文字檢測任務上帶來了一定性能上的提升。

另外一個工作是用全卷積網絡將文本區域分成三種類型,第一種類型是文本內部區域,第二種類型是背景區域,第三種類型是文字的邊界。這種手段可以較好地應對之前的基于分割的場景文本檢測方法難以區分相鄰的文本實例的問題,從而帶來檢測性能的提升。

上面這項工作的思路相對比較簡單,就是在SSD基礎上加了一個模塊,這個模塊引入了attention的機制即預測text mask,通過文本和非文本的判別讓檢測更加關注到文本區域上。

這是百度的工作,做法也比較直接:通過一個弱監督的框架使用單詞級別的標注來訓練字符檢測器,然后通過結構分析將檢測到的字符組合成單詞。

這篇是我們今年發表在TIP上面的一篇工作。其主要改進點為在去年TextBoxes基礎上增加了額外的兩個分支,其中一個分支被用來回歸文字水平包圍盒,另外一個分支被用來回歸四邊形(表示為4個頂點)。此外,我們還用識別信息來過濾檢測到的候選框,進一步提升檢測結果。


這是我們今年被CVPR接收的一篇文章。其主要思路是:對于文本來說,無論是回歸還是分類,特征往往是共享的。然而對于場景文本檢測問題來說,特征共享對于這兩個任務其實是不利的。首先對于文本與背景的分類問題,一般要求特征具有方向不變性。但是對于回歸出文本的包圍框這個任務,又要求特征對方向信息是敏感的。因此直接對這兩個任務做特征分享可能會帶來性能損失。這里我們采用非常簡單的方法來解決這個問題,就是在應對回歸和分類兩個不同任務時,在回歸部分跟原來一樣,在分類部分中加入oriented response pooling。這個做法可以讓分類特征具有旋轉不變性,可以更好地關注它是文本還是非文本的問題,方向不帶來額外影響。最后對兩個任務進行多任務學習,可以提高性能,在應對長文本和方向變化比較劇烈的情況,提升尤為顯著。

這篇同樣是我們今年被CVPR接收的一篇場景文本檢測的文章。這項工作主要是為了解決場景文本多方向,長寬比變化較大等場景文本檢測中的難點問題。之前的方法大多采用包圍盒回歸的方法或者文本區域分割的方法去解決上述問題,但是效果并不是特別好。本篇文章用了一個新的思路來解決這個問題,即檢測文本區域的角點,然后通過組合角點的方式得到文本框。因此,我們設計了corner detection,思路是直接檢測文本區域的四個頂點。由于我們是檢測角點,所以首先我們的方法不會受到感受野的影響,其次我們的方法對方向比較魯棒。此外我們還結合了position sensitive segmentation來提供文本區域的位置信息以及文本的實例信息,并使用segmentation map信息為角點組合成的包圍盒進行打分,這比直接計算包圍盒得分更加魯棒。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。
相關推薦
怎樣設置PXA255的單色調色板?
一個新時代的連接:由AWS賦能的NXP S32K3邊緣設備
全球經濟減緩——半導體產業的機會在哪里?
SN74LS373, SN74LS374 常用的8d鎖存器
請教2410和PD6710的連接問題
面向 RF 應用的低相位噪聲頻率合成器
使用wiggler電纜燒些flash的問題?
將 DC/DC 轉換器改造為高性能的全功能電池充電器
家居服務機器人技術應用現狀分析
曝蘋果發布會虛假宣傳Siri:內部員工感到驚訝
為電話機增設“上下班’’功能
利用RD9481構成了多普勒效應自動開關電路
輸出電壓調節
S3C44B0x Samsung ARM7TDMI 應用手冊
中國國際國防電子展覽會
微波傳感模塊RD627A的應用
應對多電機電動汽車的設計挑戰
中國項目組目標:在AMD Zen處理器上運行RISC-V代碼
SC1175 雙DC-DC轉換芯片
面向電動兩輪車的模塊化硬件/軟件開發生態系統
資本圈給人形機器人當頭一棒?后該如何發展
[求助]如何在ads1.2下編譯c程序,生成庫文件
[求助]CD4017 做的發光電路
交流和直流功率繼電器的開關設計有什么區別?
采用每輪電機的電動汽車的智能扭矩矢量方法
IMU在人形機器人中的作用
SC1102 電源芯片
SAMSUNG KM29U128 16M字節 NAND Flash
TWH9248/TWH9249構成的檢測(報警)電路
利用RD627構成的微波報警電路