OCR將成為政府輿情監(jiān)測的創(chuàng)新元素
網(wǎng)絡(luò)輿情的重要性毋庸置疑,如何處理,常用說法是“網(wǎng)絡(luò)輿情監(jiān)控”。似乎“監(jiān)控”比起警察24小時布點隨時準(zhǔn)備抓人,更有噱頭,更唬人!
自從2014年視頻文字識別系統(tǒng)開發(fā)包問世以來,我一直在聯(lián)系各個互聯(lián)網(wǎng)視頻行業(yè)以及傳媒行業(yè)的軟件開發(fā)集成商,主要因為部門內(nèi)分工,一直沒把精力放在輿情監(jiān)控領(lǐng)域進行推廣。目前兩大傳媒行業(yè)的集成商都已經(jīng)將我公司的產(chǎn)品進行集成投放市場,我想也該注重一下輿情監(jiān)控領(lǐng)域了。
對于大多數(shù)人可能不太了解輿情監(jiān)控,這個行業(yè)看似冷門,實際上作用還是非常大的:
1.根據(jù)互聯(lián)網(wǎng)搜索引擎的搜索調(diào)查,目前主要需求輿情監(jiān)控的用戶大多是政府單位部門。因為他們需要實時把握民眾的關(guān)注熱點,需要及時阻止不良信息傳播,適時針對謠言進行封鎖并辟謠。所以很早就已經(jīng)有人關(guān)注這方面的業(yè)務(wù)與應(yīng)用,如下圖,還是2012年網(wǎng)友的提問。
2.國內(nèi)的一些大數(shù)據(jù)分析公司,也會專門針對互聯(lián)網(wǎng)信息進行收集監(jiān)測。我之前也接觸過幾家公司,他們主要是針對的大型集團企業(yè),每天會不間斷的到互聯(lián)網(wǎng)上去爬去抓取各類信息,然后按照這些大型集團企業(yè)的要求按照各種關(guān)鍵詞進行匹配和數(shù)據(jù)整理。比如,海爾集團會要求大數(shù)據(jù)分析公司重點關(guān)注有關(guān)海爾公司情況的軟文和資料,主要是了解公眾對海爾集團的看法。
3.還有一些特殊行業(yè):比如軍隊,公安廳等他們也會去網(wǎng)上做一些偵查任務(wù),也包括一些國際輿論的監(jiān)測。
4.一些信息出口的小型公司企業(yè),會需要做信息的輸出監(jiān)測,避免不良信息在他們的環(huán)境中隨意傳播或者泄露到互聯(lián)網(wǎng)中,比如中小型論壇,博客網(wǎng),網(wǎng)絡(luò)空間等。
以上四種類型的用戶目前在用的系統(tǒng)其實都是針對文字本身進行監(jiān)測的,而對一些圖片、視頻中文字信息的處理則顯得有些吃力,有些輿情監(jiān)控領(lǐng)域的從業(yè)人員甚至認(rèn)為圖片過濾是理所應(yīng)當(dāng)?shù)氖拢J(rèn)為哪家同行業(yè)公司要是有圖片非過濾監(jiān)測技術(shù)反而不正常一他們已經(jīng)習(xí)慣了沒有圖片文字監(jiān)測技術(shù)的時代了。
我之前跟幾個輿情系統(tǒng)公司人員聊過,問他們是否了解OCR識別技術(shù),他們說這個技術(shù)不成熟,無法進行正常的業(yè)務(wù)使用。其實,這已經(jīng)是很多年前的觀點了,現(xiàn)在北京文通科技視頻文字識別系統(tǒng)已經(jīng)在這個方面做的相當(dāng)成熟了。
文通視頻文字識別系統(tǒng),包括后續(xù)要出品的互聯(lián)網(wǎng)圖片文字識別系統(tǒng)都可以對網(wǎng)絡(luò)上傳播的圖片進行很好的文字識別、提取。不僅可以識別中、簡、繁三種文字類型并輸出文字在圖片中的坐標(biāo)信息,還可以識別英文以及中英混排,而且針對一些效果字體也可以很好的識別。
如下圖所示是對加粗的特殊字體的識別。
如下2張圖所示,圖中的文字信息是彩色背景的,目前市面上能搜索找到的傳統(tǒng)的ocr技術(shù)都無法識別,連文字都分析不出來,而新技術(shù)是可以的,處理下面的圖,新技術(shù)可以自動定位到文字,然后進行字符切分識別,整個過程只用了0.2秒。
文通文字視頻識別系統(tǒng)對海量網(wǎng)絡(luò)輿論信息進行分析,并識別其中的關(guān)鍵信息,及時通知到相關(guān)人員,從而第一時間應(yīng)急響應(yīng),為正確輿論導(dǎo)向及收集群眾意見提供幫助的一套信息化系統(tǒng)。而且各地政府單位已經(jīng)陸陸續(xù)續(xù)注意到了這一點,并且嘗試以創(chuàng)新的元素加入到現(xiàn)有的輿情監(jiān)控領(lǐng)域中。
其他推薦文章:
1、vin識別ocr、發(fā)票識別ocr、房產(chǎn)證號識別ocr、電表水表識別 或 ocr移動端應(yīng)用
2、ocr開發(fā)包技術(shù)集成用:TH-OCR SDK 11 或 視頻ocr應(yīng)用
3、文字ocr識別軟件:文通TH-OCR 2013 數(shù)據(jù)錄入工廠 或 ocr開發(fā)包sdk