サイトアイコン TechWave(テックウェーブ)

62言語超対応のOCR「tesseract.js」がJavaScriptに移植、機械学習にも対応 【@maskin】

北米を中心に全世界でJavaScriptへの対応熱止まらない。

今回も知る人ぞ知るオープンソースの文字認識エンジン「Tesseract-OCR」が、JavaScriptに移植され話題になっている。


以下は「tesseract.jp」のデモ画像。ウェブ上で画像の取得から一連の文字認識のプロセスが確認できる。

Tesseract-OCR」は、もともと、米HP社が1984年から1994年にかけて研究した成果のプロトタイプがオープンソースとして提供されたもの([PDF])。

62種類以上の言語に対応しており、それぞれで認識データを機械学習させることで精度が向上するという。公式サイトでは、英語・中国語・ロシア語のデモが公開されているが、英語はほぼ100%。難易度の高い中国語ではエラーが目立ったが内容が読めないほどではなかった。

クラウドの文字認識サービス「Google Cloud Vision」(有料)あたりのほうが精度が高いと思われるが、「Tesseract」でも一定の文字サイズがあればかなり高い確立で認識するという声もある。また、Tesseractは文字認識データの学習効果により精度を高めることができるため、特定用途で実用的導入も期待できそうだ。

【関連URL】
・Tesseract.js | Pure Javascript OCR for 62 Languages!
http://tesseract.projectnaptha.com
・naptha/tesseract.js: Pure Javascript OCR for 62 Languages
https://github.com/naptha/tesseract.js

蛇足:僕はこう思ったッス
 OCRは精度こそ重要。デモを試する限り、アルファベットの認識はかなりのもの。JavaScriptに移植されたことで、各種サービスなどへの応用が期待できる。アイディアを考え出したらキリがない。ウェブサービスへの導入はもちろん、ハイブリッドアプリへの導入などなど、実用的な用途が多数考えられる。JavaScriptで使られた使いまわしの効くOCRエンジンへの期待は高い。
モバイルバージョンを終了