OCR

2015.11.02

OCRとは

OCRとは光学文字認識(Optical character recognition)の略語。印刷あるいは手書きの物理的な文字をイメージスキャナーなどで画像データとして取り込み、傾き・歪み・かずれなどの補正やレイアウト等の認識と併せ、画像データ内の文字の形状を元に文字を特定し、デジタルデータとして扱うことができるテキストデータに変換するソフトウェアである。取り込みのためのデバイスを含めて指す場合もある(光学式文字読取装置 Optical character reader)。なお、狭義では、物理的な文字を「光学」的な仕組みを通じてテキストデータとして認識するものといえるが、画像データ自体からのアルゴリズムによるデジタル文字認識も含みOCRと言われることが多い。

 

もっと詳しく!

出版関連での利用

Googleブックスや、Amazon.co.jpの「なか見!検索」などでは、スキャンされた図書からOCRによってデータ化された図書内の文字のデータを検索の対象としている。これによって、タイトルや出版社、著者名等の書誌データだけではなく、図書内に含まれる文字を対象とした本の検索や、検索キーワードに基づいて必要な個所を見ることができるオンライン「立ち読み」的機能を実現している。

電子出版分野では、底本のデジタルデータがなく現物しか残っていない図書などを電子化する場合、OCRによりテキストデータ化し電子書籍の元データとする場合などに利用される。また画像として作成されたPDFファイルに対し、OCRにより読み取った文字をテキストデータ化した透明テキスト付きPDFファイルとして作成するケースなどにも利用される。


OCRと校正

文字認識に関しては認識率も向上しているものの、必ずしも100%正確とはいえず(特に手書き文字や古い図書等)、OCRによって生成したデータをテキスト型の電子書籍の元データとする場合には目視確認作業が必要とされる。したがって、製作にあたっては確認作業のための時間、コストを見込んでおく必要がある。

なお、OCRの校正(精度向上)に関しては、Web上での認証機能として、画像化された文字を利用者にテキスト入力させることでOCRの誤変換を訂正していく reCAPTCHA のように、ソーシャル型のサービスでこれを補う手法をとっている例もある。


OCRにより生成されるデータ

OCRの一般的な用途としては、図書等の現物からテキストデータを得ることを目的とする場合が多いが、学術目的のアーカイブ作成、あるいはマシンリーダブルな用途も含めて作成する場合などにおいては、テキストデータ以外にもさらに詳細なデータをメタデータとして持つことがある。このようなメタデータは、文字単位でのページ内の絶対位置、色、サイズ、書体等の情報、単語情報、ページ情報なども含み Image Coordinates と言われる。


その他、最近のトピックなど

文字認識率の向上という点のみならず、OCRについてはさまざまな周辺技術との組み合わせにより、その用途が広がっている。以下、OCRに関連する事例をいくつか挙げる(2015年10月時点)。

世界最速レベルの高速ブックスキャナーによる書籍のデジタル化を開始
図書のスキャニングにおいては、冊子を断裁しページごとにスキャンする破壊型と、底本が貴重資料などの場合、冊子体のままスキャンする非破壊型がある。非破壊型スキャンの場合、ページめくりの扱いや本の開きによる歪み補正など作業時間、コストが課題となるが、近年では自動化、高速化も進んでおり、上記のように1分あたり250ページの画像化という高速化を実現している例も出てきている。

凸版印刷、江戸期以前のくずし字を高精度でテキストデータ化する新方式OCR技術を開発~江戸期以前のくずし字が80%以上の精度でOCR処理可能に
手書き文字の認識については依然精度向上の研究が進められているが、いわゆる「くずし字」の文字認識についても一定の成果が出されつつあり、歴史的文献のアーカイブ化、データの利用可能性の向上に期待がされている。

画像内の文字検索
物理的な図書のデジタル化では専用のスキャナーを使用する場合が多いが、一般的な画像内に含まれている文字をテキストとして認識する技術も既に普及期に入っている。「Evernote」等クラウド型のメモ管理アプリ/サービスなどでは、メモ代わりにスマートフォンのカメラを使うことでその画像内の文字をテキスト検索の対象とできるようになっている。

「Office Lens」はスタンダードOCRアプリになり得るか

Google Translate Blog: Hallo, hola, olá to the new, more powerful Google Translate app

OCRによる文字認識に、機械翻訳、AR技術を組み合わせることにより、スマートフォンのカメラを通じてリアルタイムに画像上の文字を他国語に置き換える文字翻訳を実現している。今後さらにウェアラブル・デバイスとの組み合わせなどにより、多言語間でのコミュニケーションツールとして期待される。


[井野口 正之/株式会社JTBパブリッシング/20151031]