JEPA｜日本電子出版協会テキスト取り出しとは？

テキスト取り出しとは

主に組版加工済の印刷用データから、再利用を目的としてプレーンなテキストデータを抽出すること。DTPアプリケーションや文書作成ソフトによっては、指定形式でのデータ出力機能を利用することもできる。基本的には、抽出データに対して、形式調整やクリーニングなどの後処理が必要になる。

もっと詳しく！

書籍を電子化する場合(Webコンテンツやアプリ用途も含む)、または書籍の内容を一旦デジタル化して改訂版編集や派生企画編集に利用する場合、組版加工された印刷用データからその内容をできるだけプレーンな形で抜き出すことが必要になる。この作業を「テキスト取り出し」「テキスト抽出」などと呼ぶ。

DTPデータからのテキスト取り出し

主要なDTPアプリケーションは、タグ付テキストやXHTMLなどの形式を指定してテキストデータを出力する機能を備えており、「テキスト書き出し」と呼ぶこともある。EPUB形式で直接、電子書籍を出力できるものも多い。ただし、そのDTPアプリケーションでの組版加工時において後のテキスト書き出しを想定してレイアウトなどに十分な配慮を行った場合を除き、期待通りの二次利用に適した形でのテキストデータ取得は難しい。

一括でのテキスト書き出しは、その後のチェックと調整を考慮すると現実的とは言えず、ここはページ単位またはページ内のテキストブロック単位でコツコツとテキストをコピー＆ペーストしていくのが、遠回りのように見えて、結局、一番効率が良い。コピー＆ペーストの単位で書籍レイアウトと比較確認しながら、チェックと必要な調整を施しておくことも忘れないように。

PDFファイルからのテキスト取り出し

PDFファイルからのテキスト取り出しについても、上記同様、コツコツとコピー＆ペーストするのが一番安全ではある。一方、PDFを対象にしたテキスト抽出ツールも無料・有料合わせて多数存在するので、組版レイアウトの複雑さやコンテンツのボリュームなども勘案し、試してみるのも良いだろう。

CTSデータからのテキスト取り出し

原本が印刷会社にてCTS(Computer Typesetting System)で組版されている場合には、テキスト取り出しは印刷会社に依頼することになる。出力データの基本的な形式や外字の扱いなどについて、事前に調整・確認しておく必要がある。

抽出データのチェックと調整

いずれの方法によるとしても、抽出・取得したテキストデータを原本と比較チェックし、調整を施すことは必須の作業である。

イ．レイアウトが複雑な場合、抽出漏れがないかどうか。囲み記事、欄外注釈、図版キャプション、ルビ・割注など要注意。

ロ．外字や約物(画像)などは、まず間違いなく欠落する。後で手当てできるように目印をつけておく必要がある。入稿時と異なる文字種で出力される場合もあるので要注意(全角⇔半角、単位系機種依存文字、欧文のリガチャ注など)。

ハ．組版システム上での加筆修正が、出力テキストに正しく反映されているか。応急処置的な対応がなされている場合、版面上にない文字列の混入や修正データの欠落などが生じる場合がある。書籍刊行後の訂正原本の反映も忘れずに。

その他、書体・フォント、文字装飾などの情報も原則失われるので、テキスト構造(見出しや引用インデントなど)の情報と合わせ、二次利用に備えた前処理もこの段階で進めておくことが望ましい。

まとめ

以上、テキスト取り出しについてまとめてきたが、元となる書籍がデジタルテキスト入稿で、組版後の加筆修正が少なく、加えてその履歴を確実に辿れる場合には、その入稿データの再利用も十分検討に値する。また、原本の内容とボリュームによっては、入力してしまった方が、校正の手間を考慮しても早く安く済む場合もある。結局は、コンテンツの正確さを担保しつつ、素材としてのテキストデータの用意、チェック・校正、後処理・調整、といった一連の工程を総合的に勘案して、費用対効果(工期も含む)で判断することになる。

注：欧文組版で ﬀ、ﬁ、ﬂ など、複数の文字を合成・結合して一文字としたものをリガチャ（英: ligature）という。合字。連字とも。

【参考文献】
長谷川秀記、2012、『デジタルテキスト編集必携［技法編］』翔泳社

［永田健児／株式会社ディジタルアシスト／20150810］

ebookpedia

テキスト取り出し