23 外字問題の解決「今昔文字鏡」(黒田信二郎)

■日本語の歴史とコンピュータでの漢字処理
 3000年に及ぶ漢字の歴史は「漢字文化圏」といわれる中国、台湾、韓国、日本、ベトナムのそれぞれで、固有の状況を生み出しました。とりわけ漢字を基にした仮名の発明、訓読み、国字の発生、外来概念の翻訳語としての漢字熟語の創造、言語表記としての「漢字仮名交じり文」「縦書き」など、日本では「漢字文化」が文字活字文化の基底として現代に定着しています。
 一方、日本語のコンピュータ処理、特に漢字処理については、30年余の歴史のなかで、大きな進展をとげています。コンピュータ処理能力に限界のあった初期には、「文字コードでの制約が『漢字制限』ではないかと「文字文化の継承」を訴える声もある一方、「日常の生活のなかで必要な範囲でコード化すればよい」という「社会効率を重視」する意見もあり、論争となりました。「あるべき論」としてはどちらにも一理あると言えますが、コンピュータ処理能力が格段に向上した今日にあっては、むしろコンピュータが「漢字文化」を支えるようになり、システム上で汎用的な基盤環境を整備すれば、あとは運用上必要なそれぞれの状況と範囲で利用する文字セットを定める方式が望ましいと考えることが出来るようになりました。

■「今昔文字鏡」の歩み
 1985年古家時雄氏(株式会社エーアイ・ネット社長)は、コンピュータで漢字を扱うための漢字解析の研究に着手しました。そして「漢字は常に二分割でき、最後の一画まで解字できる」という理論を構築し、文字を部品に分解して高速で検索することを可能とする「文字鏡検索エンジン」を開発しました。一方、私財を投入し、検索のためのドットフォントの制作に取り組み、1997年には大修館書店から「大漢和辞典」番号利用の許諾をいただき、WINDOWS対応のCD-ROM版「今昔文字鏡単漢字8万字版」の制作にこぎつけました(発行:紀伊國屋書店)。さらにその後TTF版を開発制作し、その収録文字数は文字鏡研究会(石川忠久会長)が「歴史上使用実績の根拠のある文字はすべて収録し、文字鏡番号を付与する」方針のもと新規文字の登録申請を受けることにより年々増加し、2008年には日本、中国、台湾、韓国、ベトナム電子書籍へのアプローチの漢字15万字をはじめ、凡字、甲骨文字、西夏文字など、収録文字数は17万字に及び、現在もさらに収録が進んでいます。この「すべての文字図形に固有の文字番号が付された」世界最大規模の漢字データベースは、多漢字の処理を必要とする学術研究者や寺院関係者などの必須のディファクト・ツールとして評価を得ています。
 この大規模漢字セットの文字鏡番号は、2000年に日本電子出版協会「出版データフォーマット標準化研究委員会」が策定した「JEPA電子出版交換フォーマット:jepaX」の外字記述指定や、2001年、その成果を基盤にした日本規格協会「標準情報TR0047:2001:XMLによる画像参照交換方式」(現在はJIS X 4166:XML文書へのグリフ識別子の埋め込み)で参照番号としてその利用が推奨されることに繋がりました。
 さらに2002年に情報処理学会情報規格調査会で文字鏡の「解字理論」を基にした文字図形の識別方法を、学会試行標準「文字図形識別情報IPSJ-TS0002:2002」として公開。2003年には、ISOの図形登録規格であるISO/IEC10036に文字鏡番号が「文字図形番号」として文字図形とともに登録されました。その後「文字図形番号」のJIS化など、汎用化、標準化の動きが進展しています。
 一方、2000年に旧大蔵省印刷局が「戦後官報デジタル化プロジェクト」で、データ入力の際の外字記述に文字鏡番号を採用する仕様としたことに始まり、2002年には経済産業省委託事業で国立国語研究所、情報処理学会、日本規格協会の三者が受託した「汎用電子情報交換環境整備プログラム」の電子政府文字情報データベースの開発にも「文字鏡検索エンジン」が導入されました。同じく2002年から国立国語研究所が「日本語情報の海外配信」実験プロジェクトとして、XMLWebサービス技術(開発:イースト)を基盤としたJiBOOKS(書籍書誌情報提供協力:日本書籍出版協会、早稲田大学図書館、国立国会図書館)、JiWORDS(日本語辞書情報提供協力:三省堂)、JiNEWS(新聞情報提供協力:毎日新聞社)を展開しました。
 さらに2005年には、国立公文書館デジタルアーカイブシステムでの外字ソリューションとして文字鏡の「文字図形番号」が採用され、WEB上で公文書の外字フォントの配信が始まるなど、公共システムへの導入実績が拡大しています。
 文字鏡のめざす「デジタル環境の進展のなかで、すべての漢字をコンピュータで利用出来る共有基盤を築き、漢字文化をデジタル環境で継承する」という理念は学術研究団体である「文字鏡研究会」をはじめ、出版印刷業界が業務上の実装方法を研究する「インデックスフォント研究会」(臼井良雄会長)、「樣々な文化の文字を実地に扱い、各種の知見を加え、文字の使用の利便性を高めて行くよう努力することを目的とする」NPO法人の「文字文化協會」(谷田貝常夫理事長)など多くの賛同者に支えられ、現在さらに発展を続けています。

■「文字図形番号」の役割と課題
 現在、コンピュータ上の文字コードは大きな流れとしてJISベースからUnicodeベースへと移行しつつあります。そのことにより文字コードで扱える文字数が増えたのですが、それを印刷・表示出来るフォントセットなどの環境は普及しておらず、また多種多様な固有名詞で使われる漢字をはじめ、利用頻度が低いためUnicodeに収録されていない文字も多く、「外字問題」は文字コードだけでは解決しません。さらに、実際の文字の印刷・表示に当たっては、コード化されていても文字セットによって字形が異なったり、包摂ルールにより字形の異なったものに同じコードがふられているという「異体字問題」もあり、出版や印刷の現場を悩ませ、コスト増の要因ともなっています。
 これらの問題を解決するには、文字の印刷・表示の観点から、文字の図形が一意に定められている「文字図形番号」を、情報共有の基盤に置くことが重要と考えられます。当面、「文字図形」を参照する検索、レファレンス機能と、「文字図形番号」を既存の各システム相互の文字コードの「中間テーブル」として活用することで、文字基盤の共有化は大きく前進しますが、またそれはUnicode異体字指定機能のIVS(Ideographic Variation Selector)を支える異体字マップの整理検討作業にも役立つでしょう。
 今後の課題としては、この普及のための実装環境として「文字図形番号」を直接取り扱うことが出来るIMEやDTPソフト、プリンターの開発が待たれるところです。

◎黒田信二郎(くろだしんじろう)紀伊國屋書店からJEPAに参加