LeXML

2016.05.09

LeXMLとは

辞書および事典類の構造化を目的としたXML仕様。LeXMLはLEXicographical eXtensible Markup Languageの略。2002年の公開以降、多くのレファレンス系コンテンツのデジタル化に採用され、国内デジタル辞書のデファクトスタンダードとなっている。2011年、IEC 62605として国際規約にもなった。株式会社ディジタルアシストが策定・公開。2015年11月時点でのバージョンは3.0。

もっと詳しく!

採用実績と国際規約化

LeXMLにはDicXという前身がある。2001年に相次いでスタートしたウェブ上の辞書検索サービスに辞書コンテンツを搭載する目的で策定されたXML仕様である。

2001年1月 三省堂WebDictionary http://www.sanseido.net/
2001年4月 JapanKnowledge http://japanknowledge.com/

ほぼ同時期(2001~2003年)に電子辞書(携帯型辞書端末)でも多機能化・ターゲット別モデル分化・多コンテンツ化の動きがあり、辞書・事典類のデジタル化需要が一気に膨らんだ。これに対応するため、DicXをベースに電子辞書向けの仕様追加を施し、一方で特定システムス向けだった一部仕様を汎用的にまとめなおしたものがLeXMLである(DicXは別途存続)。2002年10月にver.1.0が公開されている。

その後、特に電子辞書ではメーカー間のコンテンツ収録数競争が一層激しくなり、デジタル化の対象も「国語・英和・和英・漢字」の基本的な辞書から様々な特性を持つ辞書・事典類に広がっていった。2015年12月時点でのLeXMLによるデジタル化実績の内訳は以下のとおりである。

国語の辞典      78タイトル  漢字・古語・ことわざ・類語辞典などを含む
英語の辞典    120タイトル  英和・和英・英英・専門分野英和などを含む
外国語の辞典     61タイトル  独・仏・西・伊・葡・露・中など
百科・専門事典   279タイトル  人名・地名・分野別・教科別事典などを含む

     合計   538タイトル

このような国内での実績を踏まえ、LeXML(ver.2.0β)は2011年に辞書データ交換フォーマットの国際標準規約IEC 62605 ed1.0 : Multimedia systems and equipment - Multimedia e-publishing and e-books - Interchange format for e-dictionaries の本体記述仕様として採用されている。2016年2月にはLeXML ver.3.0とほぼ完全に同期したIEC 62605:2016(ed2.0) が発行された。

目的・用途と基本方針

現在、辞書コンテンツをデジタル化(XML化)する目的の大半は、電子辞書(携帯型辞書端末)やダウンロードアプリなどへのデータ提供であると言っていい。デジタル版での商品価値が期待される辞書は、書籍刊行直後に外部提供用のデジタル化作業が開始され、早いものでは1年以内にデジタル版が世に出ることになる。

また、デジタル辞書は、特に毎年モデルが一新される携帯型辞書端末の要請により、「最新」「正確性」「付加価値の高さ」といった要素が求められ続けており、書籍版の改訂や増刷時修正とは異なるサイクルでの更新が必要となっている。そのためLeXMLは、外部提供時に変換処理する「配布/交換用」フォーマットという役割だけではなく、修正更新・追加加工を前提としたデジタル版マスタとしての役割も担うこととなった。

よってLeXMLは、そのデバイスやサービスで要求される仕様、または実現可能な機能を前提として、最低限の作り込みに対応する形で設計・拡張が継続されてきた。ひとことで言うと、具体的なニーズがない限りさしあたり不要な仕様は追加されず、必要が生じればすぐさま仕様に盛り込まれる。設計段階で体系的・網羅的に「タラレバ」を盛り込み過ぎると、デジタル化およびメンテナンスのコストが膨らんでしまうためである。

一方で、出版社の編集現場におけるデジタル編集対応スキルの向上や印刷会社のXMLデータ受け入れ対応の増加により、改訂作業や派生企画に既存XMLデータを活用する事例も増えてきた。「現版XMLデータをベースにした改訂版編集」「既存XMLデータを活用した新規企画の編集」「原稿データを直接XML化した上での書籍編集」といった用途も、近年目立って増えてきている。LeXMLではこのようなニーズについても随時対応しつつ、書籍用組版との連携も強くしている。

LeXMLの方針

LeXMLの策定上の方針は以下の3つ。

シンプルな構造

とにかくシンプルに!“システムにやさしいXML”ではなく、“編集者にやさしいXML”を。
何重もの入れ子構造が発生するような複雑なブロック構成やタグの多用は可能な限りこれを避け、タグやエンティティの名称も簡潔なものとし、また属性値に日本語を許容して、即座に読み解ける(編集したい箇所が見つけられる)、直感的に修正できるシンプルな構造を基本方針にしている。

辞書の個性の尊重

“先に器ありき”でその固定されたフォーマットの中に要素を詰め込んでいくという方式では、各種コンテンツの交換性は上昇するが、辞書の個性を殺しかねない。LeXMLでは、(主に液晶画面上での)大まかな組版/情報配置を規定するタグは定めるが、インラインタグも含め、その属性指定において自由度を大きく残している。電子辞書メーカーやシステム・アプリ開発の現場においては基本タグを注視して改行タイミングやインデントを制御し、編集メンテナンスの立場においては属性値も加えてデータを取り扱う、という使い分けが可能である。

作り込みの自由度

XML文書の利用上のニーズ、またはXML化にかけられるコストに合わせて、 構造化レベルをある程度自由に設定できる。多くの場合、辞書データのXML化作業に与えられる費用と工期は途方に暮れるほど少なく短い。データの提供先によって、 どのような検索・画面切り替えを想定するのか、画面表示のレイアウト・表現はどのレベルまで可能なのか、といった諸条件を勘案し、最良のコストパフォーマンスでXML化にあたるべきである。 LeXMLはこの考えのもとに、必要最小限の仕様からスタートして、各種デバイスやシステムの機能・ユーザインタフェースの進化と拡張に随時対応してきたという経緯がある。形式にこだわるより、必要な部分、費用対効果の高いところに、デジタル化コストを集中できる。

基本的な構造

構造はいたってシンプルである。

・見出し項目単位にdic-itemで括る。id属性でユニークな管理番号を与える。
・見出し語はheadword。必要に応じて属性を追加できる。検索用のkeyを併記しておくといい。
・解説文等(語義・語釈)はmeaning。語義階層レベルや内容属性も適宜指定できる。
・用例はexample。二言語の場合はデリミタ記号で対訳をつなげる。
・子見出しはsubheadword。これも必要に応じて属性指定する。

たとえば本稿冒頭の解説文をLeXMLで記述すると以下のようになる。

<dic-item id="JEBP0001">
<headword>LeXML</headword>
<headword type="よみ">れくすえむえる</headword>
<meaning>辞書および事典類の構造化を目的としたXML仕様。LeXMLはLEXicographical eXtensible Markup Languageの略。2002年の公開以降、多くのレファレンス系コンテンツのデジタル化に採用され、国内デジタル辞書のデファクトスタンダードとなっている。2011年、IEC 62605として国際規約にもなった。株式会社ディジタルアシストが策定・公開。2015年11月時点でのバージョンは3.0。</meaning>
</dic-item>

このシンプルな構造をベースに、その辞書の内容・特性に応じて、また検索や参照などの利用想定に対応できるよう、必要なタグを追加していくことになる。

LeXMLエンティティ

もうひとつ、LeXMLのタグ設計とペアになっているのが、特殊文字・特殊記号類の統一的な記述方式である。とかく、辞書・事典類には、発音記号、アクセント付文字、漢字の異体字等々、いわゆる“外字”が多い。一般にその文字情報は“外字コード”としてデータ中に格納されているが、出版社によって、ことによっては同じ出版社のものでも辞書によって、そのコード体系が異なるということが多かった。
この問題を解決するため、LeXMLでは辞書・辞典類に頻出する文字・記号類の統一的な記載方法を定め、この使用を推奨している。ひとことで言えば、「Á」を「&Aacute;」とする、HTMLの実体参照形式の拡張版で、ある程度慣れれば逐一コード表を参照しなくても編集者が直接入力・修正できるよう考慮してある。記述法則を定めた上で、原則"実際に辞書で出現したもの"をまとめ、順次「エンティティ一覧」資料に追加している。

まとめ

LeXMLはXML規約としてはいろいろとツッコミどころはあるのだが、現時点での辞書コンテンツのデジタル化ニーズにおいては、抜群のコストパフォーマンスを実現する。XMLありきではなく、辞書の中身をいかに効率よく構造化するか、デジタルデバイス上でどのように目的の項目にたどりついてもらうか、可能な表示スペックの範囲内でどのように画面表示するか、を15年試行錯誤してきた成果物である。

あれこれ考えるより、さっさと作っちゃった方が(デジタル化しちゃった方が)早くて安い。そしてビジネスチャンスも広がる。そのような流れを支援してきた辞書・事典専用のXML仕様である。

【参考URL】
LeXML ver.3.0仕様書 http://www.d-assist.com/LeXML300.pdf

[永田 健児/株式会社ディジタルアシスト/20160506]