キーワード設定の現場から(4)

木曽路はみんな違う文字

 小諸に行った機会に島崎藤村記念館を訪れた。そこに『夜明け前』の肉筆原稿が展示してある。書き出しの有名な一節はこうだ
 『木曽路はみんな山の中である。』
 一緒に行った編集者が“曾”ではない“曽”だよと驚いている。“木曽”は俗字で“木曾”が正字。でも藤村は美しい字で“木曽”と書いている。東京に帰って文庫本を調べてみた。そこには
 『木曾路はみんな山の中である。』
とある。どこで“曽”が“曾”に変わったのか。編集者と著者との間に正字に直すという了解事項があったと思われるが、それでも藤村自身は“曽”と書いていることにたいへん興味をそそられた。
 コンピュータにおける漢字の字体問題は大問題だ。たしかに同じコードが機械によって違う字になったりするのは困りものである。この大問題とは別に、異体字の存在は検索のキーワード設定でも困った問題の一つである。
 代表的には“渡辺”さん問題だろう。この“辺”の字、少ない少ないと文句が出るJISコードにさえ3字の異体字が存在する。“渡辺”“渡邉”“渡邊”の3つだが世の中にはさらにいろいろな“辺”が存在している。
 さてユーザーが“渡辺”という名前で検索をかけるとたいていの場合“渡邉”という人は検索できない。
 これはコンピュータから見れば当たり前のことだが、果たして引きたい人の字体を正確に覚えているものだろうか。
 もちろんこういった時は『読み』で引けば良いのだが、次に登場するのが“渡部”さん問題だ。渡部さんには“わたべ”さんもいれば“わたなべ”さんもいる。
 電子辞書のマニュアルにこんな説明をくどくど書いたらいかにもコンピュータは頭が悪いなぁという印象を与える。そこで検索の融通性をもっと追求したくなる。
 こんなことを考えた。異体字はすべて同じ字として扱ったらどうだろうか。
 異体字は人名や地名などの固有名詞に多いわけだからディスプレイに現れる表記を勝手に異体字に置き換えると当人から抗議の電話を受ける恐れがある。あくまで検索キーワードの中だけで異体字変換を行おうというのだ。
 これで、無事に“渡邉”さんも“渡辺”さんで引くことができた。“中曾根・中曽根”さん問題も解決だ。
 やれやれと喜んでいたらまた新しい問題が起こってきた。名付けて“斉藤”さん問題。JISの中だけでも“斉藤”さんは“斉藤・齊藤・齋藤・斎藤”と書き分けられる。何だ異体字の問題じゃないかと思ってはいけない。
 “斎”と“齋”は異体字、“斉”と“齊”も異体字の関係にあるが、この前の二つと後の二つは別字の関係にある。
 “斎”は「身を清める」といった意味で音は「サイ・セ」。“斉”のほうは「ととのう・ひとしい・きちんとそろう」といった意味で音は「セイ・ザイ」慣用で「サイ」とある。
 別字だから異体字に展開して検索するシステムでも“斎藤”さんは“斉藤”さんでは引けないのである。
 こうなって来ると藤村も“木曾”を“木曽”と書いたじゃないかと居直るしか方法はないのかも知れない。

『情報管理』Vol.40 No.6 Sept.1997 より転載


キーワード設定の現場から  目次 ←前回 次回→

BACKNewsletterのTopに戻る
Homeトップページに戻る