Subject: 二重登録された漢字 Date: 2007年10月4日 22:38:25:JST 皆様 大名です。 先日,研究会に参加したときに,韓国語版 Excel で漢字を検索すると, 同じ漢字なのにヒットするものとしないものがあるが何故かという 質問を受けました。意外に知られていないことのようなので, メーリングリストにも回答を送っておきます。 韓国語版の Excel の内部の文字コードは,おそらく,EUC-KR (を拡張した Unified Hangul Code, UHC) だろうと思いますが,EUC-KR (文字集合としては KS X 1001) では,重複して登録されている漢字が いくつかあります。 これはミスではなく,KS X 1001 という文字コードでは,漢字を 読みごとに別字として登録しているためです。例えば,「金属」の 「金」と人名の「金」は発音が違い,別の文字として登録されています。 「樂」の場合は,読みに合わせ,4ヶ所に異なる文字として重複して 収録されています。 文字コード上,異なる文字として登録されているので,検索する時には, 基本的に,すべて別々に指定する必要があります。ソフトによっては, 同じ文字として処理してくれるものもありますが,どう処理されるかは ソフトの仕様次第なので,自分が使うソフトでどう処理されるか,予め 確認しておく必要があります。おそらく,韓国語版の Excel では, 重複登録された漢字は別字として処理しているものと思われます。 (バージョンにより異なる可能性もある。) 私が韓国語版の Excel を持っていないので,実際に試してみたわけでは ありませんが,おそらく,このような事情で,同じ漢字に見える文字が ヒットしたりしなかったりするのだと推測されます。 発音が異なる漢字が別の文字として登録されていれば都合のよいことも ありますが,ちゃんと区別されて入力されているとは限らないので, 注意が必要です。例えば,人名の「金」を調べたいのであれば,一方の 「金」だけ検索すればよさそうですが,テキストを作成した人が, 2つの「金」があることを知らずに,区別せずに入力しているかも しれません。また,2つの「金」の区別のない文字コードで作成し, KS X 1001 に変換したのであれば,どちらの「金」も1つの「金」に 変換されてしまいます。KS X 1001 という文字コードで2つの「金」が 別字として収録されていても,処理対象のテキストで正しく 区別されているとは限りません。 Unicode では,KS X 1001 で重複して登録されている漢字のうち 1つのみを「CJK 統合漢字」に収録し,他の漢字は「CJK 互換漢字」に 入れています。これにより,KS X 1001 → Unicode → KS X 1001 と 変換して行っても元に戻せるようにしていますが,KS X 1001 同様の 問題が生じることになり,注意が必要です。 以上,参考まで。 -- 名古屋大学大学院国際開発研究科 国際コミュニケーション専攻 大名 力 (Tsutomu OHNA)