も〜 国際化(地域化)について


はじめに

も〜 の国際化は、 も〜 が使用しているグラフィカルユーザーインターフェース キット、 Tcl/Tk (Version 7.6/4.2 現在)がまだ国際化されていないこともあり、 まだほとんど行なわれていません。ただし、日本語版 Tcl/Tk の存在や、 も〜 開発者に日本人が若干一名含まれていることなどから、日本語の表示は 可能となっています。本文書では も〜 での HTML ファイルを表示する 際の日本語の取り扱いについて説明します。 (text/plain の日本語化はTcl/Tk の日本語化部分にまかせており、 独自部分はありません。)

なおこの文書には筆者の独断と偏見、及びおふざけがいくつか入っていますので、 ある程度、眉に唾を付けて御読み下さい。 これをもって免責事項とさせていただきます。

漢字コード自動判定

本バージョンの も〜 は、漢字コードの判定を自前で行っており、 次のコードに対応しています。 ただし、EUC-JP と、 MS Kanji は見分けが完全につかない場合があります。 そのような場合、コード自動判定は EUC-JP を優先します。特に、 「半角片仮名」で始まる MS Kanji コードの文書については元から無視しています。

付記: 以上の「対応しています」、「可能です」、は「対応したいものです」、 「可能にしたつもりです」に置き換えて御読みになると意味がよりはっきりします。

付記: 「半角片仮名」とは JISX0201 右半面集合のことです。 以下、括弧付きで書きますから、許してください。

表示される文字セット

日本語に関しては、 JISX0208-1983 のフォントを使用して表示を行ないます。 ISO2022JP の文書でそれ以外の日本語文字セットを使った場合、区点コード はそのままに、 JISX0208-1983 の文字を使って表示を行ないますので、 正確に(私には意味をなさない正確さではありますが、)表示できません。

「半角片仮名」については、Tcl/Tk での表示ができないため、同様に、 JISX0208-1983 の片仮名部分に変更して表示します。

ISO8859 右半面集合の文字も表示可能です。ただし、日本語を使用している 場合は Entity を使って書く必要があります。また、 Entity を使わず、 ISO8859 で書かれたファイルでも、Document encoding を手動変更 (後述)すれば、これらの文字を正常に表示することができます。

META タグの charset 指定

も〜 では自動文字コード判定をする他にも、 META タグの charset 指定、 すなわち、
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=***">
の *** 部分に書かれた情報を参考に HTML 文書の漢字コードを決定します。 この charset 指定が も〜 にとって意味のある情報である場合、 コード自動判定は行なわれず、そこに書かれた漢字コードの HTML ファイルと して、続く内容を読みこみます。


Maintained by JPF
Last modified: Mon Dec 22 17:06:18 MET 1997