も〜 国際化(地域化)について
はじめに
も〜 の国際化は、 も〜 が使用しているグラフィカルユーザーインターフェース
キット、 Tcl/Tk (Version 7.6/4.2 現在)がまだ国際化されていないこともあり、
まだほとんど行なわれていません。ただし、日本語版 Tcl/Tk の存在や、
も〜 開発者に日本人が若干一名含まれていることなどから、日本語の表示は
可能となっています。本文書では も〜 での HTML ファイルを表示する
際の日本語の取り扱いについて説明します。
(text/plain の日本語化はTcl/Tk の日本語化部分にまかせており、
独自部分はありません。)
なおこの文書には筆者の独断と偏見、及びおふざけがいくつか入っていますので、
ある程度、眉に唾を付けて御読み下さい。
これをもって免責事項とさせていただきます。
漢字コード自動判定
本バージョンの も〜 は、漢字コードの判定を自前で行っており、
次のコードに対応しています。
- ISO2022JP (JIS コード、Junet コード)
- EUC JP (日本語 EUC)
- MS Kanji (シフトJIS、某企業標準コード)
ただし、EUC-JP と、 MS Kanji は見分けが完全につかない場合があります。
そのような場合、コード自動判定は EUC-JP を優先します。特に、
「半角片仮名」で始まる MS Kanji コードの文書については元から無視しています。
付記: 以上の「対応しています」、「可能です」、は「対応したいものです」、
「可能にしたつもりです」に置き換えて御読みになると意味がよりはっきりします。
付記: 「半角片仮名」とは JISX0201 右半面集合のことです。
以下、括弧付きで書きますから、許してください。
表示される文字セット
日本語に関しては、 JISX0208-1983 のフォントを使用して表示を行ないます。
ISO2022JP の文書でそれ以外の日本語文字セットを使った場合、区点コード
はそのままに、 JISX0208-1983 の文字を使って表示を行ないますので、
正確に(私には意味をなさない正確さではありますが、)表示できません。
「半角片仮名」については、Tcl/Tk での表示ができないため、同様に、
JISX0208-1983 の片仮名部分に変更して表示します。
ISO8859 右半面集合の文字も表示可能です。ただし、日本語を使用している
場合は Entity を使って書く必要があります。また、 Entity を使わず、
ISO8859 で書かれたファイルでも、Document encoding を手動変更
(後述)すれば、これらの文字を正常に表示することができます。
META タグの charset 指定
も〜 では自動文字コード判定をする他にも、 META タグの charset 指定、
すなわち、
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=***">
の *** 部分に書かれた情報を参考に HTML 文書の漢字コードを決定します。
この charset 指定が も〜 にとって意味のある情報である場合、
コード自動判定は行なわれず、そこに書かれた漢字コードの HTML ファイルと
して、続く内容を読みこみます。
Maintained by JPF
Last modified: Mon Dec 22 17:06:18 MET 1997