当サイトでの、いわゆる機種依存文字の扱いについて

まず、「機種依存文字」という言葉はよく聞くのですが、 その定義について合意がなく、人によって解釈が異なることが往々にしてあるため、 ここで定義をしておきます。

この文書では、日本工業規格(JIS) や国際標準化機構(ISO) などの規格を基準に、当サイトにおける「機種依存文字」の定義を行います。

なお、この文書で行う定義は、当サイト内 (www.tomeibus.com) のリソースのみに対して 有効であり、他のサイトやその他の著作物で適用されるものではありません。

また、この文書で述べるのは HTTP を扱う場合の話であり、電子メールなどについては扱いが異なります。 電子メールについては、 電子メールの形式について を参照して下さい。

JIS X 0201 (および ASCII)

JIS X 0201RomanKana の2つの部分から成り立つ符号化文字集合です。 この規格に定義されている文字は、当サイトにおける「機種依存文字」ではありません。 ただし、 JIS X 0201 Kana (いわゆる半角カナ)は、 当サイトにおける掲示板などの投稿では利用できないことがあります。詳細は 当サイトでの、いわゆる半角カナの扱いについて を参照して下さい。

JIS X 0201 Kana (俗に半角カナと呼ばれる)の扱いは、 当サイトでの、いわゆる半角カナの扱いについて で述べるのでこの文書では省略します。

JIS X 0201 Roman は、 ASCII 符号化文字集合とほぼ同じなのですが、 2文字だけ ASCII 符号化文字集合と異なる文字があります。 "\" (ASCII ではバックスラッシュ("\"=BACKSLASH)、 JIS X 0201 では円記号("¥"=YEN SIGN)) と "~" (ASCII ではチルダ("~"=TILDE)、 JIS X 0201 ではオーバーライン("‾"=OVER LINE)だが、 JIS X 0201-1997 の付属書2 には、 「送信者と受信者との間で明示的な合意がある場合、 附属書2図1に示すようなTILDEと同じ字形を使用してもよい。 この場合でも、文字の名称はOVER LINEでなければならない。」 と記述されている。) です。

当サイトでは文字符号化方式として日本語EUC(EUC-JP) を使用している(iモード向けリソースを除く)ため、 この2文字はそれぞれバックスラッシュ、チルダを意味します。 ただし、一部の Web クライアントではこれらの文字を円記号、オーバーラインとして 表示する可能性があるので、原則として使用しません。 ただし、例外として、以下のような場合は使用してもかまいません。

  1. "~" をURIの一部として使用する場合
  2. "\" および "~" をプログラムのソースの一部として使用する場合

掲示板への投稿においても、同様の扱いです。ご協力をお願いします。

JIS X 0208

JIS X 0208 は、現在日本でもっともよく使われている符号化文字集合です。 現在日本で使用されている文字符号化方式である EUC-JP, Shift_JIS, ISO-2022-JP はいずれもこの符号化文字集合を含んでいます。 また、 ISO/IEC 10646-1:1993 (Unicode) にも JIS X 0208-1990 の符号化文字集合が含まれています。

なお、 JIS X 0208 は幾度か改定が行われていますが、 当サイトでは、1990年の改定による規格(JIS X 0208-1990)を基準とします。 (理由は、当サイトのHTML文書の記述で使用している HTML 4.01 の文書文字集合である ISO/IEC 10646-1:1993 が JIS X 0208-1990 を参照しているため)

JIS X 0208 では、文字が割り当てられていない領域があり、 各メーカはその領域に独自の文字(丸数字など)を割り当てている場合があります。 一般に「機種依存文字」と呼ばれるのはこの領域に割り当てられている文字のことを 指す場合が多いです。当サイトでも、この領域に割り当てられている JIS X 0208-1990 未定義文字のことを「機種依存文字」と呼びます。

具体的な「機種依存文字」のリストは、以下のページをご参照ください。

JIS X 0212

「補助漢字」とも呼ばれる符号化文字集合の規格です。

この符号化文字集合はあまり普及していません。 この符号化文字集合は、 EUC-JP や ISO/IEC 10646 には含まれていますが、 Shift_JIS や ISO-2022-JP には含まれていません。

当サイトでは JIS X 0212 符号化文字集合の文字すべてを「機種依存文字」とみなします。 当サイトの文書では JIS X 0212 に属す文字を使用しません。また、掲示板でも使用できません。

JIS X 0213

2000年に新しく制定された符号化文字集合です。 JIS X 0208 の項で「機種依存文字」の例として挙げた 丸数字などもこの符号化文字集合に含まれています。

しかし、この符号化文字集合は ISO10646 に含まれていない文字を含んでいるため、 HTML で使用することができません。 また、この符号化文字集合もまだ普及していないと思われます。

したがって、この符号化文字集合については、 JIS X 0208-1990 に含まれていない文字については「機種依存文字」である、 という扱いとします。

JIS X 0221

ISO/IEC 10646の日本語訳です。

日本語符号化文字集合としては、 JIS X 0208-1990 と JIS X 0212-1990 を含んでいます。 すでに述べた通り、 JIS X 0208-1990 については使用可JIS X 0208-1990 に含まれていない文字については「機種依存文字」の扱い となります。

まとめ

当サイトで「機種依存文字」でない 符号化文字集合は

に含まれる符号化文字集合のみとなります。 (ただし、 "\" および "~" を使用するときは制限があります)

この符号化文字集合に含まれない文字は、「機種依存文字」であるとみなします。 掲示板などで「機種依存文字」を使用した投稿を行うと、 他の人が投稿を読めない場合があります。 そのため、管理人は「機種依存文字」が含まれると思われる投稿の一部または全部を 修正することがあります。

参考文献

全部は書きませんが、可能な限り多くの文献を挙げておきます。

  1. RFC1468 - Japanese Character Encoding for Internet Messages (J. Murai, M. Crispin, E. van der Poel, Jun 1993) (RFC1468の日本語訳)
  2. RFC2237 - Japanese Character Encoding for Internet Messages (K. Tamaru, Nov. 1997) (RFC2237の日本語訳)
  3. HTML 4.01 Specification - W3C Recommendation 24 December 1999 (Dave Raggett, Arnaud Le Hors, Ian Jacobs, Dec. 1999) (HTML 4.01仕様書の日本語訳)
  4. 日本語と文字コード (神崎正英著)