メール送受信時の文字コードについて(その1)

Pocket

最近、メールを送受信する際の文字コードについて調べる機会があり、自分の理解を確実にする為にここにまとめてみることにしました。

したがって、もしかしたら勘違いしている点もあるかもしれないので、その時はご容赦ください。

1.文字コードとは?

そもそも文字コードとは何なのか?ここをちゃんと理解できている人は少ないのではないかと思います。

しかし、ここをちゃんと押さえておかないと、あとで必ず混乱してくると思います。

まず、文字コードというと以下の2つの意味があります。

a. 文字を表示する際などに実際にコンピュータが扱う数字(バイト表現)
b. 人間がコンピュータとやりとりする為に文字に割り当てられた番号(符号化文字)

2つの文字コード

おそらく今回このページを見ている人の多くは、b.の「符号化文字」のことを文字コードと考えているのではないかと思います。

この符号化文字は、特定の文字の集合(文字集合)の中で各文字が一意に特定されるように番号が割り当てられています。

なお、符号化文字については以下のサイトで詳しく解説されていますので、とても参考になると思います。

<参考サイト>
・わわわIT用語辞典(https://wa3.i-3-i.info/word15291.html)

次に、文字集合について少し解説します。

2.文字集合(文字セット)

世の中にはアルファベットやひらがな、漢字以外にも様々な言語の様々な文字があり、さらにはコンピュータで利用される制御文字などもあります。

それらの文字をどこまでセット(1つのまとまり)にするかで、様々な文字セット(文字集合)があります。

例えば代表的な文字集合は以下の通りです。

文字セット含まれる文字
ASCIIAmerican Standard Code for Information Interchangeの略
アメリカンなので米国で定義されたのでしょう
JIS X 0208いわゆるJIS第1第2水準漢字
JIS X 0213JIS X 0208に対してローマ数字や丸付き数字などを追加したもの
Unicode世界で使われる全ての文字を共通の文字集合で利用できるようにしようとしたもの
代表的な文字集合

なお、文字集合についてもっと詳しく知りたい人は以下のサイトが参考になると思います。

<参考サイト>
・ウィキペディア 文字集合(https://ja.wikipedia.org/wiki/文字集合)

ここまでで符号化文字と文字集合がざっくり理解できたと思いますので、次に符号化文字集合を説明します。

3.符号化文字集合

符号化文字集合とは、言葉通り、符号化された文字集合です。

したがって、代表的な符号化文字集合としては、「2.文字集合」にて表にまとめた ASCII や JIS X 0208、JIS X 0213、Unicode などがあります。

4.文字符号化方式(文字コードの一つ)

文字符号化方式には、ASCIIやEUC-JP、Shift_JIS、UTF-8などがあり、これらは普段コンピュータを利用している中で馴染みのある人が多いのではないでしょうか?

また、普通の人?はこれらを指して文字コードと言っていることが多いと思います。(実は私もそうでしたが、正確な表現ではなかったようです。)

今回の記事ではここまでにして、次回はメール送信時の文字コードについてまとめたいと考えています。

コメントを残す

メールアドレスが公開されることはありません。

CAPTCHA