フォーラム | 最新のWeb開発のチュートリアル
 

HTMLユニコード(UTF-8)リファレンス


ユニコードコンソーシアム

ユニコードコンソーシアムは、Unicode標準を開発しています。 彼らの目標は、標準のUnicode変換フォーマットで、既存の文字セットを交換することです(UTF)

Unicode標準は、成功となっており、また、多くのオペレーティングシステムおよびすべての最新ブラウザでサポートされているなどのUnicode標準のHTML、XMLやJava、JavaScriptの、Eメール、ASP、PHPで実装されています。

ユニコードコンソーシアムは、ISO、W3C、およびECMAなどの主要な標準開発組織と協力しています。


Unicodeの文字セット

Unicodeは、異なる文字セットで実現することができます。 最も一般的に使用されるエンコーディングはUTF-8とUTF-16です。

キャラクターセット 説明
UTF-8 UTF8の文字の長さは1〜4バイトであることができます。 UTF-8は、Unicode標準の任意の文字を表すことができます。 UTF-8はASCIIとの下位互換性があります。 UTF-8は、電子メールやWebページのための好適なエンコーディングです
UTF-16 16ビットユニコード変換フォーマットは、全体のUnicodeレパートリーをコードすることができるUnicodeの可変長文字エンコーディングです。 UTF-16は、Microsoft Windows、Javaと.NETのように、主要なオペレーティングシステムおよび環境で使用されています。

Tip:ユニコードの最初の128文字(which correspond one-to-one with ASCII)有効なASCIIテキストが有効もUnicodeをUTF-8でエンコードされた作り、ASCIIと同じバイナリ値を有する単一のオクテットを使用して符号化されます。

HTML 4は、UTF-8をサポートしています。 HTML 5は、UTF-8とUTF-16の両方をサポートしています!


HTML5標準:UnicodeのUTF-8

ISO-8859の文字セットのサイズが制限され、多言語環境での互換性がありませんでしたので、ユニコードコンソーシアムは、Unicode標準を開発しました。

Unicode標準カバー(almost)世界のすべての文字、句読点、および記号。

Unicodeは、処理、保管、およびプラットフォームや言語のテキストの独立の輸送を可能にします。

HTML-5のデフォルトの文字エンコーディングはUTF-8です。

HTML5のWebページがUTF-8とは異なる文字セットを使用している場合は、それがで指定されなければならない<meta>タグのように:

<meta charset="ISO-8859-1">

UnicodeとUTF-8の違い

Unicodeは文字セットです。 UTF-8でエンコーディングです。

Unicodeは、ユニーク進数と文字のリストである(code points) 。 A = 41、B = 42、C = 43、...

小数のこのリストの文字列を表す"hello" :104 101 108 108 111

エンコーディングは、これらの数字は、コンピュータに格納されるように進数に変換する方法です。

このような"ハロー"格納するUTF-8エンコーディング(binary) :01101000 01100101 01101100 01101100 01101111

エンコーディングはバイナリに数値を変換します。 文字セットは、文字を数字に変換します。


HTML5のUTF-8文字コード

以下はHTML5でサポートされているUTF-8文字コードのいくつかのリストは、次のとおりです。

文字コード 小数
C0制御および基本ラテン 0-1270000-007F
C1コントロールとラテン1補助 128-2550080-00FF
ラテン拡張A 256-3830100-017F
ラテン拡張B 384-5910180-024F
間隔修飾子 688-76702B0-02FF
ダイアクリティカルマーク 768-8790300-036F
ギリシャ語とコプト 880-10230370-03FF
キリル基本 1024-12790400-04FF
キリルサプリメント 1280-13270500-052F
一般句読点 8192-83032000-206F
通貨記号 8352-839920A0-20CF
シンボルLetterlike 8448-85272100-214F
アローズ 8592-87032190-21FF
算術演算子 8704-89592200-22FF
ボックス図面 9472-95992500-257F
ブロック要素 9600-96312580-259F
幾何学図形 9632-972725A0-25FF
その他の記号 9728-99832600-26FF
ばかです 9984-101752700-27BF