HTML Юникод (UTF-8) Справочник
Консорциум Юникода
Консорциум Unicode разрабатывает стандарт Unicode. Их цель — заменить существующие наборы символов стандартным форматом преобразования Unicode (UTF).
Стандарт Unicode стал успешным и реализован в HTML, XML, Java, JavaScript, электронной почте, ASP, PHP и т. д. Стандарт Unicode также поддерживается во многих операционных системах и во всех современных браузерах.
Консорциум Unicode сотрудничает с ведущими организациями по разработке стандартов, такими как ISO, W3C и ECMA.
Наборы символов Unicode
Юникод может быть реализован различными наборами символов. Наиболее часто используемые кодировки — UTF-8 и UTF-16:
Character-set | Description |
---|---|
UTF-8 | A character in UTF8 can be from 1 to 4 bytes long. UTF-8 can represent any character in the Unicode standard. UTF-8 is backwards compatible with ASCII. UTF-8 is the preferred encoding for e-mail and web pages |
UTF-16 | 16-bit Unicode Transformation Format is a variable-length character encoding for Unicode, capable of encoding the entire Unicode repertoire. UTF-16 is used in major operating systems and environments, like Microsoft Windows, Java and .NET. |
Совет . Первые 128 символов Unicode (которые однозначно соответствуют ASCII) кодируются с использованием одного октета с тем же двоичным значением, что и ASCII, что делает допустимый текст ASCII также действительным Unicode в кодировке UTF-8.
HTML 4 поддерживает кодировку UTF-8. HTML 5 поддерживает как UTF-8, так и UTF-16!
Стандарт HTML5: Unicode UTF-8
Поскольку наборы символов в ISO-8859 были ограничены по размеру и несовместимы с многоязычными средами, Консорциум Unicode разработал стандарт Unicode.
Стандарт Unicode охватывает (почти) все символы, знаки препинания и символы в мире.
Unicode позволяет обрабатывать, хранить и передавать текст независимо от платформы и языка.
Кодировка символов по умолчанию в HTML-5 — UTF-8.
Если веб-страница HTML5 использует набор символов, отличный от UTF-8, его следует указать в теге <meta>, например:
Пример
<meta charset="ISO-8859-1">
Разница между Unicode и UTF-8
Юникод — это набор символов . Кодировка UTF-8 .
Юникод — это список символов с уникальными десятичными числами (кодовыми точками). А = 65, В = 66, С = 67, ....
Этот список десятичных чисел представляет строку «привет»: 104 101 108 108 111
Кодирование — это то, как эти числа преобразуются в двоичные числа для хранения в компьютере:
Кодировка UTF-8 будет хранить «привет» следующим образом (двоичный): 01101000 01100101 01101100 01101100 01101111
Кодирование переводит числа в двоичную форму. Наборы символов преобразуют символы в числа.
Коды символов HTML5 UTF-8
Ниже приведен список некоторых кодов символов UTF-8, поддерживаемых HTML5:
Character codes | Decimal | Hexadecimal |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
Latin Extended-A | 256-383 | 0100-017F |
Latin Extended-B | 384-591 | 0180-024F |
Spacing Modifiers | 688-767 | 02B0-02FF |
Diacritical Marks | 768-879 | 0300-036F |
Greek and Coptic | 880-1023 | 0370-03FF |
Cyrillic Basic | 1024-1279 | 0400-04FF |
Cyrillic Supplement | 1280-1327 | 0500-052F |
General Punctuation | 8192-8303 | 2000-206F |
Currency Symbols | 8352-8399 | 20A0-20CF |
Letterlike Symbols | 8448-8527 | 2100-214F |
Arrows | 8592-8703 | 2190-21FF |
Mathematical Operators | 8704-8959 | 2200-22FF |
Box Drawings | 9472-9599 | 2500-257F |
Block Elements | 9600-9631 | 2580-259F |
Geometric Shapes | 9632-9727 | 25A0-25FF |
Miscellaneous Symbols | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |