HTML -кодировки

HTML-кодировки HTML ASCII HTML WIN-1252 HTML ISO-8859 HTML-символы HTML UTF-8

HTML UTF-8

Базовый латинский Латинское дополнение Расширенная латиница A Расширенная латиница B Буквы-модификаторы Диакритические знаки греческий и коптский Кириллица базовая Кириллическое дополнение

HTML -символы

Общая пунктуация Валютные символы Буквенные символы Стрелки Математические операторы Чертежи коробки Блочные элементы Геометрические фигуры Разные символы Дингбаты эмодзи Эмодзи Смайлики Тона кожи эмодзи

HTML -сущности

Объекты HTML4 Объекты HTML5 А Объекты HTML5 Б Объекты HTML5 C Объекты HTML5 D Объекты HTML5 E Объекты HTML5 F Объекты HTML5 G Объекты HTML5 H Объекты HTML5 I Объекты HTML5 J Объекты HTML5 K Объекты HTML5 L Объекты HTML5 M Объектов HTML5 N Объекты HTML5 O Объекты HTML5 P Сущности HTML5 Q Объекты HTML5 R Объекты HTML5 S Объекты HTML5 T Объекты HTML5 U Объекты HTML5 V Объекты HTML5 W Объекты HTML5 X Объекты HTML5 Y Объекты HTML5 Z

HTML Юникод (UTF-8) Справочник


Консорциум Юникода

Консорциум Unicode разрабатывает стандарт Unicode. Их цель — заменить существующие наборы символов стандартным форматом преобразования Unicode (UTF).

Стандарт Unicode стал успешным и реализован в HTML, XML, Java, JavaScript, электронной почте, ASP, PHP и т. д. Стандарт Unicode также поддерживается во многих операционных системах и во всех современных браузерах.

Консорциум Unicode сотрудничает с ведущими организациями по разработке стандартов, такими как ISO, W3C и ECMA.


Наборы символов Unicode

Юникод может быть реализован различными наборами символов. Наиболее часто используемые кодировки — UTF-8 и UTF-16:

Character-set Description
UTF-8 A character in UTF8 can be from 1 to 4 bytes long. UTF-8 can represent any character in the Unicode standard. UTF-8 is backwards compatible with ASCII. UTF-8 is the preferred encoding for e-mail and web pages
UTF-16 16-bit Unicode Transformation Format is a variable-length character encoding for Unicode, capable of encoding the entire Unicode repertoire. UTF-16 is used in major operating systems and environments, like Microsoft Windows, Java and .NET.

Совет . Первые 128 символов Unicode (которые однозначно соответствуют ASCII) кодируются с использованием одного октета с тем же двоичным значением, что и ASCII, что делает допустимый текст ASCII также действительным Unicode в кодировке UTF-8.

HTML 4 поддерживает кодировку UTF-8. HTML 5 поддерживает как UTF-8, так и UTF-16!


Стандарт HTML5: Unicode UTF-8

Поскольку наборы символов в ISO-8859 были ограничены по размеру и несовместимы с многоязычными средами, Консорциум Unicode разработал стандарт Unicode.

Стандарт Unicode охватывает (почти) все символы, знаки препинания и символы в мире.

Unicode позволяет обрабатывать, хранить и передавать текст независимо от платформы и языка.

Кодировка символов по умолчанию в HTML-5 — UTF-8.

Если веб-страница HTML5 использует набор символов, отличный от UTF-8, его следует указать в теге <meta>, например:

Пример

<meta charset="ISO-8859-1">


Разница между Unicode и UTF-8

Юникод — это набор символов . Кодировка UTF-8 .

Юникод — это список символов с уникальными десятичными числами (кодовыми точками). А = 65, В = 66, С = 67, ....

Этот список десятичных чисел представляет строку «привет»: 104 101 108 108 111

Кодирование — это то, как эти числа преобразуются в двоичные числа для хранения в компьютере:

Кодировка UTF-8 будет хранить «привет» следующим образом (двоичный): 01101000 01100101 01101100 01101100 01101111

Кодирование переводит числа в двоичную форму. Наборы символов преобразуют символы в числа.


Коды символов HTML5 UTF-8

Ниже приведен список некоторых кодов символов UTF-8, поддерживаемых HTML5:

Character codes Decimal Hexadecimal
C0 Controls and Basic Latin 0-127 0000-007F
C1 Controls and Latin-1 Supplement 128-255 0080-00FF
Latin Extended-A 256-383 0100-017F
Latin Extended-B 384-591 0180-024F
Spacing Modifiers 688-767 02B0-02FF
Diacritical Marks 768-879 0300-036F
Greek and Coptic 880-1023 0370-03FF
Cyrillic Basic 1024-1279 0400-04FF
Cyrillic Supplement 1280-1327 0500-052F
General Punctuation 8192-8303 2000-206F
Currency Symbols 8352-8399 20A0-20CF
Letterlike Symbols 8448-8527 2100-214F
Arrows 8592-8703 2190-21FF
Mathematical Operators 8704-8959 2200-22FF
Box Drawings 9472-9599 2500-257F
Block Elements 9600-9631 2580-259F
Geometric Shapes 9632-9727 25A0-25FF
Miscellaneous Symbols 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF