Наборы символов HTML
Для правильного отображения HTML-страницы браузер должен знать, какой набор символов (кодировку) использовать:
Пример
<meta charset="UTF-8">
Наборы символов HTML
Спецификация HTML5 поощряет веб-разработчиков использовать набор символов UTF-8!
Так было не всегда. Кодировка символов для ранней сети была ASCII.
Позже, от HTML 2.0 до HTML 4.01, ISO-8859-1 считался стандартным набором символов.
Вместе с XML и HTML5 наконец появилась UTF-8, которая решила множество проблем с кодировкой символов.
В начале: ASCII
Компьютерные данные хранятся в виде двоичных кодов (01000101) в электронике.
Для стандартизации хранения текста был создан Американский стандартный код для обмена информацией (ASCII). Он определил уникальный двоичный номер для каждого сохраняемого символа для поддержки чисел от 0 до 9, алфавита верхнего и нижнего регистра (az, AZ) и специальных символов, таких как ! $ + - ( ) @ < > , .
Поскольку ASCII использует 7 бит для символа, он может представлять только 128 различных символов.
Самая большая слабость ASCII заключалась в том, что он исключал неанглийские буквы.
ASCII все еще используется сегодня, особенно в больших компьютерных системах мэйнфреймов.
Для более подробного ознакомления, пожалуйста, изучите наш Полный справочник ASCII .
В Windows: Windows-1252
Windows-1252 был набором символов по умолчанию в Windows, вплоть до Windows 95.
Это расширение ASCII с добавлением международных символов.
Он использует полный байт (8 бит) для представления 256 различных символов.
Поскольку Windows-1252 используется по умолчанию в Windows, она поддерживается всеми браузерами.
Для более подробного ознакомления изучите: Полный справочник по Windows-1252 .
В HTML 4: ISO-8859-1.
Наиболее часто в HTML 4 использовался набор символов ISO-8859-1.
ISO-8859-1 является расширением ASCII с добавлением международных символов.
Пример
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">
В HTML 4 набор символов, отличный от ISO-8859-1, может быть указан в теге <meta>:
Пример
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">
Все процессоры HTML 4 также поддерживают UTF-8:
Пример
<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">
Когда браузер обнаруживает ISO-8859-1, он обычно использует по умолчанию Windows-1252, потому что Windows-1252 имеет на 32 больше международных символа.
Для более подробного ознакомления, пожалуйста, изучите: The Complete ISO-8859-1 Reference
В HTML5: Юникод UTF-8
Спецификация HTML5 поощряет веб-разработчиков использовать набор символов UTF-8.
Пример
<meta charset="UTF-8">
В теге <meta> можно указать набор символов, отличный от UTF-8:
Пример
<meta charset="ISO-8859-1">
Консорциум Unicode разработал стандарты UTF-8 и UTF-16, поскольку наборы символов ISO-8859 ограничены и несовместимы с многоязычной средой.
Стандарт Unicode охватывает (почти) все символы, знаки препинания и символы в мире.
Все процессоры HTML5 и XML поддерживают UTF-8, UTF-16, Windows-1252 и ISO-8859.
Для более подробного ознакомления, пожалуйста, изучите: The Complete Unicode Reference .