Unicode наконец-то обогнал ASCII

    Согласно статистике от Google, Unicode опередил ASCII и теперь стал самой популярной системой кодирования символов в интернете. Как видно на графике, за последние два года число сайтов на UTF-8 резко выросло, так что в течение всего десяти дней в декабре Unicode опередил сразу двух прежних лидеров: ASCII и западноевропейскую кодировку 8859-1/1252 (это та же ASCII с добавлением нескольких символов).

    Специалисты Google отмечают, что это вполне закономерный процесс, хотя, по их словам, вызывает удивление та ошеломляющая скорость, с которой произошла «революция кодировок» в интернете.



    Компания Google — один из главных приверженцев Unicode. После индексации любых сайтов они в обязательном порядке перекодируют их в UTF-8 для единообразия своего индекса. Кстати, на днях было объявлено об апгрейде всей поисковой базы Google в новый формат Unicode 5.1 (стандарт официально представлен месяц назад, поддерживает более 100 000 символов).

    Средняя зарплата в IT

    120 000 ₽/мес.
    Средняя зарплата по всем IT-специализациям на основании 8 924 анкет, за 1-ое пол. 2021 года Узнать свою зарплату
    Реклама
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее

    Комментарии 86

    • НЛО прилетело и опубликовало эту надпись здесь
        +6
        Почему же 8? Рост — экспоненциальный.
          0
          да не 50/50, а 25/75 пока... но все равно приятно
            0
            у юникода доля всего лишь 50%
              +5
              какие 50%? посмотрите на шкалу
                0
                25! там 25! Да. 25 против 75. Ошибся, хотел вот поправеть человека, а ошибся сам... бывает
                • НЛО прилетело и опубликовало эту надпись здесь
                    0
                    не расстраивайтесь, с кем не бывает...
            0
            А что насчет русскоязычных кодировок?
              +8
              На фронте русских кодировок CP1251 одерживает безоговорочную победу над KOI8-R, а с запада движутся войска союзников (UTF8), но до наступательного порыва CP1251 им пока далеко (хотя лично я на UTF8 уже вовсю перехожу где есть такая возможность).
                –8
                А зачем, если не секрет?
                  +1
                  текст, содержащий расширенные символы можно прекрасно использовать без преобразований в html-мнемоники.
                    +17
                    Затем чтобы вопрос о кодировках не приходил в голову вообще.
                      +2
                      Эээ, по моему, глупее вопроса не придумаешь.

                      Сегодня вашим проектом пользуются только русские, а завтра придут китайцы, напишут «Привет», и всё сломается нах! :)
                        +3
                        А вы не видели на хабре порезанных комментариев с ругательствами в адрес Хабра, который не принимает то λ, то ℏ а то и Å. На всех ресурсах, на которых разрешено пользователям что-то вводить Unicode небесполезен, а много ли сейчас других?
                          0
                          Нет, не видел.
                            +2
                            что видел? я их писАл :(
                            Хабр обрезает в комменте все, что идет после ударения :(
                      0
                      Ну можно только порадоваться, глобализация гордо шагает по web'у
                        –9
                        Вскоре, планируют ввести поддержку русского в Unicode :)
                          –2
                          Что за бред? Русский уже есть в UTF-8.
                            +3
                            Это вроде nekufa шутку пошутил
                              0
                              Шутники блин. Писать на информационном ресурсе неверную информацию, надеясь что все смогут различить в ней тонкий юмор - это странно и наивно. Я Некуфа не минусовал, на кой ляд меня-то минусуют и в карму срут? Или кто-то считает что русского в UTF-8 нету?
                            0
                            Это как? У меня на домашней системе кодировка — юникод (UTF-8), с русским проблем нет. Что еще вводить?
                              –2
                              <irony>
                                0
                                вот и пошутили :)
                                  0
                                  угу, блин.. (:
                              0
                              а чему тут удивляться?
                              график роста совпадает с началом развития социальных сетей и других проектов web20
                              • НЛО прилетело и опубликовало эту надпись здесь
                                  0
                                  Почему самое противное, если не секрет? В программировании не так уж и сложно перелетать, к примеру, из ASCII в ANSI. Самому процедуру просто сделать, да к тому же есть готовые в библиотеках. С автоопределением кодировок у броузеров тоже проблемы в начале века кончились.
                                  • НЛО прилетело и опубликовало эту надпись здесь
                                      +3
                                      Например, если у Вас используется на одной странице два языка, ни один из которых не английский. Попробуйте без уникода сочинить страничку, где приводятся примеры перевода, скажем, чешских текстов на русский язык. Если даже это можно (в чём сомневаюсь), три языка без уникода уж точно не потянуть.
                                        0
                                        Спасибо. Понял.
                                        0
                                        >> С автоопределением кодировок у броузеров тоже проблемы в начале века кончились.

                                        то-то у меня в Safari каждый второй сайт с cp1251 отображается кракозябрами..

                                        это не в браузерах дело, а в разработчиках этих корявых сайтов
                                          0
                                          Хоть у меня и Windows, мне тоже Safari не нравится (версию для этой ОС можно на их сайте скачать). Явно что-то не то со стандартами.
                                      +1
                                      новость не может не радовать. Скорей бы уже утф победно прошёлся и по территории бссср.
                                        +2
                                        уникод - пожалуй, одна из очень немногих светлых сторон глобализации. только клинопись да узелковая письменность за бортом оказались.
                                        • НЛО прилетело и опубликовало эту надпись здесь
                                            0
                                            имхо глобализация в том, что при использовании уникода в рамках одного хтмл-документа/одной страницы/одной базы данных возможна публикация на разных языках. таким образом, создание, например, корпоративного сайта с многими языковыми версиями предельно упрощается.
                                            +1
                                            Что значить "остались за бортом" ? Там есть и клинопись есть и не одна, а вот о каком узелковом письме речь идёт и кто его применял - я не знаю даже...
                                          • НЛО прилетело и опубликовало эту надпись здесь
                                              0
                                              Сначала обчитался и подумал, что простой Хабр в юникоде, ан-нет, зло**учий cp1251 :/ Даешь СуперХабр как можно быстрее!
                                              • НЛО прилетело и опубликовало эту надпись здесь
                                                0
                                                У вас логотип выпадает из общего дизайна.
                                                0
                                                одна беда: в юникоде страница в два раза тяжелее становится, чем в win-1251(
                                                  0
                                                  если страница на англ, то тяжелее не станет.
                                                  А вообще это в браузерах с автоопределением все ок, а вот в той же Thunderbird я до сих пор ловлю письма в koi-8r с subject ????.??.??
                                                    0
                                                    если страница на англ, то тяжелее не станет.

                                                    это возможно только в UTF-8. и в этом случае страница ничем не будет отличаться от ASCII.

                                                    в utf-16(32) тяжелее станет всё.
                                                      0
                                                      Да, Вы правы, забыл уточнить, что Utf8. страница будет отличаться от ascii в случае наличия символов, выходящих за пределы 0-127 ASCII
                                                        0
                                                        Покажите страницы с юникодом не в UTF-8.
                                                      +5
                                                      Вызывающе неверная информация. Страница наполовину состоит из ascii-символов стандартной части, которые в UTF8 (о чем и сабж) кодируются ровно одним байтом. Да и мнемоники html весят больше, чем юникодный символ, который они заменяют.
                                                      • НЛО прилетело и опубликовало эту надпись здесь
                                                          0
                                                          "взрослые" БД уже давно юникодные по умолчанию.
                                                          • НЛО прилетело и опубликовало эту надпись здесь
                                                              0
                                                              А теперь расскажите это нашим хостерам =(
                                                                –1
                                                                а MySQL это вообще не БД, а сплошное недоразумение :P
                                                          0
                                                          Use gzip-compression Luke. Компрессия вывода — вообще хороший тон, а UTF-8 она сжимает очень хорошо, поскольку старшие байты символов почти одинаковые.
                                                          0
                                                          Какая замечательная новость. )
                                                            0
                                                            Ура Юникоду!
                                                              0
                                                              А мы уже. 100% проектов за 1,5 года в UTF-8 (переходим где можно и где нельзя)
                                                                0
                                                                Статистика не может не радовать :)
                                                                  +1
                                                                  Когда уже ФАР выйдет в юникоде...
                                                                    0
                                                                    Без Рошала ФАРу поплохело. Я уже и не надеюсь.
                                                                      +2
                                                                      Рошал отошел от дел 8 лет назад. Всё это время FAR Team справлялся с разработкой кое-как, бету довели до релиза, сколько багфиксов было сделано. Боюсь только, что опенсорсом его сделали потому, что больше никто не хочет им заниматься... =\
                                                                        +2
                                                                        Оперсорс похоже, тоже не поможет.
                                                                        P.S. Кошмар, 8 лет, как летит время!
                                                                      0
                                                                      Ну ды берите и собирайте - кто мешает?
                                                                        0
                                                                        А насколько она рабочая? Я не девелопер, и дописать вряд ли что-то смогу. Если нужно просто скомпилить и получаешь такой же 1.70, только с поддержкой юникода, то это круто.
                                                                      0
                                                                      Делал сайт с анлийским, русским, французским, испанским, арабским, фарси, вьетнамским, турецким, японским, немецким, хорватским и португальским вариантами перевода. Еще и китайский в базе недопереведенный лежал. Без utf8 я бы повесился все это в БД хранить и в браузер выдавать, учитывая что два языка вообще с письмом справа налево.
                                                                      Как замечательно что utf все больше распространяется!
                                                                        +2
                                                                        Только бы еще не путали Unicode с UTF-8 :)
                                                                          +3
                                                                          Вот бы еще не путали Unicode с UTF-16LE
                                                                          +1
                                                                          Радует. Остается надеяться что достаточно быстро пропадет привычка у европейских и штатовских программеров зашивать «latin1» в коде.
                                                                            +2
                                                                            Wordpress? :)
                                                                              0
                                                                              и Drupal
                                                                              +1
                                                                              по поводу unicode мне понравилась вот эта
                                                                              статья
                                                                                0
                                                                                http://www.joelonsoftware.com/articles/Unicode.html
                                                                                нет кармы чтоль на теги(
                                                                                  0
                                                                                  Да, неплохая статья.
                                                                                0
                                                                                Ждём, пока это дойдёт до хабрахабра? :D
                                                                                  0
                                                                                  в супер будет
                                                                                    0
                                                                                    после супера, хех
                                                                                  0
                                                                                  Просто радуюсь, так как мое дите в UTF-8 ;) Но, признаюсь, почему Юникод - хорошо, а Анси, положим, плохо не понимаю.
                                                                                    +1
                                                                                    Потому там нет таких букв как: ?, ?, ? :))
                                                                                    0
                                                                                    Господи, как я рад.. Я целую стаю собак съел на кодировках. Да здравствует Unicode!
                                                                                      0
                                                                                      Хвала mbstring.
                                                                                      • НЛО прилетело и опубликовало эту надпись здесь
                                                                                          0
                                                                                          По моему опыту, iconv, к сожалению, спотыкается там, где mbstring просто молча и отлично делает свою работу. ;-)
                                                                                          • НЛО прилетело и опубликовало эту надпись здесь
                                                                                        • НЛО прилетело и опубликовало эту надпись здесь
                                                                                          0
                                                                                          Давно пора :-)

                                                                                          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                                                                          Самое читаемое