Лингвистические аспекты what3words и технический анализ словарей

    Начать хотелось бы с благодарностей! Спасибо за ваше внимание и комментарии к нашему первому приветственному посту на Хабре! Ваша реакция помогла выявить наиболее интересующие вас вопросы, которые мы будем затрагивать в последующих публикациях.

    Как вы уже справедливо отметили в комментариях, не смотря на то, что использование слов вместо цифр имеет ряд неоспоримых преимуществ, в таком подходе есть нюансы, которые необходимо учесть. Профессор Манчестерского университета Роберт Барр провел технический анализ what3words и наших словарей. Ниже мы приведем результаты его независимой оценки:


    В то время, как словарь what3words кажется случайным набором слов, он был тщательно разработан для достижения конкретных целей.

    • 40 тысяч слов английского словаря, используемых для адресов w3w вполне достаточно для того, чтобы проиндексировать все квадраты 3 метра на 3 метра комбинациями из трех слов.
    • Каждое из 40 тысяч слов может быть использовано в каждой из трех позиций адреса w3w, что позволяет словам изредка повторяться.
    • В других языках помимо английского задействовано по 25 тысяч слов, которых достаточно для того, чтобы их комбинациями покрыть всю сушу. Английский — единственный язык из которого задействовано 40 тысяч слов, что позволяет покрыть как океан, так и сушу. Практические последствия такого решения в том, что если в настройках у вас выставлен португальский язык, вы будете получать комбинации из трех португальских слов до того момента, пока не переведете отметку в море (вероятно на несколько сотен метров от берега), после чего адрес отобразится на английском языке.


    • Словари оптимизированы таким образом, чтобы «лучшие» слова использовались для адресов в тех зонах, в которых их вероятно будут использовать носители того или иного языка. «Лучшие» слова — это короткие слова, которые при этом максимально распространены в языке. Баланс во время разбрасывания комбинаций по всему миру достигается при помощи двух независимых систем ранжирования:


    1. Лучшие слова даются самым густонаселенным (городским) районам. Следующая категория слов используется для адресов в сельской местности, и наименее хорошие слова используются для морей.
    2. В странах, для которых конкретный язык является родным, либо распространенным, для адресов используются лучшие слова из словаря этого языка. К примеру, лучшие слова французской версии w3w в первую очередь используются во Франции, Сенегале и Камеруне, а затем раскидываются на другие страны.



    • Избегается использование омофонов, слов, которые пишутся по-разному, но звучат одинаково. Используется лишь одно слово, либо избегается использование всей комбинации (омофоны как правило имеют один и тот же «soundex»-код, который применяется для сопоставления слов во избежание ошибок). Упорядочивание и отбор слов для словарей осуществляется при помощи многоступенчатого процесса, который также включает процедуру устранения оскорбительных слов.
    • При появлении похожих сочетаний слов, они распределяются таким образом, что локации с этими адресами вряд ли будут находиться в одной стране.


    atoms.atoms.hike в северной части Лондона.
    atom.atoms.hike в Квинте, Нью-Йорк.


    Несмотря на то, что адреса w3w соответствуют стилю интернет-адресов для локаций из трех целых чисел, лингвистические аспекты использования слов вместо чисел стали предметом тщательного анализа и оптимизации.

    Система w3w была оптимизирована с целью максимально упростить использование и запоминание адресов, и при этом свести возможные ошибки к минимуму. Единственный механизм коррекции ошибок встроенный в систему проверяет вероятность действия. Когда адрес w3w вводится с устройства, текущее местоположение которого известно, проверяется расстояние до вводимого адреса. Если расстояние слишком большое, и больше, чем до аналогичных по звучанию или написанию альтернативных адресов, пользователю предлагается автоматическая коррекция.

    Сведя ошибки к минимуму при помощи этого механизма коррекции, w3w имеет потенциал стать более надежной заменой буквенно-цифровых кодов. Даже при использовании почтовых индексов в Великобритании, которые служат уже более 50 лет, люди ошибаются при написании более чем в 10% случаев. При этом индексы скорее проверяются лишь на предмет существования, и не проверяются на местоположение.


    Впереди нас ждут следующие публикации:

    Управление дронами при помощи адресов w3w

    Чем слова лучше буквенно-цифровых обозначений
    image
    what3words
    Компания
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 19

      +4
      Хм. Этот пост показал серьёзное намерение авторов и ненулевое финансирование. На какую-то непонятную цель. Боже, дай и мне такой же превосходный навык получать финансирование на непонятные цели!
        0
        Последняя картинка ложь.
        Никто не говорит: поеду в «Россия, Москва, Каширское шоссе, 38».
        Все говорят «Поеду на каширку, 38». А у вас это невозможно в принципе. Так что обещанную статью «Чем слова лучше буквенно-цифровых обозначений» уже не жду…
        В случае с mapcode.com мало того, что в своей стране количество символов резко сокращается, так еще и начало для части города будет одинаковым и его вообще можно опускать. А35, например, или «сосок член мять». Сравнивайте скорость.
        И ведь можно в теории продолжить, взять еще более ограниченную территорию, например, район. Басманный район, АБ1.
          0
          Это зависит от языка. Диктовать буквенный код, например, на французском может быть сложнее, чем сказать три слова.
            +1
            Вот, например, FRA 4J.R4 против pomper perte quinze. С виду первое короче, но если диктовать по телефону, будет «эф эр а эспас катр жИ пуан эр катр» против «помпэ перт кянз». Плюс всякая жесть вроде «игрек» и «дубль вэ».

            И запомнить «качать потерю пятнадцать» гораздо проще.
              +1
              Мы посвятим отдельную публикацию подробному исследованию.
              0
              Вы, кажется, не поняли суть моего комментария. Длинные символьные цепочки может быть и сложнее произносить. Но смысл в том, что их можно сокращать до буквально 1-2 символов. (R4 против всегда pomper perte quinze) Так это работает сейчас с адресами. А у ребят w3w это не возможно.
              Если же одному человеку нужно сообщить координаты человеку из другой страны, то тут уже на слух точно доверяться никто не будет (особенно с набором слов) — запишут и пошлют сообщением или ссылкой на карту. И уже без разницы тут 3 слова, или гео-координаты или символы.
                0
                В таком случае проще и надежнее просто отправить координаты. Но (если бы w3w был опенсорсным и встроеным в любой навигационный софт), я мог бы продиктовать по телефону три слова быстрее. Проблема, я думаю, в том, что сами авторы позиционируют свою систему как замену адресам, а не как способ простой диктовки разрозненных координат.

                В общем, никто в здравом рассудке не станет давать соседним домам абсолютно разные имена, но сказать по телефону «беги на сосок член мять» проще.
                  0
                  Список наших партнеров постоянно растет.
                    0
                    Хотелось бы иметь эту функцию в картах, родных для каждой платформы. Иначе и впрямь проще продиктовать координаты, чем объяснять что скачать или на какой сайт идти, чтобы три слова обрели смысл.
                      0
                      Разумеется, мы стремимся к этому.
                    0
                    Так почему же беги в А35 сложно сказать не пойму? Без всяких недопониманий и оговорок? И это уже реально работает в куче мест. Просто нужно сделать это глобальнее. А так, невозможность использовать контекст, да и еще и нарицательные слова — ужас. Названия дают не просто так именами собственными. Они должны выделяться из речи.
                      0
                      Я вас понял и согласен. Я просто говорю, что не всегда такой хэш проще продиктовать. Нам повезло, потому что при нашем рашшн эккцэнт произношении не будет неоднозначности, разве что «эс как доллар». Но если на слух можно перепутать буквы при плохой связи, то избыточность в словах защитит от помех. На память, в упомянутом французском языке, люди путают o e u, v b.
              0
              Я понимаю, что это не вместо существующих систем адресов, а дополнительно — для мест, где адресов нет, или для мест, в которые приезжаешь один раз в жизни и никогда не вернешься. Может быть, для рекламы и приколов.
              Но достаточно злобный настрой в комментариях показывает, что многие этого посыла не поняли. То ли переформулировать надо, то ли просто не туда он адресован, как бы иронично это не выглядело.
                +1
                Я правильно понимаю, что ваша система словесных кодов не иерархична? И нельзя просто понизить точность?
                  0
                  Вы правы.
                    0
                    Тогда как решается проблема, когда устройство просто не может определить позицию с точностью до 3 метров?
                      0
                      В этом случае все устройства отображают наилучшую догадку, как и везде.
                        0
                        Ну, в градусной системе можно просто указать точность не до долей минуты, а до минут или градусов.
                  0
                  Есть минус — нет контрольного слова — т.е. можно ошибиться с названием и этого не узнать.

                  Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                  Самое читаемое