Как стать автором
Обновить
95
0
Максим Пименов @DEADStop

Маркетинг и контент в IT

Отправить сообщение

Есть ли кому-то дело до утечек персональных данных?

Время на прочтение 1 мин
Количество просмотров 4.6K

Мы в HFLabs с 2005 года обрабатываем персональные данные в промышленных масштабах. И решили провести опрос среди айти-специалистов по поводу крупных утечек.

Давайте все вместе выясним, есть ли кому-нибудь дело до недавних инцидентов. В последнее время данные массово утекли как минимум из «Яндекс.Еды», Delivery Club и Geekbrains. Пожалуйста, расскажите, насколько эти события затронули вашу компанию.

В форме всего 10 вопросов, на большинство достаточно ответить «Да» или «Нет» forms.gle/BtH19mhUpZ3CzBD17.

Опрос анонимный. Если оставите емейл, мы пришлем на него результаты. Но в любом случае выложим их в нашем телеграм-канале «HFLabs — о данных».

Пройти опрос
Всего голосов 19: ↑11 и ↓8 +3
Комментарии 3

Челленджи, лысые головы и вино. Как мы в HFLabs переживаем самоизоляцию

Время на прочтение 7 мин
Количество просмотров 4.5K


В HFLabs работают 82 человека — из них ≈70 [было] в московских офисах. Самоизолировались, конечно. Но дома скучно или, наоборот, чересчур суетно — например, когда ты заперт в однушке с детьми. Работать так днями напролет — тяжеловато.

Уже на вторую неделю карантина главные бодряки компании задумались, как разнообразить трудовые будни. И накидали решений. Расскажу, что нового появилось в корпоративной, не побоюсь этого слова, культуре HFLabs за последнее время.

Методы HFLabs подойдут не каждой компании. Если у вас принято застегиваться на все пуговицы, быть подчеркнуто серьезным и деловым, развлечения из этой статьи не зайдут.
Читать дальше →
Всего голосов 24: ↑20 и ↓4 +16
Комментарии 5

Как определить оператора и регион по номеру телефона

Время на прочтение 6 мин
Количество просмотров 136K


Полезно знать, какого телефонного оператора выбрал клиент и в каком регионе. Тогда можно разбить клиентскую базу географически и не звонить ночами. Или проводить промоакции вместе с операторами. А некоторые наши заказчики экономят: для каждого оператора выбирают самого дешевого СМС-агрегатора.

Поэтому «Дадата» с давних пор находит оператора по номеру телефона. Алгоритм простой — сделай и пользуйся. Разве что в 2013 году, когда отменили «мобильное рабство», пришлось чуть скорректировать процесс. В этой статье расскажу, как у нас все работает.

В процессе есть большая сложность — получить доступ к базе перенесенных номеров. Частным лицам его не выдают, да и компаниям придется тяжело. Об этом — в отдельном разделе.
Читать дальше →
Всего голосов 14: ↑14 и ↓0 +14
Комментарии 33

Как посчитать «похожесть» номеров в паспортах. И найти одинаковые даже с опечатками

Время на прочтение 5 мин
Количество просмотров 10K


Продукты HFLabs ищут дублированных клиентов в базах федеральных компаний. Очевиднейший способ найти одинаковые клиентские карточки — сравнить паспорта или другие документы, удостоверяющие личность.

Раньше мы сравнивали номера документов строго: одинаковые — отлично, нет — извините. На ручной разбор из-за опечатки в номере уходили даже те карточки, у которых совпадали ФИО и адреса́ проживания. Такой подход излишне нагружал персонал заказчиков.

Поэтому мы с головой залезли в данные, изучили статистику и вывели критерии — когда разные номера действительно разные, а когда дело в опечатках. Рассказываю, как работает алгоритм.
Читать дальше →
Всего голосов 16: ↑15 и ↓1 +14
Комментарии 22

Как проверить паспорт на действительность

Время на прочтение 6 мин
Количество просмотров 200K


Реквизиты паспорта — не просто набор цифр, в них закодирован вагон информации. Если правильно расшифровывать и сопоставлять реквизиты, подозрительные документы мгновенно всплывут на поверхность. Продукты HFLabs уже 14 лет проверяют клиентские данные в банках, страховых, телекомах и другом крупном бизнесе. Расскажу, как мы распознаем ошибки в российских паспортах.
Читать дальше →
Всего голосов 134: ↑132 и ↓2 +130
Комментарии 258

Как наладить поиск адреса по координатам (и где взять нужный справочник)

Время на прочтение 10 мин
Количество просмотров 39K


Весной мы добавили в API DaData.ru фичу «Обратное геокодирование», она же «Адрес по координатам». Название намекает: метод принимает геокоординаты и отдает данные об адресе.

Солидный продукт с той же функциональностью предлагает «Яндекс» — он называется «Геокодер». Но сервис «Яндекса» бесплатен только для открытых некоммерческих проектов. Стандартный же тариф — от 120 000 ₽ в год — подходит не всем.

Мы подумали — если сделать бесплатную или недорогую альтернативу «Геокодеру», разработчики наверняка скажут спасибо. И сделали. В статье расскажу, как устроен «Адрес по координатам»: как мы наладили поиск, собрали справочник и упаковали в готовый метод.
Читать дальше →
Всего голосов 31: ↑31 и ↓0 +31
Комментарии 33

Собрали всем «Хабром» справочник «Кем выдан…» для паспортов. Качайте на здоровье

Время на прочтение 5 мин
Количество просмотров 51K


С пару месяцев назад мы поэкспериментировали: получится ли на «Хабре» собрать годный справочник подразделений, выдавших российские паспорта. Дело полезное: эти данные нужны много кому, канонического источника нет, а существующие — очень так себе.

И знаете, все получилось. Пригодный к использованию справочник готов, можно качать и пользоваться. А еще мы сделали подсказки, которые ускоряют ввод подразделений в электронные формы.
Читать дальше →
Всего голосов 57: ↑56 и ↓1 +55
Комментарии 99

Эксперимент: собираем справочник подразделений, выдавших паспорт

Время на прочтение 2 мин
Количество просмотров 23K


Самое утомительное поле при вводе паспорта — «Кем выдан». Вбивать в форму какое-нибудь «Отделом внутренних дел Медведевского района республики Марий Эл» муторно. Люди злятся, сокращают название как придется, ошибаются.

Было бы здо́рово подсказывать варианты по коду подразделения.
Читать дальше →
Всего голосов 44: ↑43 и ↓1 +42
Комментарии 77

Данные бывают смешными (и вот примеры)

Время на прочтение 4 мин
Количество просмотров 23K


Мы в HFLabs перелопачиваем колоссальное количество данных: адреса, ФИО, реквизиты компаний, документы. Весь год писали о сложных и полезных штуках, но пора и честь знать. Перед праздниками — подборка смешных данных, что нам принес 2018-й.
Читать дальше →
Всего голосов 49: ↑49 и ↓0 +49
Комментарии 69

Редактируем CSV-файлы, чтобы не сломать данные

Время на прочтение 5 мин
Количество просмотров 234K


Продукты HFLabs в промышленных объемах обрабатывают данные: адреса, ФИО, реквизиты компаний и еще вагон всего. Естественно, тестировщики ежедневно с этими данными имеют дело: обновляют тест-кейсы, изучают результаты очистки. Часто заказчики дают «живую» базу, чтобы тестировщик настроил сервис под нее.

Первое, чему мы учим новых QA — сохранять данные в первозданном виде. Все по заветам: «Не навреди». В статье я расскажу, как аккуратно работать с CSV-файлами в Excel и Open Office. Советы помогут ничего не испортить, сохранить информацию после редактирования и в целом чувствовать себя увереннее.

Материал базовый, профессионалы совершенно точно заскучают.
Читать дальше →
Всего голосов 31: ↑30 и ↓1 +29
Комментарии 32

Подсказки «Дадаты» помогают заполнить любые формы ввода. Теперь заживем

Время на прочтение 4 мин
Количество просмотров 6.5K


«Подсказки» помогают быстро и без ошибок заполнить поля ввода на сайтах и в CRM.

Данные для подсказок мы берем из разных справочников, раньше их было всего пять: ФИО, емейлы, почтовые адреса, реквизиты компаний и банков. С самого первого релиза нас просили добавить в «Подсказки» то один справочник, то другой. Мы бы и рады были, да не могли. Зато теперь можем!

С июля «Подсказки» понимают любые датасеты в формате CSV: марки автомобилей, валюты, торговые точки, хоть имена близких.

Теперь пользователи быстро и без ошибок вводят что угодно.
Читать дальше →
Всего голосов 22: ↑22 и ↓0 +22
Комментарии 11

Как интернет-магазины теряют деньги из-за адреса в форме заказа

Время на прочтение 3 мин
Количество просмотров 44K


Давненько мы не разбирали формы заказа. В этом выпуске — две ошибки, из-за которых интернет-магазины и службы доставки постоянно теряют деньги. А клиенты при этом вообще раскаляются.
Читать дальше →
Всего голосов 60: ↑55 и ↓5 +50
Комментарии 203

Боремся с ошибками и «костылями» в ЕГРЮЛ — госреестре юридических лиц

Время на прочтение 6 мин
Количество просмотров 10K


На прошлой неделе мы выпустили статью про устройство ЕГРЮЛ — госреестра с данными 10 миллионов компаний. Тот материал рассказывает о базовых вещах, поэтому начать лучше с него.

Здесь же мы раскроем богатую и благодатную тему — проблемы ЕГРЮЛа, которые не дают нашим разработчикам заскучать.
Продолжаем разговор
Всего голосов 21: ↑21 и ↓0 +21
Комментарии 13

Как устроен ЕГРЮЛ — единый госреестр юридических лиц

Время на прочтение 5 мин
Количество просмотров 29K


ЕГРЮЛ — это государственный реестр юридических лиц, в котором хранятся данные 10 миллионов российских компаний. Управляет справочником ФНС.

Из ЕГРЮЛ мы берем данные организаций для «Подсказок», «Единого клиента» и «Фактора». В статье расскажем, как мы жили до справочника, как получаем к нему доступ и как с ним работаем.
Читать дальше →
Всего голосов 31: ↑31 и ↓0 +31
Комментарии 24

Как устроены адресные подсказки «Дадаты»

Время на прочтение 6 мин
Количество просмотров 16K


«Дадата» с 2014 года пилит «Подсказки». Они помогают быстро и без ошибок вводить контактные данные: адреса, реквизиты банков и компаний, емейлы — вот это все.


Штука устроена затейливо, и мы решили о ней рассказать. Возьмем подсказки по адресам, потому что они самые сложные.


Справочники и индексация


«Подсказки» знают, что подсказывать, потому что у них есть гигантские справочники. Хоть статья эта о подсказках по адресам, для пользы дела перечислю и другие справочники «Дадаты».


Читать дальше →
Всего голосов 37: ↑37 и ↓0 +37
Комментарии 10

Пошел ты на три веселых слова! Новое геокодирование и what3words.com

Время на прочтение 4 мин
Количество просмотров 22K


В 2013 году два айтишника и музыкант собрались и подумали: давайте разобьем всю Землю на квадраты, а потом пометим каждый квадрат тремя словами. И разбили. И пометили.

Получился бесплатный сервис what3words.com, который замахнулся на революцию в геокодировании. Ребята уверяют, что почтовые адреса и координаты не годятся для повседневной жизни. Пора от них отказываться там, где возможно.
Почтовый адрес GPS-координаты Адрес What3words
Россия, Москва, Турчанинов переулок,
д 6 стр 2
55.737208, 37.597091 Именины.птичий.туннель
Казалось бы, таких революционеров пруд пруди, но у what3words.com есть важное отличие: сервис взлетел. Им пользуются автопроизводители вроде Land Rover, правительства африканских стран и даже ООН.
Читать дальше →
Всего голосов 45: ↑41 и ↓4 +37
Комментарии 52

Задача со звездочкой: как мы перекодировали ФИАС в КЛАДР

Время на прочтение 8 мин
Количество просмотров 16K


С 1 января ФНС перестанет обновлять адресный справочник КЛАДР. Он официально устареет, останется один ФИАС. Но многие промышленные системы до сих пор работают с КЛАДР. Поставщики не собираются их обновлять, а переделывать своими руками бизнесу выходит долго и дорого.

Мы послушали клиентов и придумали решение: взять ФИАС, который живее всех живых, и написать перекодировщик в КЛАДР.

Со стороны задача кажется легкой. Нам так и говорили: «То есть вы просто берете ФИАС и переделываете в КЛАДР?». На деле никакого «просто» нет. У справочников совсем разные структуры и непонятно, как из подкачанного ФИАС раскидать данные в неказистый КЛАДР. При этом общей документации для справочников нет.

Это было веселье, которым мы сейчас щедро поделимся.
Читать дальше →
Всего голосов 41: ↑39 и ↓2 +37
Комментарии 11

Как «Дадата» ищет дубли в списках торговых точек. Разбираем алгоритм

Время на прочтение 4 мин
Количество просмотров 6.3K


Наши клиенты хранят списки из тысяч компаний, и обычно там первозданный хаос.

Возьмем список торговых точек, через которые сельхозпроизводитель продает товары по всей стране. Названия магазинов пишут как хотят, поэтому типичный список выглядит так:

  1. Евразия.
  2. «САКУРА» Японская кухня.
  3. Доминант.
  4. Магазин-бутик «Евразия».
  5. Милениум, ООО, продуктовый магазин.
  6. Киви/ООО/Челябинск.
  7. Супермаркет эко-продуктов «Доминант».

Точки № 1 и № 4 — дубли, № 3 и № 7 — тоже, но поди разберись.

А разобраться надо: когда в списке из 1000 торговых точек 300 дублей, у производителя начинаются проблемы.
Что за проблемы и как мы их решаем
Всего голосов 24: ↑22 и ↓2 +20
Комментарии 14

Что можно узнать о квартире из открытых справочников

Время на прочтение 6 мин
Количество просмотров 59K


Госструктуры выкладывают в интернет справочники с десятками гигабайтов информации. Если знать где искать, можно легально собрать данные о квартирах в промышленных масштабах.

Базы с индексами и районами городов тоже открыты. Бонусом я расскажу, как найти эти части адреса, если их не хватает.

Все справочники из этой статьи бесплатны и открыто лежат в интернете. Ни один не украли из ФСБ таинственные хакеры.
Шагнуть в мир открытых справочников
Всего голосов 62: ↑61 и ↓1 +60
Комментарии 24

Информация

В рейтинге
Не участвует
Откуда
Йошкар-Ола, Марий Эл, Россия
Работает в
Дата рождения
Зарегистрирован
Активность

Специализация

Marketing Director
Lead