Как стать автором
Обновить
101
0.5
Slava Vedenin @vedenin1980

Java developer

Отправить сообщение

Как наладить поиск адреса по координатам (и где взять нужный справочник)

Время на прочтение10 мин
Количество просмотров40K


Весной мы добавили в API DaData.ru фичу «Обратное геокодирование», она же «Адрес по координатам». Название намекает: метод принимает геокоординаты и отдает данные об адресе.

Солидный продукт с той же функциональностью предлагает «Яндекс» — он называется «Геокодер». Но сервис «Яндекса» бесплатен только для открытых некоммерческих проектов. Стандартный же тариф — от 120 000 ₽ в год — подходит не всем.

Мы подумали — если сделать бесплатную или недорогую альтернативу «Геокодеру», разработчики наверняка скажут спасибо. И сделали. В статье расскажу, как устроен «Адрес по координатам»: как мы наладили поиск, собрали справочник и упаковали в готовый метод.
Читать дальше →
Всего голосов 31: ↑31 и ↓0+31
Комментарии33

Cookie-баннеры: как быстро проверить соблюдение GDPR

Время на прочтение2 мин
Количество просмотров17K
Практически любой сайт сегодня использует cookies, а если на него хотя бы иногда заходят пользователи из Европы, то сразу встает вопрос о соблюдении GDPR.

Те, кто не хочет вникать в юридические тонкости европейского регламента могут проверить cookies на соответствие GDPR и сразу получить отчет по сайту. Я же, в который раз озадачившись необходимостью установки на своих проектах cookie-баннера для европейских посетителей, взялся изучить вопрос cookies и GDPR более подробно.

Читать дальше →
Всего голосов 18: ↑17 и ↓1+16
Комментарии25

Как работают поисковые системы

Время на прочтение28 мин
Количество просмотров77K
Мы разбирали старые письма и наткнулись на статью, которую писал Илья Сегалович iseg для журнала «Мир Internet» в далёком 2002 году. В ней он сравнивает интернет и поисковые системы с чудесами света, размышляет о поисковых технологиях и вспоминает их историю. Несмотря на загруженность по работе, Илья написал статью в рекордные сроки и даже снабдил достаточно подробным словарём терминов, который особенно интересно читать в наши дни. Нам не удалось найти электронную версию журнала со статьей, поэтому сегодня мы публикуем её в нашем блоге, первым автором которого, к слову, был Илья.



Читать дальше →
Всего голосов 93: ↑91 и ↓2+89
Комментарии13

CI\CD для стартапа: какие есть инструменты, и почему ими пользуются не только крупные и известные компании

Время на прочтение5 мин
Количество просмотров18K
Разработчики CI\CD-инструментов часто указывают в качестве клиентов крупные компании — Microsoft, Oculus, Red Hat, даже Ferrari и NASA. Казалось бы, что такие бренды работают только с дорогими системами, которые не сможет позволить себе условный стартап из пары разработчиков и дизайнера. Но значительная часть инструментов доступна и для небольших команд.

На что можно обратить внимание — расскажем далее.

Читать дальше →
Всего голосов 24: ↑21 и ↓3+18
Комментарии22

Вы придумали идею IT-продукта, что дальше

Время на прочтение21 мин
Количество просмотров26K
Наверняка каждому из вас приходили в голову идеи новых интересных полезных продуктов – услуг, приложений или устройств. Возможно, кто-то из вас даже что-то разрабатывал и публиковал, может даже пытался на этом заработать.

В этой статье я покажу несколько методик работы над бизнес-идеей – о чем стоит задуматься сразу, какие показатели рассчитать, какие работы спланировать в первую очередь чтобы проверить идею в короткие сроки и с минимальными расходами.
Читать дальше →
Всего голосов 36: ↑35 и ↓1+34
Комментарии16

Новости из мира OpenStreetMap № 467 (25.06.2019-01.07.2019)

Время на прочтение7 мин
Количество просмотров2.2K

Logo


Сравнение качества внесенных данных в OSM с открытыми данными, позволяют сделать дорожную сеть еще лучше 1 | Map data gRoads and OpenStreetMap contributors, ODbL



Картографирование


  • Новая функция онлайн-редактора iD, которая позволяет добавлять теги Wikidata и Wikipedia для брендов розничных сетей, не всегда работает корректно: иногда ошибочно отмечаются заведения с очень похожими именами. Об этом пишет пользователь bikeoid в одном из сообщений об ошибке на GiHub'e. В качестве одного из возможных решений проблемы предлагается использовать тег not:brand:wikidata=, что позволит избежать повторного добавления тега. Куинси Морган (один из двух разработчиков iD), отмечает, что прежде чем использовать тег, его сначала необходимо утвердить согласно правил OSM.
Читать дальше →
Всего голосов 15: ↑15 и ↓0+15
Комментарии0

Кругом враги. Как параноику планировать свою работу

Время на прочтение14 мин
Количество просмотров32K
Казалось бы, что сложного может быть в планировании своей работы? Берёшь листок бумаги, записываешь на нём задачи, делаешь — всё просто. Но в реальности планирование почему-то не работает «из коробки».



Приходит вот такой страшный зверь и самым наглым образом всё портит. Каждый из вас пробовал что-нибудь планировать и знает, о чем речь. То есть планировать можно сколько угодно, обещать выпустить проект за 2 месяца, а делать его полгода и так далее.

Сейчас расскажу, почему так происходит. А главное — какие из «250 способов все успевать» работают и за счет каких механизмов нашего мозга.
Читать дальше →
Всего голосов 61: ↑58 и ↓3+55
Комментарии27

Яндекс открывает датасеты Толоки для исследователей

Время на прочтение6 мин
Количество просмотров33K
Толока — крупнейший источник размеченных людьми данных для задач машинного обучения. Каждый день в Толоке десятки тысяч исполнителей производят более 5 миллионов оценок. Для любых исследований и экспериментов, связанных с машинным обучением, необходимы большие объёмы качественных данных. Поэтому мы начинаем публиковать открытые датасеты для академических исследований в разных предметных областях.

Сегодня мы поделимся ссылками на первые публичные датасеты и расскажем о том, как они собирались. А ещё подскажем, где же правильно ставить ударение в названии нашей платформы.
Читать дальше →
Всего голосов 83: ↑81 и ↓2+79
Комментарии27

Рекомендательные системы: идеи, подходы, задачи

Время на прочтение11 мин
Количество просмотров49K


Многие привыкли ставить оценку фильму на КиноПоиске или imdb после просмотра, а разделы «С этим товаром также покупали» и «Популярные товары» есть в любом интернет- магазине. Но существуют и менее привычные виды рекомендаций. В этой статье я расскажу о том, какие задачи решают рекомендательные системы, куда бежать и что гуглить.
Читать дальше →
Всего голосов 34: ↑33 и ↓1+32
Комментарии7

Умный парсер числа, записанного прописью

Время на прочтение10 мин
Количество просмотров30K


Пролог


Добрый день, уважаемые читатели. В данной статье я расскажу о том, как распарсить число, записанное прописью на русском языке.


Умным данный парсер делает возможность извлечения чисел из текста с ошибками, допущенными в результате некорректного ввода или в результате оптического распознавания текста из изображения (OCR).


Для ленивых:
Ссылка на проект github: ссылка.


Читать дальше →
Всего голосов 137: ↑136 и ↓1+135
Комментарии59

Новости из мира OpenStreetMap № 461 (14.05.2019-20.05.2019)

Время на прочтение4 мин
Количество просмотров2K

pic


Можно ли избежать дорожного движения в городе?1 | Hans Hack map data OpenStreetMap



Картографирование



Сообщество


  • Вот уже несколько недель подряд блоги на osm.org подвергаются спам-атаке. Некоторые члены сообщества предлагают принять контрмеры, например, ввести премодерацию дневников всех новых участников проекта. Пользователь alexkemp, который уже ранее поднимал эту тему на форуме, предполагает, что текущая волна спама — это только начало.
  • Фонд OSM в Японии провел встречу(ja) с целью сплочения местного сообщества, в которой приняли участие, как члены совета этого фонда, так и простые картографы. Было озвучено много предложений по развитию сообщества, в том числе и о повышении качества организации картопати и продвижении OSM.
  • Илья Зверев в своем блоге «ШТОСМ» размышляет (ссылка ведет на пост в Telegram-канале) о том, зачем в XXI веке могут понадобиться бумажные карты.
Читать дальше →
Всего голосов 12: ↑12 и ↓0+12
Комментарии1

Подборка датасетов для машинного обучения

Время на прочтение6 мин
Количество просмотров148K
Привет, читатель!

Меня зовут Рушан, и я автор Telegram‑канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие статьи.

Перед тобой статья-путеводитель по открытым наборам данных для машинного обучения. В ней я, для начала, соберу подборку интересных и свежих (относительно) датасетов. А бонусом, в конце статьи, прикреплю полезные ссылки по самостоятельному поиску датасетов.

Меньше слов, больше данных.

image

Подборка датасетов для машинного обучения:


Читать дальше →
Всего голосов 66: ↑64 и ↓2+62
Комментарии6

Python — помощник в поиске недорогих авиабилетов для тех, кто любит путешествовать

Время на прочтение15 мин
Количество просмотров26K
Автор статьи, перевод которой мы публикуем сегодня, говорит, что её цель — рассказать о разработке веб-скрапера на Python с использованием Selenium, который выполняет поиск цен на авиабилеты. При поиске билетов используются гибкие даты (+- 3 дня относительно указанных дат). Скрапер сохраняет результаты поиска в Excel-файле и отправляет тому, кто его запустил, электронное письмо с общими сведениями о том, что ему удалось найти. Задача этого проекта — помощь путешественникам в поиске наиболее выгодных предложений.



Если вы, разбираясь с материалом, почувствуете, что потерялись — взгляните на эту статью.
Читать дальше →
Всего голосов 44: ↑38 и ↓6+32
Комментарии23

Огромный открытый датасет русской речи

Время на прочтение3 мин
Количество просмотров36K
image

Специалистам по распознаванию речи давно не хватало большого открытого корпуса устной русской речи, поэтому только крупные компании могли позволить себе заниматься этой задачей, но они не спешили делиться своими наработками.

Мы торопимся исправить это годами длящееся недоразумение.

Итак, мы предлагаем вашему вниманию набор данных из 4000 часов аннотированной устной речи, собранный из различных интернет-источников.

Подробности под катом.
Читать дальше →
Всего голосов 101: ↑96 и ↓5+91
Комментарии50

Правда про парсинг сайтов, или «все интернет-магазины делают это»

Время на прочтение11 мин
Количество просмотров116K
В этой статье я постараюсь наиболее просто рассказать о парсинге сайтов и его основных нюансах. Моя компания занимается парсингом сайтов уже более трёх лет и ежедневно мы парсим около 300 сайтов. Я обычно открыто пишу об этом в соц.сетях (плюс мы много чего из итогов парсинга крупнейших магазинов России выкладываем бесплатно — публично), что вызывает бурные обсуждения и неодобрение со стороны пользователей. Забавно после прочтения комментариев заглядывать к себе в личку и читать сообщения с предложениями о сотрудничестве от тех же людей, кто только что осуждал нас в комментариях под постом :) Вся статья будет в формате наиболее часто задаваемых вопросов и честных ответов (материал маркетинговый, не технический).
Читать дальше →
Всего голосов 126: ↑110 и ↓16+94
Комментарии411

Другой GitHub: репозитории по Data Science, визуализации данных и глубокому обучению

Время на прочтение6 мин
Количество просмотров34K

(с)

Гитхаб — это не просто площадка для хостинга и совместной разработки IT-проектов, но и огромная база знаний, составленная сотнями экспертов. К счастью, сервис предоставляет не просто инструменты для работы с открытым исходным кодом, но и качественные материалы для обучения. Мы выбрали некоторые популярные репозитории и отсортировали их по количеству звезд в порядке убывания.

Эта подборка поможет разобраться, на какие именно репозитории стоит обратить внимание, если вас интересует работа с данными и сфера глубокого обучения.
Читать дальше →
Всего голосов 58: ↑55 и ↓3+52
Комментарии10

Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks

Время на прочтение6 мин
Количество просмотров19K


Несмотря на то, что в интернете существует множество источников свободного программного обеспечения для машинного обучения, Github остается важным центром обмена информацией для всех типов инструментов с открытым исходным кодом, используемых в сообществе специалистов по машинному обучению и анализу данных.

В этой подборке собраны репозитории по машинному обучению, датасетам и Jupyter Notebooks, ранжированные по количеству звезд. В предыдущей части мы рассказывали о популярных репозиториях для изучения работ по визуализации данных и глубокому обучению.
Читать дальше →
Всего голосов 47: ↑45 и ↓2+43
Комментарии1

ПО для машинного обучения на Python

Время на прочтение7 мин
Количество просмотров37K


Сегодня существует большое количество программных инструментов для создания моделей Machine Learning. Первые такие инструменты формировались в среде ученых и статистиков, где популярны языки R и Python, исторически сложились экосистемы для обработки, анализа и визуализации данных именно на этих языках, хотя определенные библиотеки машинного обучения есть и для Java, Lua, С++. При этом интерпретируемые языки программирования существенно медленнее компилируемых, поэтому на интерпретируемом языке описывают подготовку данных и структуру моделей, а основные вычисления проводят на компилируемом языке.

В данном посте мы расскажем преимущественно о библиотеках, имеющих реализацию на Python, поскольку этот язык обладает большим количеством пакетов для интеграции в разного рода сервисы и системы, а также для написания различных информационных систем. Материал содержит общее описание известных библиотек и будет полезен прежде всего тем, кто начинает изучать область ML и хочет примерно понимать, где искать реализации тех или иных методов.
Читать дальше →
Всего голосов 53: ↑39 и ↓14+25
Комментарии19

$126 за 5 минут: как использовать ценовую разницу для стран против маркетологов

Время на прочтение4 мин
Количество просмотров90K
Привет, Geektimes! Не за горами 12 июня, а значит, нас снова ждут длинные выходные. Как и в мае, многие россияне улетят в небольшой отпуск, чтобы отдохнуть от суеты. Поэтому в преддверии июньских выходных мы решили коснуться интересной и прикладной темы — как сэкономить деньги, используя VPN.

Самое простое — экономия на аренде автомобиля.

Пример: бронируем автомобиль в Брисбане (Австралия), сначала используя швейцарский IP:


Теперь меняем IP-адрес на США и пробуем снова:


Сэкономили $9 в день. Представьте, что вы едете путешествовать по Австралии на 2 недели. Соответственно, вы сэкономите $126, что очень неплохо. Сервисы по аренде автомобилей предлагают разные цены и предложения в зависимости от страны. Если вы попробуете забронировать автомобиль, допустим, из США, России и Бангкока, цены будут отличаться.

Разберем подробнее и другие примеры:
Читать дальше →
Всего голосов 120: ↑118 и ↓2+116
Комментарии140

Как сделать так, чтобы вашу англоязычную статью для Хабра прочитали десятки тысяч человек: 3 простых совета

Время на прочтение3 мин
Количество просмотров9.7K


Англоязычная версия Хабра существует уже какое-то время. Все больше пользователей пробуют свои силы в переводе своих русскоязычных статей и написании новых. Я очень много пишу на английском по работе, и вижу некоторые повторяющиеся ошибки, которые не позволяют таким статьям привлекать большое количество читателей.

В этом топике я собрал три простых совета по повышению читабельности хабрастатей и привлечению англоязычных читателей. Надеюсь, будет полезно.
Читать дальше →
Всего голосов 89: ↑83 и ↓6+77
Комментарии42

Информация

В рейтинге
1 673-й
Откуда
Luxemburg, Luxembourg, Люксембург
Дата рождения
Зарегистрирован
Активность