Как стать автором

Slava Vedenin @vedenin1980

Java developer

Профиль Публикации 8Комментарии 8KЗакладки 254

DEADStop 19 сен 2019 в 15:29

Как наладить поиск адреса по координатам (и где взять нужный справочник)

10 мин

40K

API*Геоинформационные сервисы*Открытые данные*Блог компании HFLabsРазработка под e-commerce*

Весной мы добавили в API DaData.ru фичу «Обратное геокодирование», она же «Адрес по координатам». Название намекает: метод принимает геокоординаты и отдает данные об адресе.

Солидный продукт с той же функциональностью предлагает «Яндекс» — он называется «Геокодер». Но сервис «Яндекса» бесплатен только для открытых некоммерческих проектов. Стандартный же тариф — от 120 000 ₽ в год — подходит не всем.

Мы подумали — если сделать бесплатную или недорогую альтернативу «Геокодеру», разработчики наверняка скажут спасибо. И сделали. В статье расскажу, как устроен «Адрес по координатам»: как мы наладили поиск, собрали справочник и упаковали в готовый метод.

Читать дальше →

+31

perezanov 24 июн 2019 в 15:32

Cookie-баннеры: как быстро проверить соблюдение GDPR

2 мин

17K

Веб-разработка*Законодательство в IT

Из песочницы

Практически любой сайт сегодня использует cookies, а если на него хотя бы иногда заходят пользователи из Европы, то сразу встает вопрос о соблюдении GDPR.

Те, кто не хочет вникать в юридические тонкости европейского регламента могут проверить cookies на соответствие GDPR и сразу получить отчет по сайту. Я же, в который раз озадачившись необходимостью установки на своих проектах cookie-баннера для европейских посетителей, взялся изучить вопрос cookies и GDPR более подробно.

Читать дальше →

+16

Christina29 27 авг 2019 в 10:00

Как работают поисковые системы

28 мин

77K

Поисковые технологии*Блог компании ЯндексМатематика*IT-компании

Мы разбирали старые письма и наткнулись на статью, которую писал Илья Сегалович iseg для журнала «Мир Internet» в далёком 2002 году. В ней он сравнивает интернет и поисковые системы с чудесами света, размышляет о поисковых технологиях и вспоминает их историю. Несмотря на загруженность по работе, Илья написал статью в рекордные сроки и даже снабдил достаточно подробным словарём терминов, который особенно интересно читать в наши дни. Нам не удалось найти электронную версию журнала со статьей, поэтому сегодня мы публикуем её в нашем блоге, первым автором которого, к слову, был Илья.

Читать дальше →

+89

itglobalcom 20 июл 2019 в 09:11

CI\CD для стартапа: какие есть инструменты, и почему ими пользуются не только крупные и известные компании

5 мин

18K

Разработка под e-commerce*Учебный процесс в ITРазвитие стартапаБлог компании ГК ITGLOBAL.COM

Разработчики CI\CD-инструментов часто указывают в качестве клиентов крупные компании — Microsoft, Oculus, Red Hat, даже Ferrari и NASA. Казалось бы, что такие бренды работают только с дорогими системами, которые не сможет позволить себе условный стартап из пары разработчиков и дизайнера. Но значительная часть инструментов доступна и для небольших команд.

На что можно обратить внимание — расскажем далее.

Читать дальше →

+18

igor-sheludko 18 июл 2019 в 15:26

Вы придумали идею IT-продукта, что дальше

21 мин

26K

Развитие стартапаУправление продуктом*Читальный зал

Наверняка каждому из вас приходили в голову идеи новых интересных полезных продуктов – услуг, приложений или устройств. Возможно, кто-то из вас даже что-то разрабатывал и публиковал, может даже пытался на этом заработать.

В этой статье я покажу несколько методик работы над бизнес-идеей – о чем стоит задуматься сразу, какие показатели рассчитать, какие работы спланировать в первую очередь чтобы проверить идею в короткие сроки и с минимальными расходами.

Читать дальше →

+34

Sildream 9 июл 2019 в 15:54

Новости из мира OpenStreetMap № 467 (25.06.2019-01.07.2019)

7 мин

2.2K

OpenStreetMap*Геоинформационные сервисы*Социальные сети и сообщества

Перевод

Logo

Сравнение качества внесенных данных в OSM с открытыми данными, позволяют сделать дорожную сеть еще лучше ¹ | Map data gRoads and OpenStreetMap contributors, ODbL

Картографирование

Новая функция онлайн-редактора iD, которая позволяет добавлять теги Wikidata и Wikipedia для брендов розничных сетей, не всегда работает корректно: иногда ошибочно отмечаются заведения с очень похожими именами. Об этом пишет пользователь bikeoid в одном из сообщений об ошибке на GiHub'e. В качестве одного из возможных решений проблемы предлагается использовать тег not:brand:wikidata=, что позволит избежать повторного добавления тега. Куинси Морган (один из двух разработчиков iD), отмечает, что прежде чем использовать тег, его сначала необходимо утвердить согласно правил OSM.

Читать дальше →

+15

grigoryvp 9 июл 2019 в 11:56

Кругом враги. Как параноику планировать свою работу

14 мин

32K

Блог компании Конференции Олега Бунина (Онтико)Управление разработкой*Управление проектами*GTD*Лайфхаки для гиков

Казалось бы, что сложного может быть в планировании своей работы? Берёшь листок бумаги, записываешь на нём задачи, делаешь — всё просто. Но в реальности планирование почему-то не работает «из коробки».

Приходит вот такой страшный зверь и самым наглым образом всё портит. Каждый из вас пробовал что-нибудь планировать и знает, о чем речь. То есть планировать можно сколько угодно, обещать выпустить проект за 2 месяца, а делать его полгода и так далее.

Сейчас расскажу, почему так происходит. А главное — какие из «250 способов все успевать» работают и за счет каких механизмов нашего мозга.

Читать дальше →

+55

TolokaTeam 1 июл 2019 в 13:03

Яндекс открывает датасеты Толоки для исследователей

6 мин

33K

Блог компании ЯндексData Mining*Открытые данные*Исследования и прогнозы в IT*Краудсорсинг

Толока — крупнейший источник размеченных людьми данных для задач машинного обучения. Каждый день в Толоке десятки тысяч исполнителей производят более 5 миллионов оценок. Для любых исследований и экспериментов, связанных с машинным обучением, необходимы большие объёмы качественных данных. Поэтому мы начинаем публиковать открытые датасеты для академических исследований в разных предметных областях.

Сегодня мы поделимся ссылками на первые публичные датасеты и расскажем о том, как они собирались. А ещё подскажем, где же правильно ставить ударение в названии нашей платформы.

Читать дальше →

+79

Darel13712 29 мая 2019 в 12:31

Рекомендательные системы: идеи, подходы, задачи

11 мин

49K

Анализ и проектирование систем*Алгоритмы*Блог компании Инфосистемы ДжетМашинное обучение*

Многие привыкли ставить оценку фильму на КиноПоиске или imdb после просмотра, а разделы «С этим товаром также покупали» и «Популярные товары» есть в любом интернет- магазине. Но существуют и менее привычные виды рекомендаций. В этой статье я расскажу о том, какие задачи решают рекомендательные системы, куда бежать и что гуглить.

Читать дальше →

+32

Doomer3D 27 мая 2019 в 12:18

Умный парсер числа, записанного прописью

10 мин

30K

Программирование*.NET*Алгоритмы*Обработка изображений*C#*

Пролог

Добрый день, уважаемые читатели. В данной статье я расскажу о том, как распарсить число, записанное прописью на русском языке.

Умным данный парсер делает возможность извлечения чисел из текста с ошибками, допущенными в результате некорректного ввода или в результате оптического распознавания текста из изображения (OCR).

Для ленивых:
Ссылка на проект github: ссылка.

Читать дальше →

+135

Sildream 27 мая 2019 в 10:33

Новости из мира OpenStreetMap № 461 (14.05.2019-20.05.2019)

4 мин

2K

OpenStreetMap*Геоинформационные сервисы*Социальные сети и сообщества

Перевод

Можно ли избежать дорожного движения в городе?¹ | Hans Hack map data OpenStreetMap

Картографирование

Новая схема тегирования police=* утверждена 30 голосами.

Сообщество

Вот уже несколько недель подряд блоги на osm.org подвергаются спам-атаке. Некоторые члены сообщества предлагают принять контрмеры, например, ввести премодерацию дневников всех новых участников проекта. Пользователь alexkemp, который уже ранее поднимал эту тему на форуме, предполагает, что текущая волна спама — это только начало.
Фонд OSM в Японии провел встречу с целью сплочения местного сообщества, в которой приняли участие, как члены совета этого фонда, так и простые картографы. Было озвучено много предложений по развитию сообщества, в том числе и о повышении качества организации картопати и продвижении OSM.
Илья Зверев в своем блоге «ШТОСМ» размышляет (ссылка ведет на пост в Telegram-канале) о том, зачем в XXI веке могут понадобиться бумажные карты.

Читать дальше →

+12

Syurmakov 19 мая 2019 в 19:23

Подборка датасетов для машинного обучения

6 мин

148K

Python*Data Mining*Машинное обучение*Искусственный интеллект

Привет, читатель!

Меня зовут Рушан, и я автор Telegram‑канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие статьи.

Перед тобой статья-путеводитель по открытым наборам данных для машинного обучения. В ней я, для начала, соберу подборку интересных и свежих (относительно) датасетов. А бонусом, в конце статьи, прикреплю полезные ссылки по самостоятельному поиску датасетов.

Меньше слов, больше данных.

Подборка датасетов для машинного обучения:

Данные смертей и сражений из игры престолов — этот набор данных объединяет три источника данных, каждый из которых основан на информации из серии книг.
Глобальная база данных терроризма — Более 180 000 террористических атак по всему миру, 1970-2017.
Биткойн, исторические данные — данные биткойнов с интервалом в 1 минуту с избранных бирж, январь 2012 г. — март 2019 г.

Читать дальше →

+62

ru_vds 16 мая 2019 в 12:00

Python — помощник в поиске недорогих авиабилетов для тех, кто любит путешествовать

15 мин

26K

Веб-разработка*Python*Хранение данных*Блог компании RUVDS.com

Перевод

Автор статьи, перевод которой мы публикуем сегодня, говорит, что её цель — рассказать о разработке веб-скрапера на Python с использованием Selenium, который выполняет поиск цен на авиабилеты. При поиске билетов используются гибкие даты (+- 3 дня относительно указанных дат). Скрапер сохраняет результаты поиска в Excel-файле и отправляет тому, кто его запустил, электронное письмо с общими сведениями о том, что ему удалось найти. Задача этого проекта — помощь путешественникам в поиске наиболее выгодных предложений.

Если вы, разбираясь с материалом, почувствуете, что потерялись — взгляните на эту статью.

Читать дальше →

+32

buriy 6 мая 2019 в 21:36

Огромный открытый датасет русской речи

3 мин

36K

Open source*Открытые данные*Машинное обучение*Звук

Специалистам по распознаванию речи давно не хватало большого открытого корпуса устной русской речи, поэтому только крупные компании могли позволить себе заниматься этой задачей, но они не спешили делиться своими наработками.

Мы торопимся исправить это годами длящееся недоразумение.

Итак, мы предлагаем вашему вниманию набор данных из 4000 часов аннотированной устной речи, собранный из различных интернет-источников.

Подробности под катом.

Читать дальше →

+91

makasin4ik 3 апр 2019 в 15:21

Правда про парсинг сайтов, или «все интернет-магазины делают это»

11 мин

116K

Веб-аналитика*Интернет-маркетинг*Управление e-commerce*Контент и копирайтинг*

В этой статье я постараюсь наиболее просто рассказать о парсинге сайтов и его основных нюансах. Моя компания занимается парсингом сайтов уже более трёх лет и ежедневно мы парсим около 300 сайтов. Я обычно открыто пишу об этом в соц.сетях (плюс мы много чего из итогов парсинга крупнейших магазинов России выкладываем бесплатно — публично), что вызывает бурные обсуждения и неодобрение со стороны пользователей. Забавно после прочтения комментариев заглядывать к себе в личку и читать сообщения с предложениями о сотрудничестве от тех же людей, кто только что осуждал нас в комментариях под постом :) Вся статья будет в формате наиболее часто задаваемых вопросов и честных ответов (материал маркетинговый, не технический).

Читать дальше →

+94

Barrayar 29 янв 2019 в 09:57

Другой GitHub: репозитории по Data Science, визуализации данных и глубокому обучению

6 мин

34K

Блог компании VKВизуализация данных*GitHub*Машинное обучение*

(с)

Гитхаб — это не просто площадка для хостинга и совместной разработки IT-проектов, но и огромная база знаний, составленная сотнями экспертов. К счастью, сервис предоставляет не просто инструменты для работы с открытым исходным кодом, но и качественные материалы для обучения. Мы выбрали некоторые популярные репозитории и отсортировали их по количеству звезд в порядке убывания.

Эта подборка поможет разобраться, на какие именно репозитории стоит обратить внимание, если вас интересует работа с данными и сфера глубокого обучения.

Читать дальше →

+52

randall 27 мар 2019 в 15:06

Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks

6 мин

19K

Блог компании VKВизуализация данных*GitHub*Машинное обучение*

Несмотря на то, что в интернете существует множество источников свободного программного обеспечения для машинного обучения, Github остается важным центром обмена информацией для всех типов инструментов с открытым исходным кодом, используемых в сообществе специалистов по машинному обучению и анализу данных.

В этой подборке собраны репозитории по машинному обучению, датасетам и Jupyter Notebooks, ранжированные по количеству звезд. В предыдущей части мы рассказывали о популярных репозиториях для изучения работ по визуализации данных и глубокому обучению.

Читать дальше →

+43

JetHabr 3 июл 2018 в 11:30

ПО для машинного обучения на Python

7 мин

37K

Python*Блог компании Инфосистемы ДжетМашинное обучение*

Сегодня существует большое количество программных инструментов для создания моделей Machine Learning. Первые такие инструменты формировались в среде ученых и статистиков, где популярны языки R и Python, исторически сложились экосистемы для обработки, анализа и визуализации данных именно на этих языках, хотя определенные библиотеки машинного обучения есть и для Java, Lua, С++. При этом интерпретируемые языки программирования существенно медленнее компилируемых, поэтому на интерпретируемом языке описывают подготовку данных и структуру моделей, а основные вычисления проводят на компилируемом языке.

В данном посте мы расскажем преимущественно о библиотеках, имеющих реализацию на Python, поскольку этот язык обладает большим количеством пакетов для интеграции в разного рода сервисы и системы, а также для написания различных информационных систем. Материал содержит общее описание известных библиотек и будет полезен прежде всего тем, кто начинает изучать область ML и хочет примерно понимать, где искать реализации тех или иных методов.

Читать дальше →

+25

markus_saar 23 мая 2017 в 11:10

$126 за 5 минут: как использовать ценовую разницу для стран против маркетологов

4 мин

90K

Блог компании HideMy.nameКопирайтЛайфхаки для гиков

Привет, Geektimes! Не за горами 12 июня, а значит, нас снова ждут длинные выходные. Как и в мае, многие россияне улетят в небольшой отпуск, чтобы отдохнуть от суеты. Поэтому в преддверии июньских выходных мы решили коснуться интересной и прикладной темы — как сэкономить деньги, используя VPN.

Самое простое — экономия на аренде автомобиля.

Пример: бронируем автомобиль в Брисбане (Австралия), сначала используя швейцарский IP:

Теперь меняем IP-адрес на США и пробуем снова:

Сэкономили $9 в день. Представьте, что вы едете путешествовать по Австралии на 2 недели. Соответственно, вы сэкономите $126, что очень неплохо. Сервисы по аренде автомобилей предлагают разные цены и предложения в зависимости от страны. Если вы попробуете забронировать автомобиль, допустим, из США, России и Бангкока, цены будут отличаться.

Разберем подробнее и другие примеры:

Читать дальше →

+116

alexlash 18 мар 2019 в 18:55

Как сделать так, чтобы вашу англоязычную статью для Хабра прочитали десятки тысяч человек: 3 простых совета

3 мин

9.7K

Интернет-маркетинг*Контент и копирайтинг*

Англоязычная версия Хабра существует уже какое-то время. Все больше пользователей пробуют свои силы в переводе своих русскоязычных статей и написании новых. Я очень много пишу на английском по работе, и вижу некоторые повторяющиеся ошибки, которые не позволяют таким статьям привлекать большое количество читателей.

В этом топике я собрал три простых совета по повышению читабельности хабрастатей и привлечению англоязычных читателей. Надеюсь, будет полезно.

Читать дальше →

+77

4

5 6 ...