Дмитрий Ширшаков @Shirshakov

BigData, аналитика, ML

Профиль Публикации 2Комментарии 8Закладки 163

amkruglov 27 ноя 2018 в 10:01

Continuous integration в Яндексе. Часть 2

11 мин

12K

Веб-разработка*Блог компании ЯндексРазработка мобильных приложений*IT-инфраструктура*Разработка под Windows*

В предыдущей статье мы рассказали про перенос разработки в единый репозиторий с trunk-based подходом к разработке, с едиными системами сборки, тестирования, деплоя и мониторинга, про то, какие задачи должна решать система непрерывной интеграции для эффективной работы в таких условиях.

Сегодня мы расскажем читателям Хабра про устройство системы непрерывной интеграции.

Система непрерывной интеграции должна работать надежно и быстро. Система должна быстро реагировать на поступающие события и не должна вносить дополнительных задержек в процесс доставки результатов запуска тестов до пользователя. Результаты сборки и тестирования нужно доставлять до пользователя в режиме реального времени.

Читать дальше →

+23

amkruglov 8 ноя 2018 в 10:02

Continuous integration в Яндексе

10 мин

36K

Веб-разработка*Блог компании ЯндексРазработка мобильных приложений*IT-инфраструктура*Разработка под Windows*

Поддержка огромной кодовой базы с одновременным обеспечением высокой производительности большого числа разработчиков — это серьезный вызов. В течение последних 5 лет в Яндексе идет разработка особой системы непрерывной интеграции. В данной статье мы расскажем про масштаб кодовой базы Яндекса, про перенос разработки в единый репозиторий с trunk-based подходом к разработке, про то, какие задачи должна решать система непрерывной интеграции для эффективной работы в таких условиях.

Много лет назад в Яндексе никаких особенных правил в разработке сервисов не было: каждый отдел мог использовать любые языки, любые технологии, любые системы деплоя. И как показала практика, такая свобода не всегда помогала двигаться вперед быстрее. В то время для решения одних и тех же задач часто существовало несколько собственных или open-source разработок. С ростом компании такая экосистема работала всё хуже. При этом мы хотели остаться одним большим Яндексом, а не разделиться на множество независимых компаний, потому что это дает массу преимуществ: много людей делают одни похожие задачи, результаты их труда можно использовать повторно. Начиная от разнообразных структур данных, типа распределённых хеш-таблиц и lock-free очередей, и заканчивая множеством разного специализированного кода, который мы написали за 20 лет.

Читать дальше →

+42

100

Shirshakov 14 июн 2018 в 07:10

Зимой и летом одним цветом? Поиск сезонности в данных

8 мин

10K

Программирование*Анализ и проектирование систем*Блог компании 2ГИСData Mining*Разработка под Windows*

Однажды мы решили посмотреть, какие сезонные интересы есть у пользователей 2ГИС в разных городах. Всплески интереса к цветам, новогодним подаркам и шинам — вполне ожидаемы. Мы решили ими не ограничиваться и пойти дальше, проверив все сферы деятельности во всех 113 городах присутствия.

В этой статье я расскажу, как мы искали сезонности и какие особенности поведения пользователей в них обнаружили.

Что же ищут пользователи?

+31

m1rko 2 ноя 2018 в 16:14

Парадокс времени ожидания, или почему мой автобус всегда опаздывает?

11 мин

69K

Data Mining*Алгоритмы*Математика*Научно-популярноеУрбанизм

Перевод

Источник: Wikipedia License CC-BY-SA 3.0

Если вы часто ездите на общественном транспорте, то наверняка встречались с такой ситуацией:

Вы приходите на остановку. Написано, что автобус ходит каждые 10 минут. Засекаете время… Наконец, через 11 минут приходит автобус и мысль: почему мне всегда не везёт?

По идее, если автобусы приходят каждые 10 минут, а вы придёте в случайное время, то среднее ожидание должно составлять около 5 минут. Но в действительности автобусы не прибывают точно по расписанию, поэтому вы можете ждать дольше. Оказывается, при некоторых разумных предположениях можно прийти к поразительному выводу:

При ожидании автобуса, который приходит в среднем каждые 10 минут, ваше среднее время ожидания будет 10 минут.

Это то, что иногда называют парадоксом времени ожидания.

Читать дальше →

+82

fantast8 1 ноя 2018 в 22:45

Яндекс.Метеум – технология без технологии. Маркетинг с точностью до района

11 мин

46K

Геоинформационные сервисы*Машинное обучение*Научно-популярное

Прошло ровно 3 года с момента запуска сервиса «Яндекс.Метеум», который по заявлению разработчиков выдаёт самые качественные прогнозы среди всех прогностических сайтов. Пришло время подвести итоги. Действительно ли новый продукт Яндекса является революционным или всё это лишь маркетинговый пшик? И как команде ученых из Гидрометцентра России удалось обойти Яндекс и создать по-настоящему качественный прогноз.

Для начала представлюсь. Меня зовут Илья Винштейн, я синоптик-любитель из Кургана. Занимаюсь метеорологией 14 лет. Администрирую свой региональный проект «Погода 45», давал несколько лекций для научно-просветительского проекта «Курилка Гутенберга».

Читать дальше →

+128

177

egorpetrov 25 фев 2016 в 22:38

Справочник по синхронизаторам java.util.concurrent.*

14 мин

275K

Java*

Туториал

Целью данной публикации не является полный анализ синхронизаторов из пакета java.util.concurrent. Пишу её, прежде всего, как справочник, который облегчит вхождение в тему и покажет возможности практического применения классов для синхронизации потоков (далее поток = thread).

В java.util.concurrent много различных классов, которые по функционалу можно поделить на группы: Concurrent Collections, Executors, Atomics и т.д. Одной из этих групп будет Synchronizers (синхронизаторы).

Синхронизаторы – вспомогательные утилиты для синхронизации потоков, которые дают возможность разработчику регулировать и/или ограничивать работу потоков и предоставляют более высокий уровень абстракции, чем основные примитивы языка (мониторы).

+37

DmitrySpb79 26 окт 2018 в 23:38

Python: как уменьшить расход памяти вдвое, добавив всего одну строчку кода?

5 мин

71K

Высокая производительность*Python*Программирование*

Привет habr.

В одном проекте, где необходимо было хранить и обрабатывать довольно большой динамический список, тестировщики стали жаловаться на нехватку памяти. Простой способ, как «малой кровью» исправить проблему, добавив лишь одну строку кода, описан ниже. Результат на картинке:

Как это работает, продолжение под катом.

Читать дальше →

+97

VElmogA 24 окт 2018 в 10:18

Из Сибири на Кипр и обратно — история несостоявшегося эмигранта

4 мин

37K

Блог компании PleskIT-эмиграция

Главный вопрос — если бы сейчас, зная, как все случилось, я бы снова стоял перед выбором — ехать или не ехать — я бы поехал. Я не жалею ни о чем, этот опыт сильно расширил границы восприятия действительности.

Что же произошло? Начало новосибирского лета, я полгода работаю devops’ом в хорошей компании, прошел адаптацию, вышел на «проектную» мощность и только-только начал приносить пользу. И в этот момент жизнь предлагает мне круто себя поменять и ввязаться в авантюру под названием работа за границей. Времени на раздумья очень мало, решение нужно принять за неделю. Раньше меня посещали мысли, что когда-нибудь было бы хорошо за границу перебраться и попробовать дать другое образование своим детям. Но на деле это все было только в рассуждениях, на практике я не делал ничего для приближения к ним. А тут судьба рушит много преград, и можно осуществить это относительно легко и непринужденно. За короткое время я собираю множество противоречивой информации о стране, о компании, о жизни мигранта в целом. На основе этих данных в такие сроки невозможно было сделать взвешенный выбор. Поэтому основным мотивом была мысль, что если отказаться от такого предложения, то другого может и не быть.

+70

157

johnpateha 24 окт 2018 в 14:01

Как стать датасайнтистом, если тебе за 40 и ты не программист

8 мин

149K

Data Mining*Блог компании QIWIМашинное обучение*Учебный процесс в ITКарьера в IT-индустрии

Бытует мнение, что стать датасайентистом можно только имея соответствующее высшее образование, а лучше ученую степень.

Однако мир меняется, технологии становятся доступны и для простых смертных. Возможно, я кого-то удивлю, но сегодня любой бизнес-аналитик в состоянии освоить технологии машинного обучения и добиться результатов, конкурирующих с профессиональными математиками, и, возможно, даже лучших.

Дабы не быть голословным, я расскажу вам свою историю — как из экономиста я стал дата-аналитиком, получив необходимые знания через онлайн-курсы и участвуя в соревнованиях по машинному обучению.

Сейчас я ведущий аналитик в группе больших данных в QIWI, но еще три года назад я был довольно далек от датасайнс и об искусственном интеллекте слышал только из новостей. Но потом все изменилось, во многом благодаря Coursera и Kaggle.

Итак, обо всем по порядку.

Читать дальше →

+112

kruegger 18 окт 2018 в 14:00

Как правильно «фармить» Kaggle

27 мин

156K

Python*Data Mining*Математика*Машинное обучение*Блог компании Open Data Science

*фарм — (от англ. farming) — долгое и занудное повторение определенных игровых действий с определенной целью (получение опыта, добыча ресурсов и др.).

Введение

Недавно (1 октября) стартовала новая сессия прекрасного курса по DS/ML (очень рекомендую в качестве начального курса всем, кто хочет, как это теперь называется, "войти" в DS). И, как обычно, после окончания любого курса у выпускников возникает вопрос — а где теперь получить практический опыт, чтобы закрепить пока еще сырые теоретические знания. Если вы зададите этот вопрос на любом профильном форуме, то ответ, скорее всего, будет один — иди решай Kaggle. Kaggle — это да, но с чего начать и как наиболее эффективно использовать эту платформу для прокачки практических навыков? В данной статье автор постарается на своем опыте дать ответы на эти вопросы, а также описать расположение основных грабель на поле соревновательного DS, чтобы ускорить процесс прокачки и получать от этого фан.

проверить глубину этой кроличьей норы

+85

zhovner 3 окт 2018 в 18:02

Как украсть деньги с бесконтактной карты и Apple Pay

24 мин

272K

Платежные системы*

Как украсть деньги с бесконтактной карты из кармана? Насколько безопасен PayPass и Apple Pay?

В статье разбираются популярные мифы и сценарии мошенничества с бесконтактными системами оплаты на примере настоящего POS-терминала, карт PayPass/payWave и телефонов с функцией Google Pay/Apple Pay.

Рассматриваемые темы:

Можно ли НА САМОМ ДЕЛЕ украсть деньги, прислонившись POS-терминалом к карману? — мы попытаемся полностью воспроизвести этот сценарий мошенничества от начала до конца, с использованием настоящего POS-терминала и платежных карт в реальных условиях.
В чем разница между физическими и виртуальными картами Apple Pay? — как происходит связывание физической карты и токена Apple Pay, и почему Apple Pay во много раз безопаснее обычной карты.
Используем аппаратный NFC-сниффер (ISO 14443A) — воспользуемся устройством HydraNFC для перехвата данных между POS-терминалом и картой. Рассмотрим, какие конфиденциальные данные можно извлечь из перехваченного трафика.
Разбираем протокол EMV — какими данными обменивается карта с POS-терминалом, используемый формат запросов, механизмы защиты от мошенничества и replay-атак.
Исследуем операции без карты (CNP, MO/TO) — в каких случаях на самом деле(!) можно украсть деньги с карты, имея только реквизиты, считанные бесконтактно, а в каких нельзя.

Внимание!

В статье подробно описывается гипотетическая схема мошенничества, от начала и до конца, глазами мошенника, с целью покрыть все аспекты, в которых культивируются мифы и заблуждения. Несмотря на провокационный заголовок, основной вывод статьи — бесконтактные платежи достаточно безопасны, а атаки на них трудоемки и невыгодны.

Материалы в статье представлены исключительно в ознакомительных целях. Все сцены демонстрации мошенничества инсценированы и выполнены с согласия участвующих в них лиц. Все списанные деньги с карт были возвращены их владельцам. Воровство денег с карт является уголовным преступлением и преследуется по закону.

+317

394

Vengant 22 сен 2018 в 12:36

История переезда системного администратора в Германию. Часть вторая: переезд и первые шаги

15 мин

59K

Системное администрирование*IT-эмиграцияКарьера в IT-индустрии

Всем привет.

Я наконец-то изыскал время и написал вторую часть своей истории об IT-эмиграции. Первую часть можно прочитать тут — История переезда системного администратора в Германию. Часть первая: поиск работы и виза. В этой части я опишу подробно, как мы с сестрой обустраивались на новом месте, какие ошибки при этом допускали и сколько нам эти ошибки стоили.

Итак, поехали.

У нас было два загранпаспорта, национальная виза, контракт на работу, договор на учебу и целое множество вещей всех сортов и расцветок, а также лысый кот, длинный список дел, норовящая развалиться машина и несколько тысяч евро. Не то чтобы всё это было так уж необходимо для переезда в Германию, но если уж начал эмигрировать из России, то становится трудно остановиться. Единственное, что вызывало у меня опасение — это жилье. Ничто в мире не бывает более беспомощным, безответственным и порочным, чем поиск квартиры во Франкфурте. Я знал, что рано или поздно мы столкнемся и с этим.

Читать дальше →

+64

273

Vengant 5 дек 2017 в 10:30

История переезда системного администратора в Германию. Часть первая: поиск работы и виза

18 мин

47K

Системное администрирование*IT-эмиграцияКарьера в IT-индустрии

Всем привет.

Я решил опубликовать историю своего переезда на работу в Германию, максимально подробно описав все стадии оного — от принятия решения начать поиск работы за рубежом до собственно переезда, поиска жилья и решения многочисленных вопросов на месте. Побудило меня к этому, во-первых, очень малое количество историй успешного поиска работы в Германии именно сисадмином (а в этой области своя специфика, отличная от программирования), а во-вторых — некоторая нестандартность моего случая. Обычно за границу уезжают либо в одиночку, либо с женой-детьми, я же уезжал вместе с сестрой, что добавило очень много нюансов к визовым вопросам.

Это будет длинная история в трех частях, где я постараюсь максимально осветить все грабли, по которым пришлось пройти.

Читать дальше →

+47

133

crazyhatter 21 авг 2018 в 11:13

Анатомия рекомендательных систем. Часть первая

14 мин

77K

Data Mining*Алгоритмы*Big Data*Машинное обучение*Блог компании ГК ЛАНИТ

Я работаю дата-саентистом в компании CleverDATA. Мы занимаемся проектами в области машинного обучения, и один из наиболее частых запросов на разработку основанных на машинном обучении маркетинговых решений — это разработка рекомендательных моделей.

В данной статье я расскажу о рекомендательных системах, постараюсь дать максимально полный обзор существующих подходов и на пальцах объясню принципы работы алгоритмов. Часть материала базируется на неплохом курсе по рекомендательным системам лаборатории MovieLens (которая большинству знакома по одноименному датасету для тестирования рекомендаций), остальное – из личного опыта. Статья состоит из двух частей. В первой описана постановка задачи и дан обзор простых (но популярных) алгоритмов рекомендаций. Во второй статье я расскажу о более продвинутых методах и некоторых практических аспектах реализации.

Источник

Читать дальше →

+45

SLY_G 15 авг 2018 в 10:00

Серьёзному успеху в квантовых вычислениях помешал подросток

5 мин

70K

Математика*Квантовые технологии

Перевод

18-летний Ювин Тан доказал, что классические компьютеры могут решать «задачу рекомендаций» почти так же быстро, как квантовые. Этот результат аннулирует один из наилучших примеров квантового ускорения расчётов.

Подросток из Техаса осадил развитие квантовых вычислений. В опубликованной в этом месяце в интернете работе 18-летний Ювин Тан доказал, что обычные компьютеры могут решать важную вычислительную задачу со скоростью, потенциально сравнимой с квантовыми компьютерами.

В наиболее практичном виде проблема рекомендаций связана с тем, как сервисы вроде Amazon и Netflix определяют, какие продукты могут вам понравиться. Специалисты по информатике считали её одним из наилучших примеров задач, решать которые на квантовых компьютерах будет экспоненциально быстрее – что подчёркивало потенциальные возможности этих футуристических машин. И вот теперь Тан опроверг это мнение.

Читать дальше →

+107

alexey_nichnikov 9 авг 2018 в 17:07

Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 1 — 14

24 мин

60K

Машинное обучение*

Из песочницы

Некоторое время назад в моей ленте в фейсбуке всплыла ссылка на книгу Эндрю Ына (Andrew Ng) "Machine Learning Yearning", которую можно перевести, как "Страсть к машинному обучению" или "Жажда машинного обучения".

image<img src="<img src="https://habrastorage.org/webt/ds/rc/ct/dsrcctfottkedkf7o1hxbqsoamq.png" />" alt="image"/>

Людям, интересующимся машинным обучением или работающим в этой сфере представлять Эндрю не нужно. Для непосвященных достаточно сказать, что он является звездой мировой величины в области искусственного интеллекта. Ученый, инженер, предприниматель, один из основателей Coursera. Автор отличного курса по введению в машинное обучение и курсов, составляющих специализацию "Глубокое обучение" (Deep Learning).

Читать дальше →

+40

NIX_Solutions 24 июл 2018 в 11:06

Памятки по искусственному интеллекту, машинному обучению, глубокому обучению и большим данным

4 мин

36K

Big Data*Машинное обучение*Блог компании NIXИскусственный интеллект

Перевод

В течение нескольких месяцев мы собирали памятки по искусственному интеллекту, которыми периодически делились с друзьями и коллегами. В последнее время сложилась целая коллекция, и мы добавили к памяткам описания и/или цитаты, чтобы было интереснее читать. А в конце вас ждёт подборка по сложности «О большое» (Big-O). Наслаждайтесь.

UPD. Многие картинки будут читабельнее, если открыть их в отдельных вкладках или сохранить на диск.

Читать дальше →

+43

eapotapov 10 июл 2018 в 11:17

RabbitMQ против Kafka: два разных подхода к обмену сообщениями

18 мин

313K

Высокая производительность*Мессенджеры*Блог компании ITSummaApache*Big Data*

В прошлых двух статьях мы рассказывали об IIoT — индустриальном интернете вещей — строили архитектуру, чтобы принимать данные от сенсоров, паяли сами сенсоры. Краеугольным камнем архитектур IIoT да и вообще любых архитектур работающих с BigData является потоковая обработка данных. В ее основе лежит концепция передачи сообщений и очередей. Стандартом работы с рассылкой сообщений сейчас стала Apache Kafka. Однако, для того, чтобы разобраться в ее преимуществах (и понять ее недостатки) было бы хорошо разобраться в основах работы систем очередей в целом, механизмах их работы, шаблонах использования и основной функциональности.

Мы нашли отличную серию статей, которая сравнивает функциональность Apache Kafka и другого (незаслуженно игнорируемого) гиганта среди систем очередей — RabbitMQ. Эту серию статей мы перевели, снабдили своими комментариями и дополнили. Хотя серия и написана в декабре 2017 года, мир систем обмена сообщениями (и особенно Apache Kafka) меняется так быстро, что уже к лету 2018-го года некоторые вещи изменились.

Читать дальше →

+77

Vacxe 24 июн 2018 в 09:08

IT Релокация. Обзор плюсов и минусов жизни в Бангкоке год спустя

8 мин

63K

IT-эмиграцияКарьера в IT-индустрии

Моя история началась где-то в октябре 2016 года когда в голове поселилась мысль «А почему бы не попробовать работать за рубежом?». Сначала были простые интервью с аутсорсинг компаниями из Англии. Было очень много вакансий с описанием «возможны частые командировки в Америку» но место работы находилось все также в Москве. Да, предлагали хорошие деньги, но душа просила переезда. Скажу честно, если бы меня спросили пару лет назад «Кем вы видите себя через 3 года?», я бы никогда не ответил «Буду работать в Тайланде по рабочей визе». После успешного прохождения интервью и получения офера 15 июня 2017 года я сел в самолет Москва — Бангкок с билетом в один конец. Для меня это был первый опыт переезда в другую страну и в данной статье я хочу рассказать про сложности переезда, возможности которые вам открываются. И в конечном итоге главная цель — вдохновить! Добро пожаловать под кат дорогой читатель.

Читать дальше →

+128

329

sim0nsays 15 июн 2018 в 09:50

Курс о Deep Learning на пальцах

2 мин

173K

Обработка изображений*Машинное обучение*РобототехникаИскусственный интеллект

Я все еще не до конца понял, как так получилось, но в прошлом году я слово за слово подписался прочитать курс по Deep Learning и вот, на удивление, прочитал. Обещал — выкладываю!

Курс не претендует на полноту, скорее это способ поиграться руками с основными областями, где deep learning устоялся как практический инструмент, и получить достаточную базу, чтобы свободно читать и понимать современные статьи.

Материалы курса были опробованы на студентах кафедры АФТИ Новосибирского Государственного Университета, поэтому есть шанс, что по ним действительно можно чему-то научиться.

Читать дальше →

+117

1 2 3 4

6 7 8 9

Continuous integration в Яндексе. Часть 2

Continuous integration в Яндексе

Зимой и летом одним цветом? Поиск сезонности в данных

Парадокс времени ожидания, или почему мой автобус всегда опаздывает?

Яндекс.Метеум – технология без технологии. Маркетинг с точностью до района

Справочник по синхронизаторам java.util.concurrent.*

Python: как уменьшить расход памяти вдвое, добавив всего одну строчку кода?

Из Сибири на Кипр и обратно — история несостоявшегося эмигранта

Как стать датасайнтистом, если тебе за 40 и ты не программист

Как правильно «фармить» Kaggle

Введение

Как украсть деньги с бесконтактной карты и Apple Pay

История переезда системного администратора в Германию. Часть вторая: переезд и первые шаги

История переезда системного администратора в Германию. Часть первая: поиск работы и виза

Анатомия рекомендательных систем. Часть первая

Серьёзному успеху в квантовых вычислениях помешал подросток

Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 1 — 14

Памятки по искусственному интеллекту, машинному обучению, глубокому обучению и большим данным

RabbitMQ против Kafka: два разных подхода к обмену сообщениями

IT Релокация. Обзор плюсов и минусов жизни в Бангкоке год спустя

Курс о Deep Learning на пальцах

Информация

Специализация