Articles / Bookmarks / Profile of DmitryKulikov / Habr

How to become an author

Дмитрий Куликов @DmitryKulikov

User

ProfileArticles1PostsNewsComments3

infotanka Sep 28 2016 at 09:48

Алгоритм визуализации сложных данных

9 min

27K

Лаборатория данных corporate blogData visualization*

Tutorial

За три года существования Лаборатория данных выпустила около тридцати интерактивных визуализаций, в формате заказных, собственных проектов и бесплатных советов. Мы в лаборатории визуализируем финансовые и научные данные, данные городской транспортной сети, результаты забегов, эффективность маркетинговых кампаний и многое другое. Весной мы получили бронзовую медаль на престижной премии Malofiej 24 за визуализацию результатов Московского марафона.

Последние полгода я работаю над алгоритмом визуализации данных, который систематизирует этот опыт. Моя цель — дать рецепт, который позволит разложить любые данные по полочкам и решать задачи по визуализации данных также чётко и последовательно, как математические задачи. В математике не важно, складывать яблоки или рубли, распределять кроликов по ящикам или бюджеты на рекламные кампании — есть стандартные операции сложения, вычитания, деления и т.д. Я хочу создать универсальный алгоритм, который поможет визуализировать любые данные, при этом учитывает их смысл и уникальность.

Я хочу поделиться с читателями Хабра результатами своих исследований.

Читать дальше →

+70

alizar Sep 28 2016 at 11:59

Переводчик Google Translate подключили к нейросети

3 min

44K

Artificial IntelligenceIT-companies

Модель архитектуры GNMT (Google’s Neural Machine Translation). Слева сеть энкодера, справа — декодера, в середине модуль внимания. Нижний слой энкодера двусторонний: розовые модули собирают информацию слева направо, а зелёные — в обратном направлении

Компания Google собирается полностью перевести сервис Google Translate на глубинное обучение. Детальное описание алгоритма нейросети опубликовано на arXiv.org.

По предварительным оценкам Google, нейросеть обеспечивает гораздо лучшее качество перевода, чем обычные статистические методы. Её уже опробовали в сложнейшей языковой паре английский⟷китайский, и нейросеть сразу на 60% снизила количество ошибок перевода. Результат впечатляет. Другие языковые пары подключат к нейросети в течение ближайших нескольких месяцев.

Читать дальше →

+25

olemskoi Sep 28 2016 at 09:26

Устранение беспорядка маршрутизации сервисов при помощи Docker

17 min

18K

Слёрм corporate blogDevOps*Virtualization*System administration*

Translation

Устранение беспорядка маршрутизации сервисов при помощи Docker

“Не трудности “ломают” вас, а то, как вы их переносите” — Lou Holtz

В соавторстве с Emmet O’Grady (основателем NimbleCI и Docker Ninja)

В книге Франца Кафки “Превращение” (“Метаморфозы”) человек просыпается однажды утром и обнаруживает, что он превратился в гигантское насекомоподобное существо. Как у инженеров DevOps, у нас есть такие же сюрреалистические моменты в жизни. Мы находим экзотические ошибки “под ковриком” (скрытые в самых труднодоступных местах) или бываем атакованы червями либо другими опасными сущностями. Если вы занимаетесь этим достаточно долго, у вас рано или поздно появится ужасная история, или даже две (поделитесь ими с нами!). В такой момент мы не можем сидеть и ждать, когда наступит кризис, мы должны действовать быстро. Торопясь исправить это как можно раньше, мы должны развернуть (deploy) новую сущность и выпустить новую версию нашего сервиса, устраняя проблему.

Читать дальше →

+20

yury-dymov Sep 28 2016 at 09:36

React.js: собираем с нуля изоморфное / универсальное приложение. Часть 3: добавляем авторизацию и обмен данными с API

17 min

62K

Node.JS*ReactJS*Website development*JavaScript*API*

Tutorial

Пожалуйста, авторизуйтесь

Это третья и заключительная часть статьи про разработку изоморфного React.js приложения с нуля. Части первая и вторая.

В этой части мы:

добавим redux-dev-tools;
добавим запросы к API;
реализуем авторизацию;
реализуем выполнение запросов к API в процессе Server-Side Rendering.

Читать дальше →

+19

maxim_babenko Sep 27 2016 at 08:02

YT: зачем Яндексу своя MapReduce-система и как она устроена

14 min

91K

Яндекс corporate blogBig Data*Algorithms*System Analysis and Design*Industrial Programming*

В течение последних шести лет в Яндексе идет работа над системой под кодовым называнием YT (по-русски мы называем её «Ыть»). Это основная платформа для хранения и обработки больших объемов данных — мы уже о ней рассказывали на YaC 2013. С тех пор она продолжала развиваться. Сегодня я расскажу о том, с чего началась разработка YT, что нового в ней появилось и что ещё мы планируем сделать в ближайшее время.

Кстати, 15 октября в офисе Яндекса мы расскажем не только о YT, но и о других наших инфраструктурных технологиях: Media Storage, Yandex Query Language и ClickHouse. На встрече мы раскроем тайну — расскажем, сколько же в Яндексе MapReduce-систем.

Какую задачу мы решаем?

По роду своей деятельности Яндекс постоянно сталкивается с необходимостью хранить и обрабатывать данные таких объемов, с которыми обычному пользователю никогда не приходится иметь дело. Поисковые логи и индексы, пользовательские данные, картографическая информация, промежуточные данные и результаты алгоритмов машинного обучения — все это может занимать сотни петабайт дискового пространства. Для эффективной обработки подобных объемов традиционно используется парадигма MapReduce, позволяющая достичь хорошего баланса между эффективностью вычислений и простотой пользовательского кода.

Читать дальше →

+104

Karaoke Sep 26 2016 at 08:29

Пол Грэм. Все статьи на русском. Год спустя

8 min

39K

Edison corporate blogStart-up developmentIT careerVenture investmentGTD*

«То, о чем мы думаем в душе по утрам, — гораздо важнее, чем вам может показаться. Это именно то время, когда в голову приходят хорошие идеи. Скажу больше, вы вряд ли преуспеете в деле, о котором не думаете в душе.»
— Пол Грэм

Добрый день, хабрачитатели.

1 сентября 2015, благодаря пинкам ребят из #tceh, я упорядочил все статьи Пола Грэма на русском языке на тот момент (около 60). В этой публикации хочу поделиться тем, что произошло за 13 месяцев.

На начало сентября 2015 я прочитал около 10 статей Пола Грэма, теперь мое количество статей — 125.

Мы так же успели дожать до победного перевод книги Грэма «Хакеры и Художники» и сейчас идет переписка с издательством O'Reilly на тему издания на русском.

Обновление подборки переводов Грэма и история поиска/создания этих переводов — под катом.

+41

anastasiagrishina Sep 26 2016 at 11:18

Data Science Week 2016. Обзор первого и второго дня

6 min

4.3K

New Professions Lab corporate blogMachine learning*Data Mining*Big Data*

Хабр, привет! Публикуем обзор первых двух дней Data Science Week 2016, в которые наши спикеры говорили о взаимоотношениях с клиентом и внутренней оптимизации.

Читать дальше →

+12

Zashibis Sep 23 2016 at 10:56

Учим английский дешево и эффективно

9 min

162K

Learning languages

Английский можно выучить дешево, иногда даже бесплатно. В этой статье я расскажу про личный опыт: какой софт и ресурсы в Интернет оказались максимально эффективными для меня, и как ими правильно пользоваться.

Если вы не готовы тратить на английский хотя бы 2 часа в день, то дальше можно не читать.

Читать дальше →

+35

frauwntr Sep 23 2016 at 12:25

Принципы реактивного программирования на примере простого RSS-агрегатора с использованием ReactiveX для Python

7 min

25K

В последние годы реактивное программирование в целом, а технология ReactiveX в частности, обретает всё большую популярность среди разработчиков. Одни уже активно используют все преимущества этого подхода, а другие только “что-то слышали”. Со своей стороны я постараюсь помочь вам представить, насколько некоторые концепции реактивного программирования способны изменить взгляд на привычные, казалось бы, вещи.

Читать дальше →

+28

olegbunin Sep 23 2016 at 15:25

Современная операционная система: что надо знать разработчику

22 min

68K

Конференции Олега Бунина (Онтико) corporate blog*nix*Configuring Linux*Server Administration*System administration*

Александр Крижановский (NatSys Lab.)

Александр Крижановский

Нас сегодня будет интересовать операционная система – ее внутренности, что там происходит… Хочется поделиться идеями, над которыми мы сейчас работаем, и отсюда небольшое вступление – я расскажу о том, из чего состоит современный Linux, как его можно потюнить?

По моему мнению, современная ОС – это плохая штука.

Дело в том, что на картинке изображены графики сайта Netmap (это штуковина, которая позволяет вам очень быстро захватывать и отправлять пакеты сетевого адаптера), т.е. эта картинка показывает, что на одном ядре с разной тактовой частотой до 3 ГГц Netmap позволяет 10 Гбит – 14 млн. пакетов в сек. отрабатывать уже на 500 МГц. Синенькая линия – это pktgen – самое быстрое, что, вообще, есть в ядре Linux’а. Это такая штуковина – генератор трафика, который берет один пакет и отправляет его в адаптер много раз, т.е. никаких копирований, никакого создания новых пакетов, т.е., вообще, ничего – только отправка одного и того же пакета в адаптер. И вот оно настолько сильно проседает по сравнению с Netmap (то, что делается в user-space показано розовой линией), и оно вообще где-то там внизу находится. Соответственно, люди, которые работают с очень быстрыми сетевыми приложениями, переезжают на Netmap, Pdpdk, PF_RING – таких технологий море сейчас.

Читать дальше →

+86

temujin Sep 23 2016 at 21:41

Занимательная математика командной строки

4 min

57K

Если вы пользователь Linux, Free/Open BSD или другой свободной ОС, есть вероятность, что интерфейс командной строки вам не чужд. В таком случае можно использовать командную оболочку для простых арифметических действий. Для этого не нужно устанавливать дополнительных программ, все уже есть в базовом наборе операционной системы. Они позволяют качественно заменить привычный калькулятор на столике счетовода.

к awk-гадалке ходи

+45

olegbunin Sep 24 2016 at 07:42

Быстрый рендеринг с DOM шаблонизаторами

17 min

32K

Конференции Олега Бунина (Онтико) corporate blogCSS*HTML*JavaScript*Client optimization*

Борис Каплуновский (BSKaplou)

Борис Каплуновский

Я довольно долго работал над докладом и старался сделать его настолько противоречивым, насколько это возможно. И сразу начну с противоречия – я в корне не согласен с тем, что веб-компонентами можно пользоваться. Уже поднимался вопрос о 300 Кбайтах, я глубоко уверен, что 300 Кбайт для страницы Javascripta – недопустимо много.

Сегодня я расскажу о довольно глубоком путешествии во фронтенд. Началось это путешествие тогда, когда я обнаружил, что фронтенд aviasales.ru тормозит, и надо что-то делать. Это путешествие началось года полтора-два назад, и вещи, о которых я буду рассказывать, – это сжатое повествование того, что я узнал.

Самым критичным, на мой взгляд, в производительности фронтенд-приложений является рендеринг. Все мы знаем, что работа с DOM – это такая вещь, которую нужно стараться избегать. Чем больше вы делаете вызовов к DOM API, тем медленнее работает ваше приложение.

+42

saluev Sep 5 2016 at 20:38

Пишем изящный парсер на Питоне

11 min

205K

Python*Abnormal programming*Programming*

Tutorial

В C++17 (нет-нет, Питон скоро будет, вы правильно зашли!) появляется новый синтаксис для оператора if, позволяющий объявлять переменные прямо в заголовке блока. Это довольно удобно, поскольку конструкции вида

Foo foo = make_foo();
if(foo.is_nice()) {
    // do work with foo
}
// never use foo again
// foo gets deleted

довольно общеупотребительны. Код выше лёгким движением руки программиста (и тяжёлым движением руки комитета по стандартизации) превращается в:

if(Foo foo = make_foo(); foo.is_nice()) {
    // do work with foo
}  // foo gets deleted
// never use foo again (well, you can't anyway)

Стало чуть-чуть лучше, хотя всё ещё не выглядит идеально. В Python нет и такого, но если вы ненавидите if в Python-коде так же сильно, как я, и хотите научиться быстро писать простые парсеры, то добро пожаловать под кат. В этой статье мы попытаемся написать короткий и изящный парсер для JSON на Python 2 (без каких-либо дополнительных модулей, конечно же).

Читать дальше →

+51

aigame Sep 14 2016 at 10:33

Память, консолидация памяти и бабушкины нейроны

13 min

32K

BrainArtificial Intelligence

Первый вопрос, который возникает перед исследователями нервной системы и когнитивных процессов это, что такое память? Что такое память в биологическом аспекте? Как проявляется память на уровне отдельного нейрона? И в какой форме хранится информация в нервной системе?

И сейчас мы ответим на эти вопросы.

Читать дальше →

+17

yury-dymov Sep 14 2016 at 07:45

React.js: собираем с нуля изоморфное / универсальное приложение. Часть 1: собираем стек

22 min

196K

JavaScript*Node.JS*ReactJS*

Tutorial

Лицо моей жены, когда она вычитывала эту статью

Я решил написать цикл статей, который и сам был бы счастлив найти где-то полгода назад. Он будет интересен в первую очередь тем, кто хотел бы начать разрабатывать классные приложения на React.js, но не знает, как подступиться к зоопарку разных технологий и инструментов, которые необходимо знать для полноценной front-end разработки в наши дни.

Я хочу с нуля реализовать, пожалуй, наиболее востребованный сценарий: у нас есть серверная часть, которая предоставляет REST API. Часть его методов требует, чтобы пользователь веб-приложения был авторизован.

Читать дальше →

+41

freetonik Jul 13 2016 at 09:26

Hello, TensorFlow. Библиотека машинного обучения от Google

11 min

229K

Programming*Machine learning*TensorFlow*Python*

Tutorial

Translation

tensorflow

Проект TensorFlow масштабнее, чем вам может показаться. Тот факт, что это библиотека для глубинного обучения, и его связь с Гуглом помогли проекту TensorFlow привлечь много внимания. Но если забыть про ажиотаж, некоторые его уникальные детали заслуживают более глубокого изучения:

Основная библиотека подходит для широкого семейства техник машинного обучения, а не только для глубинного обучения.
Линейная алгебра и другие внутренности хорошо видны снаружи.
В дополнение к основной функциональности машинного обучения, TensorFlow также включает собственную систему логирования, собственный интерактивный визуализатор логов и даже мощную архитектуру по доставке данных.
Модель исполнения TensorFlow отличается от scikit-learn языка Python и от большинства инструментов в R.

Все это круто, но TensorFlow может быть довольно сложным в понимании, особенно для того, кто только знакомится с машинным обучением.

Как работает TensorFlow? Давайте попробуем разобраться, посмотреть и понять, как работает каждая часть. Мы изучим граф движения данных, который определяет вычисления, через которые предстоит пройти вашим данным, поймем, как тренировать модели градиентным спуском с помощью TensorFlow, и как TensorBoard визуализирует работу с TensorFlow. Наши примеры не помогут решать настоящие проблемы машинного обучения промышленного уровня, но они помогут понять компоненты, которые лежат в основе всего, что создано на TensorFlow, в том числе того, что вы напишите в будущем!

Читать дальше →

+65

BarakAdama Sep 13 2016 at 09:12

От черного списка до машинного обучения. Антифишинг в Яндекс.Браузере

9 min

20K

Яндекс corporate blogBrowsersInformation Security*Machine learning*

Злоумышленники, специализирующиеся на воровстве паролей, номеров банковских карт и прочей личной информации, появились еще в прошлом веке и с тех пор их число только растет. Согласно отчету Лаборатории Касперского, от 9% до 13% их пользователей в России сталкиваются с фишингом. Ежегодно в мире фишинг и другие формы кражи личных данных наносят ущерб в $5 млрд, согласно оценкам Microsoft. Это в целом соответствует нашим наблюдениям и объясняет, почему в любом более-менее популярном браузере есть защита от фишинга, основанная на «черных списках». В Яндекс.Браузере она тоже есть. Казалось бы, зачем изобретать что-то еще?

Safe Browsing

Самое очевидное решение для защиты пользователей – это использование готовой базы со списком фишинг-сайтов. Проверяем по «черному списку» посещаемые страницы и предупреждаем, если нашлось совпадение. На этой идее и основана защита с использованием технологии Safe Browsing, которая работает в Яндекс.Браузере с момента его появления.

Читать дальше →

+59

kozyrevskaya Sep 13 2016 at 13:46

11 текстов, которые помогут разобраться в больших данных

3 min

25K

Surfingbird corporate blogBig Data*

Сегодня необходимо хотя бы в общих чертах иметь представление о мире big data. Мы отобрали публикации, в которых доступно объясняют, что такое большие данные и как их используют. Статьи рассчитаны, скорее, на новичков, но и люди, разбирающиеся в теме, смогут найти для себя интересные (или просто забавные) кейсы.

Читать дальше →

+14

olartamonov Sep 12 2016 at 06:58

Связь в интернете вещей: LoRa против UNB. Часть 3: технические тонкости

15 min

28K

Unwired Devices LLC corporate blogElectronics for beginnersIOT

Третья из серии статей, посвящённая описанию основных отличий технологий маломощной дальнобойной радиосвязи, получающей сейчас распространение в системах Интернета вещей: широкополосной связи LoRa от узкополосных (UNB, Ultra Narrow Band) систем, таких как Sigfox и «Стриж», а также вопросам их практического применения.

Связь в интернете вещей: LoRa против UNB. Часть 1: физика
Связь в интернете вещей: LoRa против UNB. Часть 2: бизнес
Связь в интернете вещей: LoRa против UNB. Часть 3: технические тонкости
Связь в интернете вещей: LoRa против UNB. Часть 4: сети и оборудование LoRa

Привет, GT.

После первых двух статей, а также живых рассказов по данной теме меня несколько раз просили подробнее рассказать о базовых технических аспектах работы LoRa и UNB-сетей несколько подробнее, чем я рассказывал в первой статье:

Разделение каналов в UNB-системах
Проблема обратной связи в UNB-системах
Разделение каналов в LoRa
Адаптивные скорости в UNB и LoRa
Помехозащищенность в UNB-системах и в LoRa

Что ж, приступим. Ниже будет, как обычно, много текста и мало картинок.

Читать дальше →

+21

dmvcm Aug 28 2016 at 07:54

Scrapy: собираем данные и сохраняем в базу данных

5 min

71K

Введение

Меня заинтересовал данный фреймворк для сбора информации с сайтов. Здесь были публикации по Scrapy, но поскольку детальной информации на русском языке мало, то я хотел бы рассказать о своем опыте.

Читать дальше →

+16

4

5 6 ...