How to become an author

Валерий Дмитриев @rotor

Пользователь

ProfileArticles8PostsNewsComments255

Arhimagic Jan 18 2018 at 13:34

Feature Engineering, о чём молчат online-курсы

7 min

26K

VK corporate blogBig Data*Data Mining*Machine learning*Studying in IT

Sherlock by ThatsWhatSheSayd

Чтобы стать великим сыщиком, Шерлоку Холмсу было достаточно замечать то, чего не видели остальные, в вещах, которые находились у всех на виду. Мне кажется, что этим качеством должен обладать и каждый специалист по машинному обучению. Но тема Feature Engineering’а зачастую изучается в курсах по машинному обучению и анализу данных вскользь. В этом материале я хочу поделиться своим опытом обработки признаков с начинающими датасаентистами. Надеюсь, это поможет им быстрее достичь успеха в решении первых задач. Оговорюсь сразу, что в рамках этой части будут рассмотрены концептуальные методы обработки. Практическую часть по этому материалу совсем скоро опубликует моя коллега Osina_Anya.

Один из популярных источников данных для машинного обучения — логи. Практически в любой строчке лога есть время, а если это web-сервис, то там будут IP и UserAgent. Рассмотрим, какие признаки можно извлечь из этих данных.

Читать дальше →

+49

pinbraerts Jan 18 2018 at 10:53

Как вместить property в один байт?

6 min

10K

Вступление

Многие языки программирования имеют такой инструмент, как properties: C#, Python, Kotlin, Ruby и т.д. Этот инструмент позволяет вызывать какой-то метод класса при обращении к его "полю". В стандартном C++ их нет если хотите узнать, как можно их реализовать, прошу под кат.

Читать дальше →

+24

olegbunin Jan 17 2018 at 11:05

Как убить технаря в тимлиде

15 min

33K

Конференции Олега Бунина (Онтико) corporate blogConferencesPersonnel Management*Project management*Development Management*

В IT линейных руководителей и тимлидов традиционно набирают из лучших инженеров. Их работа теперь состоит совсем в другом: управлять людьми и взаимодействовать с другими командами и организациями. Исходный же посыл «я лучше знаю, как нужно» часто приводит к совмещению в одном лидере одновременно двух крайностей: отсутствия делегирования и тотального контроля. И то, и другое вовсе не оставляет ни времени, ни сил на управление. О том, как со всем этим справиться и какие еще препятствия могут встретиться на пути новоиспеченного руководителя, на основе собственного опыта и собственноручно набитых шишек расскажет Александр Трофимов из Лаборатории Касперского.

В основе публикации — расшифровка доклада Александра Трофимова с HighLoad++ 2017

+46

AndrewShmig Jan 14 2018 at 11:47

Hands-On Programming With R — Garrett Grolemund

19 min

14K

Tutorial

Полный перевод книги Hands-on Programming With R — Garrett Grolemund на русский язык.

Приятного чтения!

Читать дальше →

+20

ph_piter Jan 10 2018 at 11:01

Книга «Глубокое обучение. Погружение в мир нейронных сетей»

6 min

74K

Издательский дом «Питер» corporate blogAlgorithms*Machine learning*Professional literature*

Привет, Хаброжители! Недавно у нас вышла первая русская книга о глубоком обучении от Сергея Николенко, Артура Кадурина и Екатерины Архангельской. Максимум объяснений, минимум кода, серьезный материал о машинном обучении и увлекательное изложение. Сейчас мы рассмотрим раздел «Граф вычислений и дифференцирование на нем» в котором вводятся основополагающее понятие для реализации алгоритмов обучения нейронных сетей.

Если у нас получится представить сложную функцию как композицию более простых, то мы сможем и эффективно вычислить ее производную по любой переменной, что и требуется для градиентного спуска. Самое удобное представление в виде композиции — это представление в виде графа вычислений. Граф вычислений — это граф, узлами которого являются функции (обычно достаточно простые, взятые из заранее фиксированного набора), а ребра связывают функции со своими аргументами.

Читать дальше →

+55

SChehovskih Aug 11 2016 at 07:33

Голосовые «отпечатки» теперь официально работают (и как выглядит процесс внедрения в Приорбанке)

7 min

22K

КРОК corporate blogInformation Security*System Analysis and Design*

— А не западло ли вам там в банке отвечать на анонимные вопросы?
— Нет, Владимир Петрович, не западло.

Один из крупнейших коммерческих банков Беларуси Приорбанк, входящий в австрийскую группу «Райффайзен», использует голосовые эталоны (или, как ещё говорят, голосовые «отпечатки») клиентов для подтверждения их личности при обращении по телефону. Это пока только второй случай на территории России и СНГ, когда банк официально заявил о факте использования такой технологии.

Про саму голосовую биометрию мы уже рассказывали (возможность «узнавания» и определения личности звонящего, например в контакт-центр абонента, даже если он использует другой телефон или представляется кем-то другим — это актуально для антифрода). Расскажу о том, какие особенности есть во внедрении голосовой биометрии на примере Приорбанка.

Читать дальше →

+36

ELazin Jan 2 2018 at 17:39

Akumuli — база данных временных рядов

10 min

26K

Open source*NoSQL*DevOps*

Привет! В этой статье я хочу рассказать о проекте Akumuli, специализированной базе данных для сбора и хранения временных рядов. Я работаю над проектом уже больше четырех лет и достиг высокой стабильности, надежности, и возможно изобрел кое-что новое в этой области.

Временной ряд это упорядоченная во времени последовательность измерений, если говорить максимально просто, это то что можно нарисовать на графике. Временные ряды естественным образом возникают во многих приложениях, начиная с финансов и заканчивая анализом ДНК. Наиболее широкое применение базы данных временных рядов находят в мониторинге инфраструктуры. Там же часто наблюдаются самые серьезные нагрузки.

Time-series in finance

“Мне не нужна TSDB, у меня уже есть Х”

Х может быть чем угодно, начиная с SQL базы данных и заканчивая плоскими файлами. На самом деле все это действительно можно использовать для хранения временных рядов, с одной оговоркой — у вас мало данных. Если вы делаете 10 000 вставок в свою SQL базу данных — все будет хорошо какое-то время, потом таблица вырастет в размерах настолько, что время выполнения операций вставки увеличится.

Читать дальше →

+76

l4l Dec 10 2017 at 20:02

Почему дизайн Go плох для умных программистов

7 min

76K

Perfect code*Programming*Open source*Go*D*

Translation

На протяжении последних месяцев я использую Go для имплементаций Proof of Concept (прим.пер.: код для проверки работоспособности идеи) в свободное время, отчасти для изучения самого языка программирования. Программы сами по себе очень просты и не являются целью написания статьи, но сам опыт использования Go заслуживает того, чтобы сказать о нем пару слов. Go обещает быть (прим.пер.: статья написана в 2015) массовым языком для серьезного масштабируемого кода. Язык создан в Google, в котором активно им пользуются. Подведя черту, я искренне считаю, что дизайн языка Go плох для умных программистов.

Читать дальше →

+143

danila_savenkov Aug 23 2017 at 12:28

Kaggle Mercedes и кросс-валидация

18 min

64K

Open Data Science corporate blogData Mining*Python*Mathematics*Machine learning*

Всем привет, в этом посте я расскажу о том, как мне удалось занять 11 место в конкурсе от компании Мерседес на kaggle, который можно охарактеризовать как лидера по количеству участников и по эпичности shake-up. Здесь можно ознакомиться с моим решением, там же ссылка на github, здесь можно посмотреть презентацию моего решения в Yandex.

В этом посте пойдет речь о том, как студент консерватории попал в data science, стал призером двух подряд kaggle-соревнований, и каким образом методы математической статистики помогают не переобучиться на публичный лидерборд.

Начну я с того, что немного расскажу о задаче и о том, почему я взялся ее решать. Должен сказать, что в data science я человек новый. Лет 7 назад я закончил Физический Факультет СПбГУ и с тех пор занимался тем, что получал музыкальное образование. Идея немного размять мозг и вернуться к техническим задачам впервые посетила меня примерно два года назад, на тот момент я уже работал в оркестре Московской Филармонии и учился на 3 курсе в Консерватории. Начал я с того, что вооружившись книгой Страуструпа стал осваивать C++. Далее были конечно же разные онлайн курсы и примерно год назад я стал склоняться к мысли о том, что Data Science — это пожалуй именно то, чем я хотел бы заниматься в IT. Мое “образование” в Data Science — это курс от Яндекса и Вышки на курсере, несколько курсов из специализации МФТИ на курсере и конечно же постоянное саморазвитие в соревнованиях.

Читать дальше →

+55

Monnoroch Dec 4 2017 at 13:17

Вероятностная интерпретация классических моделей машинного обучения

8 min

32K

Machine learning*Mathematics*Algorithms*

Translation

Этой статьей я начинаю серию, посвященную генеративным моделям в машинном обучении. Мы посмотрим на классические задачи машинного обучения, определим, что такое генеративное моделирование, посмотрим на его отличия от классических задач машинного обучения, взглянем на существующие подходы к решению этой задачи и погрузимся в детали тех из них, что основаны на обучении глубоких нейронных сетей. Но прежде, в качестве введения, мы посмотрим на классические задачи машинного обучения в их вероятностной постановке.

Читать дальше →

+24

sergey_shambir Dec 1 2017 at 04:58

Восемь возможностей C++17, которые должен применять каждый разработчик

9 min

138K

Мы поговорим о восьми удобных изменениях, которые влияют на ваш повседневный код. Четыре изменения касаются самого языка, а ещё четыре — его стандартной библиотеки.

Вам также может быть интересна статья Десять возможностей C++11, которые должен использовать каждый C++ разработчик

Читать дальше →

+31

ModulbankOfficial Nov 14 2017 at 12:47

Готовим данные для анализа правильно

6 min

33K

Data Mining*Machine learning*

В задачах машинного обучения качество моделей очень сильно зависит от данных.
Но сами данные в реальных задачах редко бывают идеальными. Как правило, самих данных не много, количество доступных для анализа параметров ограничено, в данных шумы и пропуски. Но решать задачу как-то нужно.

Я хочу поделиться практическим опытом успешного решения задач машинного обучения. И дать простой набор шагов, позволяющих выжать из данных максимум.

Читать дальше →

+6

sim0nsays Oct 30 2017 at 06:34

Transformer — новая архитектура нейросетей для работы с последовательностями

7 min

90K

Machine learning*

Необходимое предисловие: я решил попробовать современный формат несения света в массы и пробую стримить на YouTube про deep learning.

В частности, в какой-то момент меня попросили рассказать про attention, а для этого нужно рассказать и про машинный перевод, и про sequence to sequence, и про применение к картинкам, итд итп. В итоге получился вот такой стрим на час:

Я так понял по другим постам, что c видео принято постить его транскрипт. Давайте я лучше вместо этого расскажу про то, чего в видео нет — про новую архитектуру нейросетей для работы с последовательностями, основанную на attention. А если нужен будет дополнительный бэкграунд про машинный перевод, текущие подходы, откуда вообще взялся attention, итд итп, вы посмотрите видео, хорошо?

Новая архитектура называется Transformer, была разработана в Гугле, описана в статье Attention Is All You Need (arxiv) и про нее есть пост на Google Research Blog (не очень детальный, зато с картинками).

Поехали.

Читать дальше →

+58

Mikhail86 Oct 25 2017 at 10:35

Использование нейронной сети для построения модели оценки заёмщиков в сфере онлайн-микрофинансирования

9 min

11K

В настоящее время для построения скоринговой модели стандартом “де факто” в финансовой отрасли является использование функций логистической регрессии (logit-функций). Суть метода сводится к нахождению такой линейной комбинации начальных данных (предикторов), которая в результате logit-преобразования будет максимально правдоподобно осуществлять предсказания.

Практический недостаток метода — в необходимости длительной подготовки данных для построения модели (около недели работы специалиста). В реальных условиях работы микрофинансовой компании набор данных о заемщиках постоянно меняется, подключаются и отключаются различные дата-провайдеры, сменяются поколения займов — этап подготовки становится узким местом.

Другой недостаток logit-функций связан с их линейностью — влияние каждого отдельного предиктора на конечный результат равномерно на всем множестве значений предиктора.
Модели на базе нейронных сетей лишены этих недостатков, но редко применяются в отрасли — нет надежных методов оценки переобучения, большое влияние “шумящих” значений в исходных данных.

Ниже мы покажем, как с помощью применения различных методов оптимизации модели на базе нейронных сетей позволяют получить лучший результат предсказаний по сравнению с моделями на базе logit-функций.

Читать дальше →

+7

Skapix Oct 12 2017 at 09:55

Тернистый путь Hello World

16 min

34K

Assembler*C*C++*Development for Linux*

Tutorial

Recovery Mode

Вдохновение на написание данной статьи было получено после прочтения похожей публикации для архитектуры x86 [1].

Данный материал поможет тем, кто хочет понять, как устроены программы изнутри, что происходит до входа в main и для чего всё это делается. Также я покажу как можно использовать некоторые особенности библиотеки glibc. И в конце, как и в оригинальной статье [1] будет визуально представлен пройденный путь. В большинстве своём статья представляет собой разбор библиотеки glibc.

Итак, начнём наш поход. Будем использовать Linux x86-64, а в качестве инструмента отладки — lldb. Также иногда будем дизассемблировать программу при помощи objdump.

Исходным текстом будет обычный Hello, world (hello.cpp):

#include <iostream>
int main()
{
        std::cout << "Hello, world!" << std::endl;
}

Читать дальше →

+74

antoshkka Sep 28 2017 at 19:47

На шаг ближе к С++20. Итоги встречи в Торонто

8 min

28K

Яндекс corporate blogC++*IT Standards*Compilers*Programming*

Несколько недель назад состоялась встреча международного комитета по стандартизации C++. На ней люди (в основном) не разменивались на мелочи и совершили несколько больших шагов на пути к С++20.

Главные новости:

Расширению Concepts быть в C++20!
Ranges, Networking и Coroutines/сопрограммы: выпущены в эксперимент в виде TS.
Модули: черновик TS готов.

Что всё это значит, как это упростит написание кода и что было ещё — читайте под катом.

Читать дальше →

+104

sekrasoft Sep 11 2017 at 12:33

Эзотерический язык, транслирующийся в шаблоны C++

23 min

21K

C++*Abnormal programming*Programming*Functional Programming*

КПДВ с примерами кода

Шаблоны C++ — полный по Тьюрингу язык, на котором можно писать compile-time программы. Только вот синтаксис рассчитан на описание параметризованных типов и слабо приспособлен к ясному выражению чего-то более сложного. В этой статье рассмотрим, как типы и шаблоны становятся значениями и функциями, а также узнаем, к чему привела попытка автора создать свой функциональный язык, транслирующийся в шаблоны C++. Для прочтения текста знания в области функционального программирования почти не требуются.

Читать дальше →

+59

32bit_me Sep 11 2017 at 01:55

Создание языка программирования с использованием LLVM. Часть 10: Заключение и другие вкусности LLVM

8 min

9.4K

C++*Open source*Compilers*Programming*

Tutorial

Translation

Оглавление:
Часть 1: Введение и лексический анализ
Часть 2: Реализация парсера и AST
Часть 3: Генерация кода LLVM IR
Часть 4: Добавление JIT и поддержки оптимизатора
Часть 5: Расширение языка: Поток управления
Часть 6: Расширение языка: Операторы, определяемые пользователем
Часть 7: Расширение языка: Изменяемые переменные
Часть 8: Компиляция в объектный код
Часть 9: Добавляем отладочную информацию
Часть 10: Заключение и другие вкусности LLVM

9.1. Заключение

Добро пожаловать в заключительную часть руководства “Создание языка программирования с использованием LLVM”. На протяжении этого руководства, мы вырастили наш маленький язык Калейдоскоп с бесполезной игрушки до довольно интересной (хотя, возможно, по-прежнему бесполезной) игрушки.

Читать дальше →

+15

devpony Sep 4 2017 at 09:02

PyTorch — ваш новый фреймворк глубокого обучения

22 min

217K

Python*Machine learning*Programming*

Gotta Torch?

PyTorch — современная библиотека глубокого обучения, развивающаяся под крылом Facebook. Она не похожа на другие популярные библиотеки, такие как Caffe, Theano и TensorFlow. Она позволяет исследователям воплощать в жизнь свои самые смелые фантазии, а инженерам с лёгкостью эти фантазии имплементировать.

Данная статья представляет собой лаконичное введение в PyTorch и предназначена для быстрого ознакомления с библиотекой и формирования понимания её основных особенностей и её местоположения среди остальных библиотек глубокого обучения.

Fire walk with me

+62

Kaspersky_Lab Aug 21 2017 at 11:21

Шесть мифов о блокчейне и Биткойне, или Почему это не такая уж эффективная технология

9 min

207K

«Лаборатория Касперского» corporate blogInformation Security*

Автор статьи — Алексей Маланов, эксперт отдела развития антивирусных технологий «Лаборатории Касперского»

Неоднократно слышал мнение о том, что блокчейн — это очень круто, это прорыв, за ним будущее. Спешу вас разочаровать, если вы вдруг поверили в это.

Уточнение: в этом посте мы поговорим о том варианте реализации технологии блокчейн, который используется в криптовалюте Биткойн. Существуют другие применения и реализации блокчейна, в некоторых из них устранены какие-либо недостатки «блокчейна классического», но обычно они построены на одинаковых принципах.

Читать дальше →

+163

1 2 ...

15

16 17 ...