Как стать автором
Обновить
9
0
Владислав @Gers1972

Аналитик данных

Отправить сообщение

Какую математику сегодня проверяют работодатели при найме Data Analysts & Scientists

Время на прочтение9 мин
Количество просмотров23K

Всемирный экономический форум в своем прогнозе самых востребованных профессий до 2025 года поставил Data Analysts & Scientists на первое место рейтинга. За последние три года в России число вакансий в этой сфере выросло в 4 раза. Мы видим, что поток желающих получать образование в DA/DS постоянно растет. Успех трудоустройства напрямую зависит от того, насколько знания кандидата отвечают актуальным требованиям работодателей. И математика – важнейшая часть этих требований. Мы выяснили, знания по каким именно темам математики и в каком формате проверяют на собеседованиях, а также – зависят ли требования по математике от грейда и нужно ли высшее образование, чтобы пройти отбор.

Читать далее
Всего голосов 8: ↑6 и ↓2+5
Комментарии6

10 итераторов, о которых вы могли не знать

Время на прочтение13 мин
Количество просмотров34K

Одним из главных достоинств Python является выразительность кода. Не последнюю роль в этом играет возможность удобной работы с коллекциями и последовательностями различного вида: перебор элементов списка по одному, чтение файла по строкам, обработка всех ключей и значений в словаре. Эти и многие другие подобные задачи в Python помогает решить так называемый протокол итераторов (Iterator protocol). Именно этот протокол обеспечивает работу цикла for, устанавливает по каким объектам можно итерироваться, а по каким нет. Как мы увидим далее, сам язык и стандартная библиотека очень широко используют возможности протокола. В этой статье попробуем отыскать не самые известные, но от этого не менее интересные примеры итераторов и итерируемых объектов, которые предлагает Python.

Читать далее
Всего голосов 43: ↑40 и ↓3+43
Комментарии18

Аналитики Axenix (ex-Accenture) сопоставили возможности российских и зарубежных BI-платформ

Время на прочтение2 мин
Количество просмотров1.8K

Могут ли российские BI-платформы все-таки заменить зарубежные системы? Мы много раз возвращались к этому вопросу, потому что сегодня именно он интересует и даже беспокоит многих руководителей. И, наверное, все уже знают, что могут, но не во всем. Но чего именно не хватает российским BI-системам, и кто смог создать наиболее функциональное решение на сегодняшний день? Подробности под катом.

Читать далее
Всего голосов 16: ↑14 и ↓2+12
Комментарии0

Самый полный стартовый гайд по ботам Telegram (python)

Время на прочтение5 мин
Количество просмотров259K

QQ Хабр! В этом гайде мы пройдемся по каждому шагу создания ботов в Telegram - от регистрации бота до публикации репозитория на GitHub. Некоторым может показаться, что все разжевано и слишком много элементарной информации, но этот гайд создан для новичков, хотя будет интересен и для тех, кто уже занимался разработкой в Telegram. Сегодня мы будем делать бота, который отвечает на заданные вопросы.

Читать далее
Всего голосов 29: ↑16 и ↓13+8
Комментарии23

Как мы строили самую большую модель кредитного скоринга в сегменте МСБ

Время на прочтение10 мин
Количество просмотров13K


Рано или поздно у любого банка появляется желание выдавать кредиты: максимально быстро, эффективно и с контролируемыми рисками. Для этой задачи нужна развитая система риск-менеджмента и как важная часть системы — модель кредитного скоринга. В статье речь пойдет о том, как это всё устроено в Точке.
Читать дальше →
Всего голосов 5: ↑3 и ↓2+3
Комментарии2

Магазин в 60-мерном пространстве или как сделать A/B-тесты точнее и надёжнее

Время на прочтение14 мин
Количество просмотров3.9K

Всем привет! Меня зовут Костя Гусев @nevoy, и в М.Видео-Эльдорадо моя команда развивает внутренние и партнёрские продукты. Перед тем, как поменять ассортимент или цены на полках 1 300 розничных магазинов, мы должны убедиться, что новое товарное предложение, как минимум, не приведёт к оттоку текущих покупателей, а еще лучше – привлечет новых. Для проведения подобных экспериментов мы пересмотрели подход к A/B-тестированию с учетом нашей офлайн-специфики, о чем и хотим рассказать в этой статье. 

Читать далее
Всего голосов 7: ↑7 и ↓0+7
Комментарии3

Как я участвовал в соревновании по машинному обучению и занял второе место (и почему не первое)

Время на прочтение6 мин
Количество просмотров5.5K

Привет, меня зовут Данил Астафуров, я стажёр в команде лаборатории машинного обучения в Альфа-Банке, работаю над кредитным скорингом. В этом году я поучаствовал в соревнованиях «Цифровой прорыв: сезон искусственного интеллекта», на котором занял второе место. Это единственный технологический проект от АНО «Россия — страна возможностей». 

Соревнование длилось месяц и я был на первом месте с первого решения. Но за неделю до конца соревнования участников стал резко больше и меня обогнали. Отрыв от второго места был почти 0.1 (хотя там можно было скрыть лучший результат). Занятость стажера не давала отвлекаться, поэтому было решено, что пусть идёт всё своим чередом. Сейчас, спустя время, я могу разобрать своё решение и понять, как всё же можно было добраться до первого места.

Читать далее
Всего голосов 21: ↑20 и ↓1+19
Комментарии3

Практический Metric learning

Время на прочтение8 мин
Количество просмотров17K

В этом посте мы поговорим о задаче metric learning, подходах к её решению, и разберём их на практике, используя open-source проект OpenMetricLearning. В качестве бонуса покажем, как с помощью простых эвристик можно догнать текущие SotA модели.

Читать далее
Всего голосов 18: ↑18 и ↓0+18
Комментарии4

Зоопарк ML-моделей или лучший справочник на Хабре

Время на прочтение4 мин
Количество просмотров5.6K

Привет, Хабр!

Меня зовут Ирина, я работаю ML инженером в Brand Analytics. Моя работа тесно связана с NLP, ведь мы ежедневно получаем огромное количество текстовых данных со всего интернета. Сегодня я хочу поговорить о теме, которая беспокоила меня еще с тех времен, когда я только начала изучать SOTA-решения в задачах обработки естественного языка.

Читать далее
Всего голосов 16: ↑16 и ↓0+16
Комментарии5

Без А/B результат XЗ, или Как построить высоконагруженную платформу А/B-тестов

Время на прочтение17 мин
Количество просмотров21K

Один из важных вопросов как в нашей жизни, так и в бизнесе, и в IT — вопрос эффективности. Эффективно ли мы планируем наше время, те ли задачи решает бизнес, тот ли код мы оптимизируем? Чтобы ответить на эти вопросы, результат должен обладать главным критерием измеримостью. Измеримость результата новых фич для бизнеса и IT обеспечивает платформа А/B-тестов. О том, как её можно построить, выдерживать большой RPS и при этом не облажаться уронить прод, я расскажу в этой статье. 

В конце статьи вы узнаете, как мы задетектили проблемы инфраструктуры, оптимизация которых значительно повлияла на скорость всего Ozon. 

Читать далее
Всего голосов 93: ↑92 и ↓1+106
Комментарии7

Понимают ли нейронные модели грамматику человеческого языка?

Время на прочтение11 мин
Количество просмотров2.7K

В лингвистике принято считать, что основным свойством языковой способности человека является возможность определять, насколько грамматически корректно предложение. Подобные суждения говорящих о правильности языкового высказывания получили название «оценок грамматичности/ приемлемости». Лингвисты используют суждения о грамматичности для исследования синтаксической структуры предложений.

Читать далее
Всего голосов 7: ↑7 и ↓0+7
Комментарии8

Как мы используем Greenplum в платформе данных Тинькофф

Время на прочтение13 мин
Количество просмотров7.2K

Меня зовут Дмитрий Немчин, я руковожу отделом, который отвечает за движки хранения и обработки данных в платформе данных Тинькофф. Несколько лет назад мы поняли, что продукты, на которых работало хранилище, перестали нас устраивать. Объемы росли, понадобилось масштабируемое решение. В этом тексте я расскажу, как мы пришли к Greenplum в качестве ядра хранилища данных и как используем его. 

Читать далее
Всего голосов 18: ↑17 и ↓1+17
Комментарии24

Realtime-матчинг: находим матчи за считанные минуты вместо 24 часов

Время на прочтение11 мин
Количество просмотров12K

Задача матчинга в последнее время набирает всё большую популярность и используется во многих сферах: банки матчат транзакции, маркетплейсы – товары, а Google и другие IT-гиганты проводят соревнования по решению таких задач на Kaggle.

Для маркетплейса матчинг – очень важный процесс, который решает сразу несколько задач:

1. При поисковом ранжировании из множества товаров показывать сначала самые выгодные предложения.

2. Объединять множество товаров в одну сущность и показывать предложения одного и того же товара от разных селлеров.

3. Понимать, как предложения селлеров выглядят относительно друг друга, и поощрять их дополнительными бонусами.

Сегодня мы поговорим не только о решении этой задачи, но и о способах её реализации: offline (batch) vs online (realtime). Также обсудим, как и зачем переходить от первого ко второму.

Читать далее
Всего голосов 42: ↑42 и ↓0+42
Комментарии8

Switchback-эксперименты в Ситимобил. Эпизод 1: Скрытая сила switchback

Время на прочтение12 мин
Количество просмотров16K

Сегодня с вами на связи отдел динамического ценообразования Ситимобил. И мы начинаем серию статей о том, как мы проводим и оцениваем ценовые эксперименты внутри нашего маркетплейса.

В этой статье мы расскажем вводную информацию про switchback и сетевой эффект.

Читать далее
Всего голосов 14: ↑14 и ↓0+14
Комментарии8

Сравнение FineBI и FineReport

Время на прочтение4 мин
Количество просмотров4.4K

Китайский производитель BI-решений FanRuan постепенно открывает для мирового рынка свои передовые разработки в сфере бизнес-анализа. Однако FineBI далеко не единственный продукт, предлагаемый компанией. Сегодня разберем подробнее, что из себя представляют FineBI и другой продукт анализа данных FineReport, рассмотрим их главные сходства и различия.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Как и зачем мы начали искать бизнес-инсайты в отзывах клиентов с помощью машинного обучения

Время на прочтение12 мин
Количество просмотров7.6K

Естественный источник обратной связи для любой компании — отзывы их клиентов. И Альфа-Банк не исключение: за год мы собираем больше 100 млн оценок по различным каналам и продуктам. Но среди этих оценок очень мало содержательных текстовых комментариев, а самый популярных среди них (за 2021 год) — «Вопрос не решен!» 

Чтобы решить эту проблему, Альфа-Банк собирает дополнительно до 500 тысяч отзывов в год. Этим занимается команда по сохранению лояльности клиентов: обзванивает клиентов, которые поставили негативную оценку, подробно их опрашивает, и старается решить проблему клиента на звонке, формируя свой экспертный отзыв.

Накапливаемые данные практически невозможно анализировать в ручном режиме в полном объеме, но можно сократить объем труда за счет машинного обучения. О том, как мы помогли оптимизировать процесс вычитки с помощью суммаризации на основе тематических моделей и будет эта статья.

Читать далее
Всего голосов 18: ↑17 и ↓1+19
Комментарии5

Персональное ранжирование на Авто.ру: как не потерять главный смысл поиска по параметрам

Время на прочтение9 мин
Количество просмотров5.4K


Поиск по базе объявлений — совсем не то же самое, что поиск по интернету. Он параметрический, а не полнотекстовый: вы можете с помощью фильтров однозначно определить, что вам нужно, сузив область поиска. Поэтому и ранжирование в нём, на первый взгляд, играет не настолько большую роль — казалось бы, документов или карточек в выдаче не так много, чтобы дополнительно их ранжировать. Но это справедливо для небольшой базы и только для одного поискового сценария.

В параметрическом поиске Авто.ру действует правило: незачем строить за пользователя предположения о том, что он имел в виду. Мы в любом случае покажем все объявления, соответствующие поисковым фильтрам в запросе. Роль движка ранжирования — отсортировать карточки так, чтобы наиболее релевантные для конкретного пользователя оказались выше, не более. Я работаю над этим уже несколько месяцев, сейчас расскажу об устройстве движка и первых результатах.
Читать дальше →
Всего голосов 15: ↑12 и ↓3+13
Комментарии6

Бутстреп и А/Б тестирование

Время на прочтение10 мин
Количество просмотров59K

Привет, Хабр! В этой статье разберёмся, как с помощью бутстрепа оценивать стандартное отклонение, строить доверительные интервалы и проверять гипотезы. Узнаем, когда бутстреп незаменим, и в чём его недостатки. 

Читать далее
Всего голосов 12: ↑12 и ↓0+12
Комментарии9

Простым языком о языковых моделях и цепи Маркова (Markov Chain)

Время на прочтение3 мин
Количество просмотров13K

N-граммы 

N-граммы – это статистические модели, которые предсказывают следующее слово после N-1 слов на основе вероятности их сочетания. Например, сочетание I want to в английском языке имеет высокую вероятностью, а want I to – низкую. Говоря простым языком, N-грамма – это последовательность n слов. Например, биграммы – это последовательности из двух слов (I want, want to, to, go, go to, to the…), триграммы – последовательности из трех слов (I want to, want to go, to go to…) и так далее.

Такие распределения вероятностей имеют широкое применение в машинном переводе, автоматической проверке орфографии, распознавании речи и умном вводе. Например, при распознавании речи, по сравнению с фразой eyes awe of an, последовательность I saw a van будет иметь большую вероятность. Во всех этих случаях мы подсчитываем вероятность следующего слова или последовательности слов. Такие подсчеты  называются языковыми моделями.

Как же рассчитать P(w)? Например, вероятность предложения P(I, found, two, pounds, in, the, library). Для этого нам понадобится цепное правило, которое определяется так:

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии2

Управляем параметрами в процессной аналитике при помощи фреймворка Hydra

Время на прочтение7 мин
Количество просмотров3.3K

Привет, Хабр! Меня зовут Александр Дунаевский, я Data Scientist в Сбере. Сегодня хочу рассказать про управление параметрами в Process mining (процессная аналитика) и нюансах этой задачи.

Для работы используется фреймворк Hydra, который здорово облегчает жизнь. В чём вообще проблема? В задачах процессной аналитики требуется постоянно менять входные параметры и сохранять результаты работы. Но при большом количестве запусков возникает потребность в отдельной системе для управления как передаваемыми параметрами, так и логированием. В статье рассмотрим, как фреймворк Hydra может помочь нам с этим. Кому интересно ― просим под кат!

Читать далее
Всего голосов 12: ↑12 и ↓0+12
Комментарии3

Информация

В рейтинге
Не участвует
Откуда
Тверь, Тверская обл., Россия
Дата рождения
Зарегистрирован
Активность