Статьи / Закладки / Профиль Gers1972 / Хабр

Как стать автором

Владислав @Gers1972

Аналитик данных

Профиль Публикации 4Комментарии 16Закладки 1.1K

zarina_amba 2 ноя 2022 в 16:18

Какую математику сегодня проверяют работодатели при найме Data Analysts & Scientists

9 мин

23K

Блог компании Яндекс ПрактикумИсследования и прогнозы в IT*Учебный процесс в ITКарьера в IT-индустрии

Всемирный экономический форум в своем прогнозе самых востребованных профессий до 2025 года поставил Data Analysts & Scientists на первое место рейтинга. За последние три года в России число вакансий в этой сфере выросло в 4 раза. Мы видим, что поток желающих получать образование в DA/DS постоянно растет. Успех трудоустройства напрямую зависит от того, насколько знания кандидата отвечают актуальным требованиям работодателей. И математика – важнейшая часть этих требований. Мы выяснили, знания по каким именно темам математики и в каком формате проверяют на собеседованиях, а также – зависят ли требования по математике от грейда и нужно ли высшее образование, чтобы пройти отбор.

Читать далее

+5

stkrizh 5 ноя 2022 в 11:06

10 итераторов, о которых вы могли не знать

13 мин

34K

Технотекст 2022

Одним из главных достоинств Python является выразительность кода. Не последнюю роль в этом играет возможность удобной работы с коллекциями и последовательностями различного вида: перебор элементов списка по одному, чтение файла по строкам, обработка всех ключей и значений в словаре. Эти и многие другие подобные задачи в Python помогает решить так называемый протокол итераторов (Iterator protocol). Именно этот протокол обеспечивает работу цикла for, устанавливает по каким объектам можно итерироваться, а по каким нет. Как мы увидим далее, сам язык и стандартная библиотека очень широко используют возможности протокола. В этой статье попробуем отыскать не самые известные, но от этого не менее интересные примеры итераторов и итерируемых объектов, которые предлагает Python.

Читать далее

+43

Alexey_Sharm 1 ноя 2022 в 13:46

Аналитики Axenix (ex-Accenture) сопоставили возможности российских и зарубежных BI-платформ

2 мин

1.8K

Блог компании VisiologyХранение данных*Визуализация данных*Исследования и прогнозы в IT*

Могут ли российские BI-платформы все-таки заменить зарубежные системы? Мы много раз возвращались к этому вопросу, потому что сегодня именно он интересует и даже беспокоит многих руководителей. И, наверное, все уже знают, что могут, но не во всем. Но чего именно не хватает российским BI-системам, и кто смог создать наиболее функциональное решение на сегодняшний день? Подробности под катом.

Читать далее

+12

quadboii 2 ноя 2022 в 13:50

Самый полный стартовый гайд по ботам Telegram (python)

5 мин

259K

Мессенджеры*Python*

Туториал

Из песочницы

QQ Хабр! В этом гайде мы пройдемся по каждому шагу создания ботов в Telegram - от регистрации бота до публикации репозитория на GitHub. Некоторым может показаться, что все разжевано и слишком много элементарной информации, но этот гайд создан для новичков, хотя будет интересен и для тех, кто уже занимался разработкой в Telegram. Сегодня мы будем делать бота, который отвечает на заданные вопросы.

Читать далее

+8

Aindstorm 2 ноя 2022 в 17:54

Как мы строили самую большую модель кредитного скоринга в сегменте МСБ

10 мин

13K

Блог компании ТочкаPython*Искусственный интеллектФинансы в IT

Рано или поздно у любого банка появляется желание выдавать кредиты: максимально быстро, эффективно и с контролируемыми рисками. Для этой задачи нужна развитая система риск-менеджмента и как важная часть системы — модель кредитного скоринга. В статье речь пойдет о том, как это всё устроено в Точке.

Читать дальше →

+3

mvideo 3 ноя 2022 в 14:25

Магазин в 60-мерном пространстве или как сделать A/B-тесты точнее и надёжнее

14 мин

3.9K

Блог компании М.Видео-ЭльдорадоBig Data*Математика*Управление продуктом*Статистика в IT

Технотекст 2022

Всем привет! Меня зовут Костя Гусев @nevoy, и в М.Видео-Эльдорадо моя команда развивает внутренние и партнёрские продукты. Перед тем, как поменять ассортимент или цены на полках 1 300 розничных магазинов, мы должны убедиться, что новое товарное предложение, как минимум, не приведёт к оттоку текущих покупателей, а еще лучше – привлечет новых. Для проведения подобных экспериментов мы пересмотрели подход к A/B-тестированию с учетом нашей офлайн-специфики, о чем и хотим рассказать в этой статье.

Читать далее

+7

DanAsOne 3 ноя 2022 в 17:35

Как я участвовал в соревновании по машинному обучению и занял второе место (и почему не первое)

6 мин

5.5K

Блог компании Альфа-БанкСпортивное программирование*Машинное обучение*

Из песочницы

Привет, меня зовут Данил Астафуров, я стажёр в команде лаборатории машинного обучения в Альфа-Банке, работаю над кредитным скорингом. В этом году я поучаствовал в соревнованиях «Цифровой прорыв: сезон искусственного интеллекта», на котором занял второе место. Это единственный технологический проект от АНО «Россия — страна возможностей».

Соревнование длилось месяц и я был на первом месте с первого решения. Но за неделю до конца соревнования участников стал резко больше и меня обогнали. Отрыв от второго места был почти 0.1 (хотя там можно было скрыть лучший результат). Занятость стажера не давала отвлекаться, поэтому было решено, что пусть идёт всё своим чередом. Сейчас, спустя время, я могу разобрать своё решение и понять, как всё же можно было добраться до первого места.

Читать далее

+19

lexibenderrr 1 ноя 2022 в 15:05

Практический Metric learning

8 мин

17K

Блог компании Open Data ScienceData Mining*Машинное обучение*

Туториал

В этом посте мы поговорим о задаче metric learning, подходах к её решению, и разберём их на практике, используя open-source проект OpenMetricLearning. В качестве бонуса покажем, как с помощью простых эвристик можно догнать текущие SotA модели.

Читать далее

+18

IrinaKoshkina 25 окт 2022 в 10:43

Зоопарк ML-моделей или лучший справочник на Хабре

4 мин

5.6K

Блог компании Brand AnalyticsМашинное обучение*Искусственный интеллектNatural Language Processing*

Технотекст 2022

Привет, Хабр!

Меня зовут Ирина, я работаю ML инженером в Brand Analytics. Моя работа тесно связана с NLP, ведь мы ежедневно получаем огромное количество текстовых данных со всего интернета. Сегодня я хочу поговорить о теме, которая беспокоила меня еще с тех времен, когда я только начала изучать SOTA-решения в задачах обработки естественного языка.

Читать далее

+16

evpak 21 сен 2022 в 15:01

Без А/B результат XЗ, или Как построить высоконагруженную платформу А/B-тестов

17 мин

21K

Блог компании Ozon TechВысокая производительность*Анализ и проектирование систем*Тестирование веб-сервисов*Управление продуктом*

Победитель Технотекст 2022

Один из важных вопросов как в нашей жизни, так и в бизнесе, и в IT — вопрос эффективности. Эффективно ли мы планируем наше время, те ли задачи решает бизнес, тот ли код мы оптимизируем? Чтобы ответить на эти вопросы, результат должен обладать главным критерием — измеримостью. Измеримость результата новых фич для бизнеса и IT обеспечивает платформа А/B-тестов. О том, как её можно построить, выдерживать большой RPS и при этом не ~~облажаться~~ уронить прод, я расскажу в этой статье.

В конце статьи вы узнаете, как мы задетектили проблемы инфраструктуры, оптимизация которых значительно повлияла на скорость всего Ozon.

Читать далее

+106

Xeanst 20 окт 2022 в 13:00

Понимают ли нейронные модели грамматику человеческого языка?

11 мин

2.7K

Блог компании Unistar Digital | Юнистар ДиджиталNatural Language Processing*Python*Машинное обучение*Искусственный интеллект

В лингвистике принято считать, что основным свойством языковой способности человека является возможность определять, насколько грамматически корректно предложение. Подобные суждения говорящих о правильности языкового высказывания получили название «оценок грамматичности/ приемлемости». Лингвисты используют суждения о грамматичности для исследования синтаксической структуры предложений.

Читать далее

+7

4etvegr 21 окт 2022 в 11:34

Как мы используем Greenplum в платформе данных Тинькофф

13 мин

7.2K

Блог компании Т-БанкАдминистрирование баз данных*

Технотекст 2022

Меня зовут Дмитрий Немчин, я руковожу отделом, который отвечает за движки хранения и обработки данных в платформе данных Тинькофф. Несколько лет назад мы поняли, что продукты, на которых работало хранилище, перестали нас устраивать. Объемы росли, понадобилось масштабируемое решение. В этом тексте я расскажу, как мы пришли к Greenplum в качестве ядра хранилища данных и как используем его.

Читать далее

+17

alex_golubev13 14 окт 2022 в 12:08

Realtime-матчинг: находим матчи за считанные минуты вместо 24 часов

11 мин

12K

Блог компании Ozon TechPython*Обработка изображений*Машинное обучение*Natural Language Processing*

Технотекст 2022

Задача матчинга в последнее время набирает всё большую популярность и используется во многих сферах: банки матчат транзакции, маркетплейсы – товары, а Google и другие IT-гиганты проводят соревнования по решению таких задач на Kaggle.

Для маркетплейса матчинг – очень важный процесс, который решает сразу несколько задач:

1. При поисковом ранжировании из множества товаров показывать сначала самые выгодные предложения.

2. Объединять множество товаров в одну сущность и показывать предложения одного и того же товара от разных селлеров.

3. Понимать, как предложения селлеров выглядят относительно друг друга, и поощрять их дополнительными бонусами.

Сегодня мы поговорим не только о решении этой задачи, но и о способах её реализации: offline (batch) vs online (realtime). Также обсудим, как и зачем переходить от первого ко второму.

Читать далее

+42

temsocial 3 июн 2021 в 19:40

Switchback-эксперименты в Ситимобил. Эпизод 1: Скрытая сила switchback

12 мин

16K

Блог компании СитимобилBig Data*Машинное обучение*

Сегодня с вами на связи отдел динамического ценообразования Ситимобил. И мы начинаем серию статей о том, как мы проводим и оцениваем ценовые эксперименты внутри нашего маркетплейса.

В этой статье мы расскажем вводную информацию про switchback и сетевой эффект.

Читать далее

+14

GromovBI 29 сен 2022 в 12:26

Сравнение FineBI и FineReport

4 мин

4.4K

Big Data*Визуализация данных*Хранение данных*Хранилища данных*

Китайский производитель BI-решений FanRuan постепенно открывает для мирового рынка свои передовые разработки в сфере бизнес-анализа. Однако FineBI далеко не единственный продукт, предлагаемый компанией. Сегодня разберем подробнее, что из себя представляют FineBI и другой продукт анализа данных FineReport, рассмотрим их главные сходства и различия.

Читать далее

+3

edyanakov 26 авг 2022 в 11:14

Как и зачем мы начали искать бизнес-инсайты в отзывах клиентов с помощью машинного обучения

12 мин

7.6K

Блог компании Альфа-БанкBig Data*Машинное обучение*Data Engineering*

Из песочницы

Естественный источник обратной связи для любой компании — отзывы их клиентов. И Альфа-Банк не исключение: за год мы собираем больше 100 млн оценок по различным каналам и продуктам. Но среди этих оценок очень мало содержательных текстовых комментариев, а самый популярных среди них (за 2021 год) — «Вопрос не решен!»

Чтобы решить эту проблему, Альфа-Банк собирает дополнительно до 500 тысяч отзывов в год. Этим занимается команда по сохранению лояльности клиентов: обзванивает клиентов, которые поставили негативную оценку, подробно их опрашивает, и старается решить проблему клиента на звонке, формируя свой экспертный отзыв.

Накапливаемые данные практически невозможно анализировать в ручном режиме в полном объеме, но можно сократить объем труда за счет машинного обучения. О том, как мы помогли оптимизировать процесс вычитки с помощью суммаризации на основе тематических моделей и будет эта статья.

Читать далее

+19

ieBoytsov 17 авг 2022 в 10:58

Персональное ранжирование на Авто.ру: как не потерять главный смысл поиска по параметрам

9 мин

5.4K

Блог компании ЯндексАлгоритмы*Машинное обучение*Поисковые технологии*

Поиск по базе объявлений — совсем не то же самое, что поиск по интернету. Он параметрический, а не полнотекстовый: вы можете с помощью фильтров однозначно определить, что вам нужно, сузив область поиска. Поэтому и ранжирование в нём, на первый взгляд, играет не настолько большую роль — казалось бы, документов или карточек в выдаче не так много, чтобы дополнительно их ранжировать. Но это справедливо для небольшой базы и только для одного поискового сценария.

В параметрическом поиске Авто.ру действует правило: незачем строить за пользователя предположения о том, что он имел в виду. Мы в любом случае покажем все объявления, соответствующие поисковым фильтрам в запросе. Роль движка ранжирования — отсортировать карточки так, чтобы наиболее релевантные для конкретного пользователя оказались выше, не более. Я работаю над этим уже несколько месяцев, сейчас расскажу об устройстве движка и первых результатах.

Читать дальше →

+13

X5Tech 2 авг 2022 в 16:59

Бутстреп и А/Б тестирование

10 мин

59K

Блог компании X5 TechPython*Математика*Статистика в IT

Привет, Хабр! В этой статье разберёмся, как с помощью бутстрепа оценивать стандартное отклонение, строить доверительные интервалы и проверять гипотезы. Узнаем, когда бутстреп незаменим, и в чём его недостатки.

Читать далее

+12

vldmrvslv 5 июл 2022 в 17:04

Простым языком о языковых моделях и цепи Маркова (Markov Chain)

3 мин

13K

Python*Data Mining*Big Data*Natural Language Processing*

Туториал

N-граммы

N-граммы – это статистические модели, которые предсказывают следующее слово после N-1 слов на основе вероятности их сочетания. Например, сочетание I want to в английском языке имеет высокую вероятностью, а want I to – низкую. Говоря простым языком, N-грамма – это последовательность n слов. Например, биграммы – это последовательности из двух слов (I want, want to, to, go, go to, to the…), триграммы – последовательности из трех слов (I want to, want to go, to go to…) и так далее.

Такие распределения вероятностей имеют широкое применение в машинном переводе, автоматической проверке орфографии, распознавании речи и умном вводе. Например, при распознавании речи, по сравнению с фразой eyes awe of an, последовательность I saw a van будет иметь большую вероятность. Во всех этих случаях мы подсчитываем вероятность следующего слова или последовательности слов. Такие подсчеты называются языковыми моделями.

Как же рассчитать P(w)? Например, вероятность предложения P(I, found, two, pounds, in, the, library). Для этого нам понадобится цепное правило, которое определяется так:

Читать далее

+4

Sber 4 июл 2022 в 13:03

Управляем параметрами в процессной аналитике при помощи фреймворка Hydra

7 мин

3.3K

Блог компании СберPython*Анализ и проектирование систем*Data Mining*Управление проектами*

Привет, Хабр! Меня зовут Александр Дунаевский, я Data Scientist в Сбере. Сегодня хочу рассказать про управление параметрами в Process mining (процессная аналитика) и нюансах этой задачи.

Для работы используется фреймворк Hydra, который здорово облегчает жизнь. В чём вообще проблема? В задачах процессной аналитики требуется постоянно менять входные параметры и сохранять результаты работы. Но при большом количестве запусков возникает потребность в отдельной системе для управления как передаваемыми параметрами, так и логированием. В статье рассмотрим, как фреймворк Hydra может помочь нам с этим. Кому интересно ― просим под кат!

Читать далее

+12

6

7 8 ...