Pull to refresh
0
mind2cloud @bitcompilread⁠-⁠only

Data Scientist

Send message

Какую математику сегодня проверяют работодатели при найме Data Analysts & Scientists

Reading time9 min
Views25K

Всемирный экономический форум в своем прогнозе самых востребованных профессий до 2025 года поставил Data Analysts & Scientists на первое место рейтинга. За последние три года в России число вакансий в этой сфере выросло в 4 раза. Мы видим, что поток желающих получать образование в DA/DS постоянно растет. Успех трудоустройства напрямую зависит от того, насколько знания кандидата отвечают актуальным требованиям работодателей. И математика – важнейшая часть этих требований. Мы выяснили, знания по каким именно темам математики и в каком формате проверяют на собеседованиях, а также – зависят ли требования по математике от грейда и нужно ли высшее образование, чтобы пройти отбор.

Читать далее

Нейронные сети: будущее искусственного интеллекта и его влияние на общество

Reading time4 min
Views16K

В последние годы нейронные сети становятся все более мощными и сложными, и они могут революционизировать широкий спектр отраслей и приложений. Однако их растущие возможности также поднимают важные вопросы об их потенциальном влиянии на общество, в том числе о возможности увольнения с работы и этических последствиях принятия решений искусственным интеллектом.

Осознать неизбежность потери работы

Как устроен процесс найма и собеседований на позицию Machine Learning Engineer

Reading time5 min
Views24K

Это статья с 21-ой ссылкой о подготовке к собеседованиям. Я собеседовался на позиции Machine Learning Engineer.

Разобрал основные этапы (алгоритмы, machine learning system design, поведенческий этап) и как к ним готовиться.

Читать далее

Что такое MLOps? Самый подробный текст про работу с ML-системами, который вы найдете в интернете

Reading time25 min
Views35K


В этом материале мы подробно разбираем концепцию MLOps. Более того, делаем это тремя способами. Сначала теоретически — через самую толковую, на наш взгляд, схему MLOps. Затем — концептуально, через артефакты, которые заложены в подходе. И наконец, через понимание MLOps как информационной системы.

Сохраняйте текст в закладки, потому что на данный момент это, возможно, самое полное описание MLOps на русском языке (и не перевод очередной англоязычной статьи!). Подарим мерч Selectel тому, кто пришлет ссылку на более развернутое описание концепции в комментариях.
Читать дальше →

Объяснимый искусственный интеллект для самых маленьких. Часть 1 — Введение

Reading time4 min
Views13K

Поскольку это лишь первая часть, в которой мы поймем что такое ИИ, в чем заключается одна из его главных слабостей - начнем, как полагается айтишникам, издалека, с мемчиками и максимальным осуждением, а далее углубимся в тему и будем смотреть живые примеры и код с красивыми графиками. Людям знакомым с машинным обучением можно этот этап пропустить, вы уже не самые маленькие :).

Искуственный интеллект в понимании среднестатистического обывателя, эта такая штука, которая делает что хочет, ведет себя как ей нравится, никого не слушает и обязательно захватит мир, если мы его будем развивать.

Ну ладно, что там дальше?

Нейросетевой подход к моделированию транзакций расчетного счета

Reading time9 min
Views9K

Естественным источником информации в банке о покупках клиента являются карточные транзакции – любые операции, проводимые по дебетовым или кредитным картам. При этом денежные операции клиента не ограничиваются транзакциями, проводимыми с помощью карт. Оплата ЖКХ, оплата образования, крупные покупки и другие денежные переводы – это примеры транзакций, которые никак не привязаны к карте клиента, но при этом они ассоциируются с другой банковской сущностью – расчетным счетом. 

Про то, как мы в Альфа-Банке применяем карточные транзакции в моделировании, мы уже рассказывали в этом посте. Логичным развитием идеи использования карточной транзакционной истории клиента является использование данных, которые содержатся в клиентской истории транзакций расчетного счета.

Читать далее

ML и DS оттенки кредитного риск-менеджмента

Reading time14 min
Views28K


Всем привет.

Мы команда Advanced Analytics GlowByte и запускаем цикл статей о моделировании в задачах управления кредитным риском. Цель цикла — кратко рассказать о сфере, расширить словарь профессиональных терминов и дать ссылки на полезные статьи и книги. В вводной статье мы покажем особенности применения ML и DS в сфере кредитного риска, без глубокого погружения в предметную область.

Далее раскроем вопросы методологии моделирования, работы с компонентами кредитного риска, а также подходов к калибровке и валидации, которые учитывают специфику работы моделей в банке.

Основа публикаций — наш проектный опыт по разработке и внедрению аналитических моделей в банковской сфере.

А теперь под кат.
Читать дальше →

Четыре функции для быстрой работы с Big Data

Reading time6 min
Views13K

Я часто пользуюсь функциями для работы с большими данными. Они позволяют упросить и ускорить работу. Некоторые я нашел на просторах интернета, другие написал сам. Сегодня хочу поделиться четырьмя из них, может кому-то будет полезно.

Читать далее

Метод K-Nearest Neighbors. Разбор без использования бибилотек и с использованием бибилиотек

Reading time11 min
Views41K

Начнем разбор алгоритмов машинного обучения с наиболее прозрачной для понимания задачи классификации. Чтобы понять, что это за задача и для чего она вообще решается, давайте вспомним о весьма перспективной разработке - беспилотных автомобилях. Понятно, что сама по себе машина не понимает, что такое проезжая часть, и не может отличить человека от светофора - для этого ее надо научить различать знаки, людей, животных и т.д. Здесь, помимо достаточно сложных отраслей машинного обучения, таких как машинное зрение и системы принятия решений, используется классификация: автомобиль "учится" различать препятствия, которые необходимо объехать; людей, чтобы пропустить их при переходе дороги; знаки, чтобы точно следовать правилам. Говоря простым языком, система относит объекты к тому или иному классу, чтобы правильно себя вести при встрече с ними, то есть классификация в машинном обучении - не что иное, как задача отнесения объекта к одному из заранее определенных классов на основании его признаков.

Начнем с kNN - одного из наиболее распространенных методов классификации в ML. Его достаточно просто реализовать в отличие от других алгоритмов, поэтому для наглядности того, как в целом работает классификация, мы сначала напишем собственную реализацию и посмотрим на результаты, применив метод к стандартному датасету Iris, а затем сравним с библиотечной реализацией из библиотеки sklearn. Следующие алгоритмы мы не будем разбирать настолько досконально из-за трудоемкой реализации - рассмотрим общую методологию и разберем, на основе чего алгоритм принял решение в пользу того или иного класса.

Читать далее

Визуализация данных GeoJSON с использованием GeoPandas и Python

Reading time3 min
Views14K

Ежесекундно в мире появляется огромное количество информации, которую обрабатывать и понимать человеку в большинстве случаев невозможно. Благодаря визуализации данных (построении графиков, диаграмм и нанесении данных на карты), люди могут анализировать информацию, делать выводы и строить прогнозы.

Автором данной статьи является доктор Саумен Атта - постдокторант Лаборатории математических наук в Нантском университете, Франция. Ознакомиться с его блогом можно по ссылке. Оригинал статьи вы можете найти тут.

Читать далее

Drag-and-Drop на Python+OpenCV

Reading time5 min
Views8.1K

В данной статье расскажу про простой Drag-and-Drop на Python+OpenCV.

Идея заключается в перемещении созданных квадратов на экране жестами руки. Так как нам потребуется как-то воспроизводить клик, то представим, что кликом будет служить соединение указательного и среднего пальцев. Теперь можно писать код.

Читать далее

Самые интересные нейросети открытого доступа

Reading time7 min
Views281K

К началу 2020-х годов нейросети успели с переднего края научных разработок проникнуть в сферу общедоступных интернет-развлечений. В наши дни каждый может поэкспериментировать с генерацией текстов или изображений, сгенерировать фотореалистичного человека или кота, превратить набросок качества paint — во вполне сносный пейзаж, и всё такое прочее. И в некоторых случаях даже без регистрации и СМС (ну или почти без оных).
Читать дальше →

Обработка изображений с помощью библиотеки Python Pillow

Reading time33 min
Views178K

Данный туториал является переводом статьи, написанной Stephen Grupetta. Все изображения и коды скопированы без изменений. В конце вы найдете примечания относительно данной информации, а также ссылку на github с работающим кодом. Если код, приведенный автором не запускается, переходите в примечания и, возможно, сможете найти решение вашей ошибки.

Читать далее

Моя шпаргалка по Скраму для подготовки к интервью. Часть 1

Reading time11 min
Views48K

Как быстро подготовиться к вопросам по Скрам на собеседовании? Предлагаю свою шпаргалку, которой пользовалась на протяжении многих лет, и готовила по ней многих аналитиков.

Читать

7 причин не становиться тимлидом

Reading time6 min
Views13K

Как становятся тимлидами? Типичный путь в этот омут — “эволюционный”. Ты успешно выполнил кучу экспидайт-эпик-мамонтов, принёс в своё разработческое племя благодатный огонь метрик и мониторинга, показал, что тесты — это хорошо... И вот тебя уже назначают тимлидом — просто по принципу, что ты самый сильный среди других разработчиков. А бывает, что ты слишком долго на проекте, и вот, вуаля, предыдущий тимлид сгорел в битве при Монолите, и теперь по наследству мантия обязанностей переходит к тебе. Ну, и, конечно, путь инициативы — где ты сам вызвался на эту должность, из-за того, что очень ответственный, или от скуки, ради денег, или просто по фану.

Меня зовут Константин, недавно в Каруне я стал тимлидом и тут я поделюсь причинами, почему не стоит необдуманно падать в управленческую бездну.

Читать далее

Связь GreenPlum и PostgreSQL

Reading time5 min
Views16K

GreenPlum — популярное решение для масштабных аналитических систем и в небольших стартапах, и в крупных корпорациях. Оно предлагает понятный пользователям синтаксис ANSI SQL, хорошо ложится на облачный ландшафт, позволяет обучать и применять модели машинного обучения, а ещё поддерживает реляционную СУБД PostgreSQL. В статье поговорим, как связаны GreenPlum и PostgreSQL, разберём их сходства и отличия. 

Читать далее

#2 Нейронные сети для начинающих. NumPy. MatplotLib. Операции с изображениями в OpenCV

Reading time16 min
Views26K

Это вторая статья из серии введения в «Нейронные сети для начинающих». Здесь и далее мы постараемся разобраться с таким понятием — как обработка графических данных, визуализация данных, а также на практике решим пару простых задач. Предыдущая статья — #1 Нейронные сети для начинающих. Решение задачи классификации Ирисов Фишера
Маленький совет из будущего: «В данной статье будут затронуты некоторые понятия, о которых я писал раньше, так что для полного понимания темы, советую прочитать и предыдущую статью»
На самом деле, на хабре было множество публикаций по этой теме, но все они говорят о разных вещах. Давайте разберёмся и соберём всё в одну кучку, для полноценного понимания картины мира.
Читать дальше →

Искусственный интеллект в медицине: сферы, технологии и перспективы

Reading time12 min
Views51K

Искусственный интеллект, внедряемый в узкоспециальных областях, оказывается перспективнее более общих проектов, недостатки которых мы рассмотрели в предыдущей статье на примере беспилотных автомобилей. На этот раз разберем медицинские технологии. И для начала один любопытный график, который дает наглядное представление об уровне развития технологий машинного обучения в медицине. За 15 лет (с 2005 по 2020 гг.) количество случаев внедрения ИИ в медицинские процессы выросло почти в 62 раза.

Читать далее

В чём различия между Data Science, машинным обучением, ИИ, глубоким обучением и Data Mining

Reading time13 min
Views36K
image

Данные становятся движущей силой современного мира, поэтому почти каждый уже сталкивался с такими терминами, как data science, «машинное обучение», «искусственный интеллект», «глубокое обучение» и data mining. Но что же обозначают эти понятия? Какие различия и связи между ними существуют?

Все перечисленные выше термины, несмотря на их взаимосвязь, нельзя использовать в качестве синонимов. Эта статья поможет вам не только понять, какие исследования и опыт позволяют извлекать знания из данных, чтобы делать машины умнее, но и как конкретно это происходит.
Читать дальше →

Прогнозирование спроса: как СберМаркет прогнозирует, что вы закажете вечером в пятницу

Reading time5 min
Views9.1K

image


Привет! Меня зовут Андрей Захаров, я Senior Data Scientist в СберМаркете. Когда вы заказываете продукты к пятничному ужину, мы должны быть уверены, что для доставки хватит сборщиков и курьеров. Поэтому мы прогнозируем число заказов в каждом магазине с точностью до часа. В статье — как мы это сделали на данных, которые устаревают уже за 3 месяца.

Читать дальше →
1
23 ...

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Works in
Registered
Activity