Статьи / Закладки / Профиль Stangoat13 / Хабр

Data Science является одной из самых востребованных, высокооплачиваемых и перспективных профессий в современном мире. Как следствие, конкуренция за вакансии в этой области очень высока. Если вы ищете работу в качестве Data Science Junior, подготовка к собеседованию — это один из самых важных этапов. В этой статье мы рассмотрим, что нужно изучить к собеседованию на Data Science Junior и что ждут работодатели.

Stantin 22 мар 2023 в 04:46

Распознавание подачи в волейболе с помощью машинного обучения

6 мин

3.1K

Python*Обработка изображений*Машинное обучение*Искусственный интеллект

Обзор

Cезон machine learning

Развитие искусственного интеллекта сейчас переживает бурный рост, и сфера его применения постоянно расширяется, проникая в области, ранее никак не связанные с ИТ.

Хорошим примером такой экспансии является спорт.

Не так давно появился термин Sport tech и количество проектов значительно выросло за последние несколько лет.

Волейбол — перспективное направление в спортивной аналитике. Один из самых массовых видов спорта, распространен в очень многих странах.

Итак, у нас есть видеозапись волейбольной игры. С какой целью она обычно делается? Возможно, чтобы показать друзьям или пересматривать лучшие моменты долгими зимними вечерами. Но наверное, в сыром виде, запись не очень годится для этого. Ведь скорее всего, первые минут десять игроки будут переодеваться и разминаться, а после каждого розыгрыша будет проходить минута‑другая, пока кто‑то сбегает за мячом.

В общем, мы подходим к очевидной цели — избавиться от всего скучного и оставить только самое интересное. Ок, стратегия ясна, переходим к тактике.

Для стороннего зрителя (которым конечно является искуственный интеллект) есть несколько маркеров для привлечения внимания: игроки, мяч, судья, табло. Любой из этих объяектов может быть подвергнут аналитике. Но сегодня мы поговорим о мяче.

Связь зрительского интереса и мяча вполне очевидна: мяч летает — мы смотрим. Нет мяча — некуда смотреть. В общем, понятно, что нам надо вырезать все кадры, где мяч не летает и тогда это можно будет смотреть без зевоты.

+10

VolkoIvan 9 дек 2022 в 21:22

Как получить доступ к chatGPT в России

4 мин

1.5M

Веб-разработка*Разработка мобильных приложений*Разработка игр*Дизайн игр*Искусственный интеллект

Туториал

✏️ Технотекст 2023

Всем привет! Перед началом статьи сразу скажу:

САМЫЙ ВАЖНЫЙ ДИСКЛЕЙМЕР: естественно, покупая смс на чужой номер вы полностью компрометируете безопасность своего аккаунта. Мало ли кто его потом еще купит для получения доступа. Поэтому, помните, что представленный в данной статье способ получения доступа - это только на "поиграться". Не стоит вводить туда свои реальные почты и использовать это в работе, так как полученный доступ может быть в любой момент взломан/прикрыт.

Но да ладно, приступим. Здесь без всякого объяснения того что такое ChatGPT - кому надо тот знает. В этой статье я хочу поделиться путем который вас за 30Р может к этому боту привести. Вдаваться в детали бота я не хочу, это чисто статья для ребят которые хотят без лишних запар пройти путь человека который доступ к боту уже получил :)

Как и многих вокруг, меня удивила новая технология от Open AI. Попытался зайти и зарегистрироваться через гугл, но...

+67

268

Nadjuscha 16 мар 2023 в 19:56

Гугл таблица как БД для телеграм бота

Простой

6 мин

24K

JavaScript*API*

Туториал

В этом посте рассмотрим в деталях, как непосредственно использовать гугл таблицы в качестве базы данных. Попробуем написать бота, который забирает вопросы квиза с вариантами ответов из гугл таблицы и записывает ответы назад.

matantsev 11 дек 2022 в 04:08

Self-Supervised Learning. Contrastive learning

5 мин

8.6K

Машинное обучение*Искусственный интеллект

В предыдущих статьях мы разобрали много аспектов, связанных с SSL. Теперь пришло время посмотреть на методы, которые используют достаточно очевидное, на первый взгляд, знание - одна и та же картинка похожа, а разные картинки - разные. Это основная идея методов с contrastive подходом. Ниже мы разберём более подробно как эту идею можно использовать при конфигурации фреймворка обучения.

Напомню, что это четвертая статья из цикла про SSL в Computer Vision.

Узеать про SSL

Artgor 7 июн 2022 в 17:49

Как мы не смогли создать медицинского чат-бота. История проекта, который так и не увидел свет

19 мин

9.3K

Блог компании MTS AINatural Language Processing*Искусственный интеллектМашинное обучение*Python*

Технотекст 2022

Привет,

Это статья нашего бывшего коллеги, Андрея Лукьяненко, который работал над проектом по созданию медицинского чат-бота. Андрей покинул нашу компанию по собственному желанию (и с большим сожалением для нас), но несмотря на это, мы решили опубликовать его материал. Мы уверены, что эта статья будет полезна всем, кто работает над созданием специализированных чат-ботов.

Итак, передаем слово Андрею Лукьяненко, бывшему техлиду MTS AI.

В последние годы рынок телемедицины (дистанционных медицинских услуг) и в целом медтеха активно растет, и пандемия коронавируса только ускорила его развитие. Такие технологии востребованы, потому что они относительно дешевы, доступны вне зависимости от места проживания пациента и дают возможность самостоятельно выбирать врачей.

+25

oasidorshin 10 фев 2023 в 15:58

Как я занял 13 место из 3500+ участников и стал Kaggle Competition Master

Средний

14 мин

11K

Блог компании Альфа-БанкСпортивное программирование*Машинное обучение*Карьера в IT-индустрии

Ретроспектива

✏️ Технотекст 2023

Привет Хабр! Меня зовут Олег Сидоршин, я стажер (с марта буду джуном) в Лаборатории машинного обучения Альфа-Банка. До перехода в коммерческую разработку для практики своих навыков я активно участвовал в Kaggle-соревнованиях.

Этот пост — ретроспектива о крупном соревновании по компьютерному зрению Petfinder Pawpularity Prediction, которое проходило в начале 2022 года. Расскажу, как сражался на одном уровне с Nvidia с их холодильниками, что помогло пережить полет с 400+ места на 13, и конечно же, о главных советах и уроках для улучшения качества ваших ML-систем на соревнованиях и в рабочей практике, даже если у вас почти нет бюджета.

+47

boygenius 31 янв 2023 в 14:29

Теория вероятностей в машинном обучении. Часть 1: модель регрессии

28 мин

26K

Блог компании Open Data ScienceМатематика*Машинное обучение*Статистика в ITИскусственный интеллект

В данной статье мы подробно рассмотрим вероятностную постановку задачи машинного обучения: что такое распределение данных, дискриминативная модель, i.i.d.-гипотеза и метод максимизации правдоподобия, что такое регрессия Пуассона и регрессия с оценкой уверенности, и как нормальное распределение связано с минимизацией среднеквадратичного отклонения.

В следующей части рассмотрим метод максимизации правдоподобия в классификации: в чем роль кроссэнтропии, функций сигмоиды и softmax и как кроссэнтропия связана с "расстоянием" между распределениями вероятностей и почему модель регрессии тоже обучается через минимизацию кроссэнтропии. Затем перейдем от метода максимизации правдоподобия к байесовскому выводу и его различным приближениям.

Данная серия статей не является введением в машинное обучение и предполагает знакомство читателя с основными понятиями. Задача статей - рассмотреть машинное обучение с точки зрения теории вероятностей, что позволит по новому взглянуть на проблему, понять связь машинного обучения со статистикой и лучше понимать формулы из научных статей. Также на описанном материале строятся более сложные темы, такие как вариационные автокодировщики (Kingma and Welling, 2013), нейробайесовские методы (Müller et al., 2021) и даже некоторые теории сознания (Friston et al., 2022).

+23

avshkol 28 янв 2023 в 16:59

Разбираем Теорию Игр с python-библиотеками nashpy и axelrod

16 мин

7.8K

Python*Разработка игр*Математика*Логические игры

Обзор

Перевод

Пожалуй, самый простой и понятный разбор основ Теории игр, из всех, которые я встречал, с демонстрацией результатов нескольких наиболее популярных игр на питоновских библиотеках nashpy и axelrod.

Это перевод сразу двух статей Mythili Krishnan , аналитика с medium.com

Дочитавших до конца и желающих быстро испытать пару стратегий, ждет небольшой бонус...

+ поучаствуйте в опросе, что вы вообще думаете о теории игр?

snakers4 16 мар 2021 в 13:58

Собираем Свой Суперкомпьютер Недорого

10 мин

30K

Блог компании Open Data ScienceКомпьютерное железоМашинное обучение*Обработка изображений*Развитие стартапа

thumbnail

Нынче никого не удивишь достижениями ~~искусственного интеллекта~~ машинного обучения (ML) в самых разных областях. При этом доверчивые граждане редко задают два вопроса: (i) а какая собственно цена экспериментов и финальной системы и (ii) имеет ли сделанное хоть какую-то целесообразность? Самым важным компонентом такой цены являются как ни странно цена на железо и зарплаты людей. В случае если это все крутится в облаке, нужно еще умножать стоимость железа в 2-3 раза (маржа посредника).

И тут мы неизбежно приходим к тому, что несмотря на то, что теперь даже в официальные билды PyTorch добавляют бета-поддержку ROCm, Nvidia де-факто в этом цикле обновления железа (и скорее всего следующем) остается монополистом. Понятно, что есть TPU от Google и мифические IPU от Graphcore, но реальной альтернативы не в облаке пока нет и не предвидится (первая версия CUDA вышла аж 13 лет назад!).

Что делать и какие опции есть, когда зачем-то хочется собрать свой "суперкомпьютер", но при этом не хочется платить маржу, заложенную в продукты для ультра-богатых [мысленно вставить комментарий про госдолг США, майнинг, крах Бреттон-Вудсткой системы, цены на здравоохранение в странах ОЭСР]? Чтобы попасть в топ-500 суперкомпьютеров достаточно купить DGX Superpod, в котором от 20 до 100 с лишним видеокарт. Из своей практики — де-факто серьезное машинное обучение сейчас подразумевает карточки Nvidia в количестве примерно 8-20 штук (понятно что карточки бывают разные).

Читать дальше →

+42

egaoharu_kensei 31 дек 2022 в 11:03

Математика для Data Science и машинного обучения за 8 месяцев. Подробный план обучения

Простой

7 мин

93K

Data Mining*Big Data*Математика*Машинное обучение*Учебный процесс в IT

Роадмэп

Технотекст 2022

Из песочницы

Беспилотные автомобили, продвинутые голосовые ассистенты, рекомендательные системы – это только малая часть тех классных продуктов, которые создаются с помощью инженеров по машинному обучению и, думаю, не для кого не секрет, что за кулисами сего чуда стоит математика. Именно она играет главную роль в понимании алгоритмов машинного и глубокого обучения.

Машинное обучение держится на трёх основных столпах:

+22

fartuk 29 мар 2021 в 16:15

Мои machine learning тулы для инвестирования

17 мин

35K

Блог компании Open Data ScienceData Mining*Машинное обучение*Венчурные инвестицииИскусственный интеллект

В последнее время все больше людей приходит к тому, чтобы не держать деньги под матрасом, а куда-то их инвестировать в надежде сохранить и преумножить свой капитал. Вариант с матрасом плох тем, что с повышением цен на товары и услуги(инфляция) покупательная способность денег падает и через какое-то время купить на них можно значительно меньше, чем раньше. Есть много вариантов, куда вложить деньги(недвижимость, банковский вклад, ценные металлы), но в последнее время популярным становится инвестирование в акции. Только у брокера Тинькофф Инвестиции за несколько лет число клиентов превысило 3.5 млн. В статье я постараюсь описать свой подход к выбору бумаг и поделюсь инструментами, которые для этого разрабатываю.

+53

Boroda747 16 ноя 2021 в 08:35

K8S для начинающих. Первая часть

10 мин

208K

Системное администрирование*Kubernetes*

Из песочницы

Технологический прогресс не стоит на месте, особенно если это касается области IT. Еще в 2014 году, когда Google открыл исходный код проекта Kubernetes, который вобрал в себя лучшее из Borg и Omega - внутренних систем Google, его мало кто знал и использовал. Но прошло 7 лет и K8S (он же Kubernetes) стал успешным open-source проектом, который используется по всему миру. В большинстве компаний инфраструктура построена на K8S - от маленьких проектов до огромных кластеров и облаков, которые обеспечивают бесперебойную доступность сервисов. Давайте коснемся Kubernetes и расскажем, как им пользоваться на практике. Но сначала надо спросить, а что такое этот ваш Kubernetes и для чего он собственно нужен. Подойдет ли он для ваших проектов.

+15

matantsev 11 дек 2022 в 04:25

Self-Supervised Learning. Кластеризация как лосс

6 мин

3.6K

Машинное обучение*Искусственный интеллект

Мы рассмотрели ранее в цикле статей про SSL основные подходы к обучению моделей без разметки. Пока что за скобками остались методы, основанные на кластеризации, и настало время это исправить. В статье рассмотрим основные подходы как учитывать весь датасет при обучениии и пытаться растащить его в пространстве эмбеддингов.

Напомню, что это пятая статья из цикла про SSL в Computer Vision.

Узнать про SSL

Sagidullin 8 дек 2022 в 15:50

Что такое MLOps? Самый подробный текст про работу с ML-системами, который вы найдете в интернете

25 мин

28K

Блог компании SelectelDevOps*IT-инфраструктура*Высокая производительность*Машинное обучение*

Технотекст 2022

В этом материале мы подробно разбираем концепцию MLOps. Более того, делаем это тремя способами. Сначала теоретически — через самую толковую, на наш взгляд, схему MLOps. Затем — концептуально, через артефакты, которые заложены в подходе. И наконец, через понимание MLOps как информационной системы.

Сохраняйте текст в закладки, потому что на данный момент это, возможно, самое полное описание MLOps на русском языке (и не перевод очередной англоязычной статьи!). Подарим мерч Selectel тому, кто пришлет ссылку на более развернутое описание концепции в комментариях.

Читать дальше →

+43

crazyfrogspb1 27 окт 2022 в 12:19

Хитрые методики сэмплинга данных

6 мин

2.6K

Искусственный интеллектМашинное обучение*

Любой, кто хоть раз обучал нейронки, знает, что принято на каждой эпохе шаффлить датасет, чтобы не повторялся порядок батчей. А зачем это делать? Обычно это объясняют тем, что шаффлинг улучшает генерализацию сетей, делает точнее эстимейт градиента на батчах и уменьшает вероятность застревания SGD в локальных минимумах. Здесь можно посмотреть визуализацию поведения градиентов батчей с шаффлингом и без шаффлинга. Ну и самый простой и традиционный для ML аргумент - наши эксперименты подтверждают, что отключение шаффлинга действительно ухудшает метрики, так что проверяйте, не забагован ли ваш трейн-луп ? Еще больше полезной информации в нашем telegram-канале Варим ML

danila_savenkov 23 авг 2017 в 15:28

Kaggle Mercedes и кросс-валидация

18 мин

61K

Блог компании Open Data ScienceМашинное обучение*Математика*Python*Data Mining*

Всем привет, в этом посте я расскажу о том, как мне удалось занять 11 место в конкурсе от компании Мерседес на kaggle, который можно охарактеризовать как лидера по количеству участников и по эпичности shake-up. Здесь можно ознакомиться с моим решением, там же ссылка на github, здесь можно посмотреть презентацию моего решения в Yandex.

В этом посте пойдет речь о том, как студент консерватории попал в data science, стал призером двух подряд kaggle-соревнований, и каким образом методы математической статистики помогают не переобучиться на публичный лидерборд.

Начну я с того, что немного расскажу о задаче и о том, почему я взялся ее решать. Должен сказать, что в data science я человек новый. Лет 7 назад я закончил Физический Факультет СПбГУ и с тех пор занимался тем, что получал музыкальное образование. Идея немного размять мозг и вернуться к техническим задачам впервые посетила меня примерно два года назад, на тот момент я уже работал в оркестре Московской Филармонии и учился на 3 курсе в Консерватории. Начал я с того, что вооружившись книгой Страуструпа стал осваивать C++. Далее были конечно же разные онлайн курсы и примерно год назад я стал склоняться к мысли о том, что Data Science — это пожалуй именно то, чем я хотел бы заниматься в IT. Мое “образование” в Data Science — это курс от Яндекса и Вышки на курсере, несколько курсов из специализации МФТИ на курсере и конечно же постоянное саморазвитие в соревнованиях.

Читать дальше →

+55

mr-pickles 22 ноя 2021 в 14:22

Эмбеддинги признаков и повышение точности ML-моделей

7 мин

37K

Блог компании Wunder FundПрограммирование*Машинное обучение*TensorFlow*

Перевод

Прим. Wunder Fund: короткая статья о том, как эмбеддинги могут помочь при работе с категориальными признаками и сетками. А если вы и так умеете в сетки — то мы скоро открываем набор рисерчеров и будем рады с вами пообщаться, stay tuned.

Создание эмбеддингов признаков (feature embeddings) — это один из важнейших этапов подготовки табличных данных, используемых для обучения нейросетевых моделей. Об этом подходе к подготовке данных, к сожалению, редко говорят в сферах, не связанных с обработкой естественных языков. И, как следствие, его почти полностью обходят стороной при работе со структурированными наборами данных. Но то, что его, при работе с такими данными, не применяют, ведёт к значительному ухудшению точности моделей. Это стало причиной появления заблуждения, которое заключается в том, что алгоритмы градиентного бустинга, вроде того, что реализован в библиотеке XGBoost, это всегда — наилучший выбор для решения задач, предусматривающих работу со структурированными наборами данных. Нейросетевые методы моделирования, улучшенные за счёт эмбеддингов, часто дают лучшие результаты, чем методы, основанные на градиентном бустинге. Более того — обе группы методов показывают серьёзные улучшения при использовании эмбеддингов, извлечённых из существующих моделей.

Эта статья направлена на поиск ответов на следующие вопросы:

1. Что такое эмбеддинги признаков?
2. Как они используются при работе со структурированными данными?
3. Если использование эмбеддингов — это столь мощная методика — почему она недостаточно широко распространена?
4. Как создавать эмбеддинги?
5. Как использовать существующие эмбеддинги для улучшения других моделей?

+15

Laggg 6 фев 2020 в 14:00

Материалы NLP курса от DeepPavlov

4 мин

26K

Блог компании Open Data ScienceNatural Language Processing*Python*Искусственный интеллектМашинное обучение*

В этой статье вы найдете материалы очных курсов «Deep Learning in NLP», которые запускались командой DeepPavlov в 2018-2019 годах и которые являлись частичной адаптацией Stanford NLP course — cs224n. Статья будет полезна любым специалистам, погружающимися в обработку текста с помощью машинного обучения. Благодарю физтехов, разрабатывающих открытую библиотеку для разговорного искусственного интеллекта в МФТИ, и Moryshka за разрешение осветить эту тему на Хабре в нашем ods-блоге.

Читать дальше →

+59

Полный разбор экзамена в ШАД

Что нужно знать на позицию junior Data Science и как подготовиться к собеседованию

Распознавание подачи в волейболе с помощью машинного обучения

Как получить доступ к chatGPT в России

Гугл таблица как БД для телеграм бота

Self-Supervised Learning. Contrastive learning

Как мы не смогли создать медицинского чат-бота. История проекта, который так и не увидел свет

Как я занял 13 место из 3500+ участников и стал Kaggle Competition Master

Теория вероятностей в машинном обучении. Часть 1: модель регрессии

Разбираем Теорию Игр с python-библиотеками nashpy и axelrod

Собираем Свой Суперкомпьютер Недорого

Математика для Data Science и машинного обучения за 8 месяцев. Подробный план обучения

Мои machine learning тулы для инвестирования

K8S для начинающих. Первая часть

Self-Supervised Learning. Кластеризация как лосс

Что такое MLOps? Самый подробный текст про работу с ML-системами, который вы найдете в интернете

Хитрые методики сэмплинга данных

Kaggle Mercedes и кросс-валидация

Эмбеддинги признаков и повышение точности ML-моделей

Материалы NLP курса от DeepPavlov

Информация

Специализация