Articles / Bookmarks / Profile of Dimonty / Habr

@Dimonty

User

Profile Publications Comments 2Bookmarks 49

mvideo Oct 23 2023 at 09:03

Работа с временными рядами в Python. Часть 1

Easy

13 min

30K

М.Видео-Эльдорадо corporate blogPython*

Review

Аналитика данных стала неотъемлемой частью современного бизнеса и научных исследований. И одним из ключевых аспектов анализа данных являются временные ряды. Эффективная работа с временными рядами играет критическую роль в прогнозировании, стратегическом планировании и принятии решений в различных отраслях.

Временные ряды — это наборы данных, где каждая точка данных связана с определенным моментом времени. Это может быть что угодно, от ежедневных финансовых показателей до ежечасных кликов на веб-сайте или даже месячных показателей погоды. Зачем нам это нужно? Потому что временные ряды предоставляют нам ценную информацию о том, как меняются данные со временем.

Читать дальше →

+21

badcasedaily1 Apr 19 at 21:05

Пять лучших NLP инструментов для работы с русским языком на Python

Easy

5 min

10K

OTUS corporate blogProgramming*Machine learning*Natural Language Processing*

Review

В этой статье рассмотрим пять лучших библиотек Python, предназначенных специально для работы с русским языком в контексте NLP. От базовых задач, таких как токенизация и морфологический анализ, до сложных задач обработки и понимания естественного языка.

+13

Valery-Val Sep 17 at 10:01

Из лингвиста в дата-сайентисты: личный опыт и детальный трек

8 min

9.5K

ГК ЛАНИТ corporate blogBig Data*Machine learning*Studying in ITIT career

Tutorial

Освоить новую профессию и начать работать в сфере ИТ сейчас хотят многие. Моя история доказывает, что переквалифицироваться реально, хотя и очень сложно. Расскажу о своем входе в сферу Data Science с несколько нестандартной исходной точки. Шесть лет учёбы филологии, преподавания языков и разработки игр привели к тому, что к тридцати годам я поняла, что хочу всё поменять, и отныне моё призвание – Data Science. В этой статье в блоге ЛАНИТ - подробно о том, какой путь мне пришлось пройти и чему я училась на каждом из этапов. Все пароли-явки курсов и полезных учебных материалов вы найдете под катом.

+36

Vadim170 Aug 17 2023 at 02:28

Как дообучить LLaMA бесплатно и без программирования: как создать тупого друга

Medium

5 min

45K

Python*Machine learning*Artificial Intelligence

Tutorial

В этой статье я расскажу как я смог бесплатно и без мощного железа дообучить LLaMA на диалогах с друзьями в ВК, чтобы сделать чат бота, который копирует наш стиль общения, оживляет разговор в чате и просто пишет странные и смешные вещи. В статье будет мало терминов, тут я простым языком расскажу как вы можете обучить большую языковую модель.

+14

egaoharu_kensei Jun 14 at 19:47

Метрики оценки качества моделей и анализ ошибок в машинном обучении. Подробное руководство

Medium

32 min

9.7K

Machine learning*Mathematics*Data Mining*Python*Artificial Intelligence

Tutorial

Одним из критически важных шагов при создании хорошей модели является правильный выбор метрики для оценки её качества, поскольку неправильный выбор может привести к неверным выводам и, как следствие, к принятию не самых оптимальных решений. Поэтому на сегодняшний день существует большое количество метрик, подходящих для самых разных задач и ситуаций.

В данном туториале будут рассмотрены популярные метрики для задач классификации, регрессии и кластеризации, а также инструмент для анализа ошибки модели, известный как bias-variance decomposition. Помимо этого, для большей части метрик будут представлены ручные расчёты и реализация с нуля на Python, а в конце вы сможете найти дополнительные источники для более глубокого ознакомления.

+11

NoobodyKms Apr 24 at 11:21

Моделирование курса валют методом Монте-Карло

Easy

12 min

7.6K

Python*Mathematics*

From sandbox

Метод Монте-Карло — это мощный инструмент стохастического моделирования, который используется в самых разнообразных областях науки и инженерии. В финансах, этот метод часто применяется для анализа и прогнозирования временных рядов, таких как курс валют или акций. Использование Монте-Карло позволяет оценить не только ожидаемые значения, но и распределение возможных исходов, что крайне важно для управления рисками и принятия обоснованных инвестиционных решений.

Принцип метода заключается в выполнении большого количества стохастических экспериментов (симуляций), основанных на случайных выборках из вероятностных распределений входных параметров. В контексте прогнозирования курса валют, это позволяет моделировать различные экономические сценарии и оценивать потенциальные колебания валютных пар, используя исторические данные.

Ключевой аспект использования Монте-Карло в финансах — это его способность учитывать и анализировать волатильность и дрейф курсов валют. Для повышения точности моделирования и реалистичности получаемых данных часто применяется ГАРЧ модель (Generalized Autoregressive Conditional Heteroskedasticity). ГАРЧ помогает адекватно оценить и моделировать изменчивость волатильности, что является критичным при анализе финансовых временных рядов.

Идейно код выполнялся без готовых реализованных методов из различных либ.

Проект использует следующие библиотеки и инструменты:

+14

s_valuev Apr 22 at 13:38

Языковой процессор LPU, GenAI в FinOps и инструменты для анализа данных

Medium

6 min

2.1K

Selectel corporate blogBig Data*IT-companiesArtificial IntelligenceMachine learning*

Digest

Привет, Хабр! Возвращаюсь с новым выпуском полезных материалов, который поможет разобраться в ML, AI и дата-аналитике. Сегодня в программе — состояние MLOps в 2024 году, возможности дата-контрактов, оценка качества данных DQ Score и Python-библиотека для работы с SQL. Подробнее — под катом. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».

Читать дальше →

+35

pragmatik Feb 17 2023 at 15:28

Всё, что вы НЕ хотели бы знать о сервисах онлайн знакомств… [много букОв и иллюстраций + регулярно дополняется]

Easy

60 min

306K

Web services monetization*Social networks and communities

Review

✏️ Technotext 2023

Компьютерные сети изменили мир и подарили нам возможность не выбирать «меньшее из зол» из ограниченного числа сложившихся по жизни контактов, а найти по-настоящему любимого человека, даже если он прячется от нас на другом материке. Разумеется, мы можем отказаться от этой возможности и пойти по воспетому российской эстрадой садистско-мазохистскому сценарию «слепила из того, что было, а потом, что было, то и полюбила». И все будут только рады, если у нас всё получится. Но, если мы подведем статистику известных нам счастливых пар, сложившихся по этому сценарию, и трезво оценим вероятность успешного исхода, то, вероятно, путь поиска своего счастья в мировой паутине покажется нам более перспективным. И в этой статье я хочу рассказать вам о тех проблемах с которыми на этом пути можно столкнуться.

Читать дальше →

+271

775

vasilevafb Mar 26 at 12:59

Где аналитику данных искать стажировки в России и зарубежом? + более 40 горящих стажировок

Easy

4 min

15K

Big Data*Remote work

Стажировка, на мой взгляд, один из самых удачных способов запрыгнуть в аналитику данных.

👉 3 месяца стажировки в самом неприглядном месте лучше, чем то же время в поисках “идеальной” вакансии

👉 Стажировка в резюме выглядит привлекательнее учебных проектов

👉 После стажировки есть возможность трудоустройства в компанию

Читать больше и найти стажировку

odmin227 Mar 20 at 12:00

Превратите свой пет-проект из хобби в карьеру

Medium

12 min

25K

Machine learning*Studying in ITStart-up developmentIT careerArtificial Intelligence

Tutorial

Привет, Хабр!

Меня зовут Данил Картушов, в этом посте я расскажу, почему и как именно pet-project'ы могут стать ключом к вашей карьере.

Надеюсь, что после этого поста ты сможешь раскрыть свой потенциал к обучению и по-новому взглянуть на процесс обучения.

Начнем!

+30

Bright_Translate Dec 10 2023 at 13:00

10 тёмных паттернов в UX-дизайне и как их избежать

Easy

12 min

13K

RUVDS.com corporate blogDesignMobile applications design*Interfaces*

Review

Translation

Тёмные паттерны в UX-дизайне представляют тактики манипуляции, склоняющие пользователей к совершению действий, выгодных в первую очередь компаниям, зачастую в ущерб пользовательскому опыту.

К типичным тёмным паттернам относятся давление на чувства, ложная срочность, заманивание, сбор личных данных, навязывание, подсовывание, маскировка рекламы, намеренное введение в заблуждение, паттерн «Roach Motel», предвыбор нежелательных опций, добавление лишних товаров в корзину, спам-рассылка по друзьям, автоматическое продлевание платной подписки после её окончания и не только.

Такие паттерны построены на ловком использовании особенностей человеческой психологии с целью наживы, но при этом способны подорвать доверие пользователей.

Во избежание использования тёмных паттернов дизайнерам следует делать акцент на прозрачности, предоставлении контроля пользователю, а также этических практиках разработки. Такой подход способствует положительному пользовательскому опыту и взращиванию лояльности со стороны клиентов.

Читать дальше →

+53

omyhosts Dec 8 2023 at 05:03

Моя любимая задачка по программированию для кодинг-интервью

10 min

71K

ISPsystem corporate blogProgramming*IT career

Opinion

Translation

За время работы в Google я провёл более двух сотен интервью. И главное, что я вынес из этой работы — проводить качественные собеседования очень непросто. Все дело в сигналах, которые мы посылаем и получаем. И у интервьюера, и у самого кандидата есть меньше часа, чтобы выложиться на полную. Порой, по разным причинам, мы получаем друг от друга ложные или неточные сигналы. Такова уж человеческая природа.

С годами я выработал вопрос по кодингу, который мне самому очень нравится. Это до жути простой и в то же время заковыристый вопрос. Решение занимает не более 30 строк кода, но зато даёт мне все нужные сигналы для вынесения верной оценки кандидату. Кроме того, мой вопрос отлично масштабируется и подходит как стажёрам, так и опытным инженерам. Здесь я не стремлюсь доказать, что мой вопрос лучше какого-то другого. Я лишь хочу объяснить, как он помогает мне как интервьюеру и на что я обращаю внимание на собеседовании по программированию.

В этой статье будут вещи, с которыми вы можете не согласиться. Это нормально. Это просто моё мнение, а так как я уже вышел на пенсию, то больше не представляю опасности ни для интервьюеров, ни для инженеров Google при принятии решений о найме! ;-)

+49

345

tech_priestess Nov 18 2023 at 18:06

Вкатываемся в Machine Learning с нуля за ноль рублей: что, где, в какой последовательности изучить

Easy

26 min

220K

Machine learning*Studying in ITIT careerArtificial Intelligence

Tutorial

Всем доброго времени суток. Я давно обещала выложить сюда подробный гайд на тему того, как можно изучать Machine Learning самостоятельно, не тратя деньги на платные курсы, и, наконец, выполняю свое обещание. Надеюсь, этот гайд станет подсказкой, которая поможет найти правильное направление новичкам, которые хотят погрузиться в нашу область.

+155

sabinaerikovna Nov 5 2023 at 00:11

Mimesis: идеальное решение для генерации данных

Easy

6 min

7.3K

Python*Machine learning*

From sandbox

✏️ Technotext 2023

Сбор данных имеет решающее значение для каждого проекта, связанного с машинным обучением. Однако не всегда искомые данные существуют или общедоступны. Во многих случаях получение данных является дорогостоящим или затрудненным из-за внешних условий. Кроме того, правила конфиденциальности влияют на способы использования или распространения набора данных. По всем этим причинам использование синтетических данных является хорошей альтернативой, поскольку с их помощью можно удовлетворить те же потребности без особых усилий.

В этой статье мы рассмотрим один из лучших пакетов для генерации синтетических данных.

+23

mvideo Nov 3 2023 at 19:00

Прогнозирование временных рядов с помощью библиотеки Skforecast

Medium

7 min

8.2K

М.Видео-Эльдорадо corporate blogData Engineering*Python*System Analysis and Design*Reading room

Case

В открытом доступе существует огромное число библиотек для построения моделей машинного обучения в Python. Самые популярные — scikit-learn, XGBoost, LightGBM, Catboost, PyTorch. Каждая из них позволяет построить регрессионную модель для прогнозирования на временных рядах, но для этого требуется преобразование данных и создание новых фичей (feature engineering).

Кроме того, временные ряды требуют своих подходов в оценивании моделей машинного обучения, так как стандартная кросс-валидация не подходит для временных данных. В этой статье мы (я + я) рассмотрим нюансы прогнозирования на практике и с помощью библиотеки skforecast.

Читать дальше →

+20

Sber Oct 19 2023 at 09:15

Посторонись, Copilot: подборка разнообразных AI-инструментов для разработчиков

Easy

4 min

34K

Сбер corporate blogProgramming*Machine learning*Artificial Intelligence

Review

За пределами всем известного GitHub Copilot лежит огромный мир полезных приложений для программистов, и каждую неделю в нем появляется что-нибудь новенькое. В этом посте мы расскажем об этих инструментах — как полноценных конкурентах продукта GitHub, так и более специфических плагинах, а также о нашей собственной разработке в этом направлении.

+30

MaxRokatansky Oct 23 2023 at 17:55

Малоизвестные библиотеки Python для анализа данных, которые сделают вашу жизнь проще

Medium

14 min

28K

OTUS corporate blogPython*Data visualization*

Review

Привет Хабр! В этой статье мы рассмотрим некоторые полезные библиотеки Python для задач обработки данных, с которыми, возможно, вы еще не знакомы. Хотя для задач машинного обучения на ум приходят такие библиотеки, как pandas, numpy, scikit-learn, keras, tensorflow, matplotlib и т.д., но всегда полезно знать о других предложениях Python, особенно если это поможет улучшить ваши проекты.

+20

Marfa-Marfa Oct 24 2023 at 13:15

Выявление схожести между произведением искусства из коллекции музея и работами автора методами ML

Easy

13 min

1.5K

OTUS corporate blogArtificial IntelligenceMachine learning*Open data*Python*

Case

From sandbox

✏️ Technotext 2023

Идею работы: «Похоже ли произведение искусства из коллекции музея на работы автора?» я придумала под датасет Музея MoMa. Конечно, хотелось бы установить: оригинал или подделка? Но для ответа на такой категоричный вопрос данных оказалось недостаточно.

У проекта было несколько целей. Разработка модели машинного обучения, способной оценить схожесть произведения искусства из коллекции музея на основе анализа её характеристик и работ автора, её создавшего. Исследование различных моделей машинного обучения для выявления схожести работ, таких как Logistic Regression, Decision Tree, Random Forest, LightGBM, CatBoost. Оценка точности и эффективности моделей, выбор лучшей. Выработка рекомендаций для дальнейшего улучшения системы выявления схожести, чтобы сделать её более точной и полезной для анализа произведений искусства.

gag_fenix Sep 22 2023 at 13:51

Произносим термины IT правильно

Medium

3 min

54K

VK corporate blogProgramming*IT TerminologyStudying in IT

Tutorial

Наша отрасль изобилует словами из английского языка. Но надо помнить, что после русификации произношение слова часто становится совершенно не похоже на оригинал.

Чтобы больше не ставить англоязычных коллег в тупик на зум-коллах, мы попросили нашего коллегу Адама Дэйли озвучить произношение терминов, в которых русскоговорящие специалисты часто делают ошибки.

+64

229

Doctor_IT Oct 12 2023 at 17:36

Как «воспитать ламу» и ускорить ML-эксперименты

8 min

6.7K

Selectel corporate blogData Engineering*High performance*Artificial IntelligenceMachine learning*

Case

https://image.mel.fm/i/1/1Ud7AReU87/1210.jpg

Часто проведение ML-экспериментов сводится к долгому поиску и загрузке нужных датасетов и моделей, скрупулезной настройке гиперпараметров с целью проверки гипотез. Но что делать, когда времени мало, а за ночь нужно зафайнтюнить ламу? Давайте это и узнаем.

Статья написана по мотивам доклада Ефима Головина, MLOps-инженера в отделе Data- и ML-продуктов Selectel.

Читать дальше →

+35

2 3