Articles / Bookmarks / Profile of snackTate / Habr

Глеб @snackTate

User

Profile Articles Posts News Comments 3

sagol Apr 29 2021 at 13:25

Нетрадиционный анализ тональности текста: BERT vs CatBoost

6 min

9.3K

Python*Natural Language Processing*Machine learning*

Анализ тональности — это метод обработки естественного языка (NLP), используемый для определения того, являются ли данные(текст) положительными, отрицательными или нейтральными.

Анализ тональности имеет фундаментальное значение, поскольку помогает понять эмоциональные оттенки языка. Это, в свою очередь, помогает автоматически сортировать мнения, стоящие за отзывами, обсуждениями в социальных сетях, комментариями и т. д.

Хотя сентиментальный анализ стал чрезвычайно популярным в последнее время, работы над ним продолжаются с начала 2000-х годов. Традиционные методы машинного обучения, такие как наивный байесовский метод, логистическая регрессия и машины опорных векторов (SVM), широко используются для больших объемов, поскольку они хорошо масштабируются. На практике доказано, что методы глубокого обучения (DL) обеспечивают лучшую точность для различных задач NLP, включая анализ тональности; однако они, как правило, медленнее и дороже в обучении и использовании.

JetHabr Dec 5 2023 at 15:27

Ликбез по вхождению в Data Science: что для этого нужно и стоит ли пытаться?

Easy

9 min

33K

Инфосистемы Джет corporate blogMachine learning*Studying in ITIT careerProgramming*

Tutorial

✏️ Technotext 2023

Всем привет! Меня зовут Надя, и сейчас я выступаю в роли ментора на программе Mentor in Tech и помогаю людям «войти» в Data Science. А несколькими годами ранее сама столкнулась с задачей перехода в DS из другой сферы, так что обо всех трудностях знаю не понаслышке.

Порог для входа в профессию очень высокий, так как DS стоит на стыке трех направлений: аналитики, математики и программирования. Но освоить специальность — задача выполнимая (хоть и непростая), даже если ты гуманитарий и списывал математику у соседа по парте.

В этой статье я собрала несколько рекомендаций на основе моего личного опыта (как поиска работы, так и найма людей), а также исходя из рассказов знакомых.

Погрузиться в мир Data Science

Atlamos Nov 22 2023 at 10:21

База: айсберг A/B-тестов

Medium

11 min

13K

Купер corporate blogProduct Management*Statistics in IT

Если вы по кусочкам и фрагментарно изучаете разные аспекты и тонкости A/B-тестирования, но большое множество концепций и идей не ложатся в единую систему, то это статья для вас.

Предлагаю разобрать структуру A/B-тестов сверху вниз. Пройдем по основным этапам от наблюдаемой разницы в целевой метрике до матрицы ошибок. Формализуем, систематизируем и идейно свяжем те концепции, которые стоят за экспериментами. Постараемся сформировать цельное представление об этой процедуре, обозначим, что эксперименты делают, чего не делают, как делают, в каком представлении работают с данными и метриками.

+11

badcasedaily1 Nov 21 2023 at 16:10

Предсказательное моделирование (Predictive Modeling)

Easy

10 min

10K

OTUS corporate blogPython*System Analysis and Design*Programming*

Review

Привет, Хабр!

Что такое предсказательное моделирование? Проще говоря, это искусство и наука прогнозирования будущего, основанная на изучении и анализе прошлых и настоящих данных. Это не просто гадание на кофейной гуще или предсказания астролога; это строгий научный процесс, в котором данные, собранные из прошлых событий и текущих тенденций, анализируются с использованием сложных математических и статистических методов для выявления закономерностей и тенденций. Эти знания затем применяются для предсказания будущих событий и трендов, позволяя нам принимать более обоснованные и эффективные решения.

+13

tech_priestess Nov 18 2023 at 18:06

Вкатываемся в Machine Learning с нуля за ноль рублей: что, где, в какой последовательности изучить

Easy

26 min

265K

Machine learning*Studying in ITIT careerArtificial Intelligence

Tutorial

Всем доброго времени суток. Я давно обещала выложить сюда подробный гайд на тему того, как можно изучать Machine Learning самостоятельно, не тратя деньги на платные курсы, и, наконец, выполняю свое обещание. Надеюсь, этот гайд станет подсказкой, которая поможет найти правильное направление новичкам, которые хотят погрузиться в нашу область.

+156

Rosatom Nov 2 2023 at 15:57

Предсказываем цены с помощью методов анализа данных и машинного обучения

Medium

10 min

12K

Росатом corporate blogResearch and forecasts in IT*Machine learning*

Case

Привет, Хабр! Вас приветствуют Нане Бегларян (инженер данных) и Дмитрий Распопов (эксперт отдела искусственного интеллекта) из компании «Цифрум» Госкорпорации «Росатом». В этой статье мы поговорим с вами о задаче, связанной с разработкой комплексной модели для прогнозирования цен на электроэнергию, которая позволяет обеспечить стабильность и надежность работы энергосистемы; делается это в рамках совместного проекта компаний Росатома РЭИН и «Цифрум».

Цены на электроэнергию могут значительно колебаться в зависимости от множества факторов, что может привести к нестабильности и непредсказуемости в работе энергосистемы. (и росту цифр в коммунальных счетах).

Чтобы было легче морально готовиться к очередной оплате (и заодно потренировать свои знания в ML), делимся с вами опытом и знаниями в области прогнозирования цен на электроэнергию с помощью методов анализа данных и машинного обучения.

pavel_shunkevich Oct 25 2023 at 14:28

Как получить полезную информацию из своих категориальных признаков?

Medium

9 min

10K

Karuna corporate blogPython*Data Mining*Machine learning*Data Engineering*

Tutorial

В этой статье я выскажу свою точку зрения о том, что из себя представляют категориальные признаки. Расскажу про способы работы с ними, которыми пользуюсь сам как антифрод-аналитик в Каруне.

+10

MrDecentralized Oct 29 2023 at 12:40

Искусственный интеллект на Python с использованием TensorFlow и Keras

Medium

9 min

66K

Python*TensorFlow*

From sandbox

Искусственный интеллект и машинное обучение становятся все более востребованными в современном мире. Многие компании и стартапы активно внедряют технологии искусственного интеллекта для решения бизнес-задач и оптимизации процессов.

Одним из ключевых инструментов для реализации нейро-сетевых архитектур и алгоритмов глубокого обучения является язык программирования Python. Благодаря наличию мощных библиотек, таких как TensorFlow и Keras, создание и обучение нейронных сетей на Python стало достаточно простым.

TensorFlow - это библиотека для машинного обучения, разработанная компанией Google. Она позволяет определять, тренировать и запускать нейронные сети различных архитектур. Keras - библиотека глубокого обучения высокого уровня, может использовать TensorFlow в качестве бэкенда. Keras упрощает создание моделей нейросетей благодаря удобному API.

Цель этой статьи - познакомить читателей с основными принципами глубокого обучения, а также возможностями библиотек TensorFlow и Keras для создания и обучения нейронных сетей на Python. Мы рассмотрим базовые концепции, этапы обучения моделей, а также практические кейсы использования TensorFlow и Keras для решения задач классификации, распознавания и анализа данных.

Изучив эту статью, читатели получат представление о том, как при помощи Python и рассматриваемых библиотек можно создавать эффективные модели искусственного интеллекта.

randall Oct 27 2023 at 12:36

Объясняем простым языком, что такое трансформеры

Easy

12 min

44K

MWS corporate blogМТС corporate blogMachine learning*Artificial IntelligenceNatural Language Processing*

Review

Translation

Облако предлагает много возможностей для развития ИИ. С помощью облачных вычислений проще масштабировать ML-модели, повышать точность обучения и предоставлять данные удаленно пользователям. Однако масштабное развертывание ML-моделей требует понимания архитектуры нейронных сетей.

Один из важнейших инструментов машинного обучения — трансформеры. Популярность трансформеров взлетела до небес в связи с появлением больших языковых моделей вроде ChatGPT, GPT-4 и LLama. Эти модели созданы на основе трансформерной архитектуры и демонстрируют отличную производительность в понимании и синтезе естественных языков.

Хотя в сети уже есть хорошие статьи, в которых разобран принцип действия трансформеров, большинство материалов изобилует запутанными терминами. Мы подготовили перевод статьи, в которой без кода и сложной математики объясняют современную трансформерную архитектуру.

+35

MaxRokatansky Oct 26 2023 at 15:38

Как получить работу в области Data Science? 8 простых шагов

Easy

10 min

18K

OTUS corporate blogIT career

Translation

Перспективность и привлекательность карьеры в области Data Science привела к закономерному росту конкуренции. В условиях жесточайшей конкуренции между многочисленными кандидатами, стремящимися получить немногочисленные должности, выбор зачастую падает на тех, кто не только обладает всеми необходимыми навыками и опытом, но также способен эффективно коммуницировать. Сегодня мы поговорим с вами о требованиях к соискателям и действиях, которые можно предпринять, чтобы получить работу в области Data Science, представленных в виде восьми последовательных шагов.

cotique Feb 28 2017 at 12:45

Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas

Easy

15 min

1.1M

Open Data Science corporate blogData Mining*Python*Data visualization*Machine learning*

Tutorial

Открытый курс машинного обучения mlcourse.ai сообщества OpenDataScience – это сбалансированный по теории и практике курс, дающий как знания, так и навыки (необходимые, но не достаточные) машинного обучения уровня Junior Data Scientist. Нечасто встретите и подробное описание математики, стоящей за используемыми алгоритмами, и соревнования Kaggle Inclass, и примеры бизнес-применения машинного обучения в одном курсе. С 2017 по 2019 годы Юрий Кашницкий yorko и большая команда ODS проводили живые запуски курса дважды в год – с домашними заданиями, соревнованиями и общим рейтингом учаcтников (имена героев запечатлены тут). Сейчас курс в режиме самостоятельного прохождения.

Читать дальше →

+42

pochtaboy Oct 19 2023 at 10:40

Как мы выбирали модель классификатора на основе международных научных практик для сервиса e-mail-рассылок

Medium

19 min

2.1K

Spamming and anti-spammingMachine learning*

From sandbox

Всем привет, на связи Елисеев Арсений. Сегодня расскажу, как разрабатывал модель классификатора для сервиса e-mail-рассылок Pochtaboy. Сам продукт находится еще в стадии тестирования, однако у него есть первые пользователи, на которых мы и проверим эффективность выбранной модели.

pestich Oct 20 2023 at 14:41

Классификация текстов в spaCy: пошаговая инструкция

Easy

5 min

5.6K

Machine learning*Python*

From sandbox

Вы узнаете, как реализовать классификатор текстов при помощи библиотеки spaCy, а также несколько полезных лайфхаков, которые помогут ускорить обработку данных.

ivankondrakov May 30 2023 at 15:58

Быстро, точно, градиентно: как наш подход к градиентному бустингу повышает эффективность моделей

11 min

4.1K

ВТБ corporate blogPython*Machine learning*Artificial IntelligenceFinance in IT

Tutorial

Доброго времени суток, уважаемые читатели! Сегодня мы вновь рады приветствовать вас в увлекательном мире дата-сайентистов банка "Открытие". На связи Иван Кондраков, Константин Грушин и Станислав Арешин. Недавно мы поделились с вами нашим пайплайном разработки линейных моделей для решения задач бинарной классификации. Теперь же мы решили поведать о нашем опыте построения моделей градиентного бустинга. За последнее время команда проделала колоссальную работу: мы протестировали различные методы отбора факторов, нашли новые инсайты в данных, провели интересную (а, главное, полезную!) аналитическую работу и решили несколько Ad-hoc задач. Зовите всех к экранам, мы начинаем!

Го к туториалу

ivankondrakov Mar 30 2023 at 17:22

ML-пайплайн классических банковских моделей классификации

10 min

5.3K

ВТБ corporate blogPython*Machine learning*Artificial IntelligenceFinance in IT

Tutorial

Всем привет! С вами на связи дата-сайентисты банка "Открытие" Иван Кондраков и Константин Грушин. В прошлой статье мы рассказывали про решение, которое позволило повысить эффективность в проверке гипотез для моделей. Если вы успели с ней ознакомиться, то уже знаете, что наша команда занимается разработкой и развитием пула моделей принятия решений о выдаче кредитных продуктов и банковских гарантий для малого и среднего бизнеса. Сегодня настало время поговорить с вами про пайплайн, который используется для разработки таких моделей. Мы построили достаточно много моделей, так что нам точно есть чем поделиться. К тому же существенный вклад в развитие такого универсального алгоритма внес каждый член команды.

paveltro Oct 30 2018 at 14:02

Как интерпретировать предсказания моделей в SHAP

5 min

48K

Big Data*Machine learning*

Tutorial

Одной из важнейших задач в сфере data science является не только построение модели, способной делать качественные предсказания, но и умение интерпретировать такие предсказания.

Если мы не просто знаем, что клиент склонен купить товар, но так же понимаем, что влияет на его покупку, мы сможем в будущем выстраивать стратегию компанию, направленную на повышение эффективности продаж.

Читать дальше →

Arseny_Info Apr 3 2017 at 14:07

Открытый курс машинного обучения. Тема 6. Построение и отбор признаков

24 min

191K

Open Data Science corporate blogData Mining*Python*Algorithms*Machine learning*

Сообщество Open Data Science приветствует участников курса!

В рамках курса мы уже познакомились с несколькими ключевыми алгоритмами машинного обучения. Однако перед тем как переходить к более навороченным алгоритмам и подходам, хочется сделать шаг в сторону и поговорить о подготовке данных для обучения модели. Известный принцип garbage in – garbage out на 100% применим к любой задаче машинного обучения; любой опытный аналитик может вспомнить примеры из практики, когда простая модель, обученная на качественно подготовленных данных, показала себя лучше хитроумного ансамбля, построенного на недостаточно чистых данных.

UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.

Читать дальше →

+52

PPR Oct 17 2023 at 10:47

Алгоритм поиска ключевых словосочетаний «на пальцах». Анализируем новости

Medium

5 min

5.3K

Программный Продукт corporate blogAlgorithms*Python*Semantics*Natural Language Processing*

Tutorial

В современном мире объем данных в интернете постоянно растет с огромной скоростью. Возникает логичный вопрос: как ориентироваться в этом информационном потоке?

Чтобы упростить себе задачу поиска и обобщения информации IT-энтузиасты применяют технологии генеративно обученных чат-ботов. Наиболее широкое распространение получил ChatGPT. Яндекс, в свою очередь, добавил в браузер YandexGPT, который позволяет тезисно ознакомиться с содержанием страницы. Всё чаще вакансия Prompt-инженера начинает встречаться на hh и Хабр Карьере. Специалисты и чат-боты помогают конечному пользователю экономить время для поиска необходимой информации.

Но что делать, если возможности обратиться за помощью к подобным технологиям нет? Указанные выше языковые модели нельзя интегрировать в собственные проекты, сценариев их использования много, но они всё равно ограничены.

В статье мы расскажем, как (не без нейронных сетей) можно создать простой алгоритм на Python, который поможет извлекать ключевые слова из любого текста, тем самым избавляться от ненужной информации и автоматизировать процесс анализа материалов. Мы будем работать с русским текстом, а именно — с новостными постами. Поэтому в частном случае используются пакеты для обработки, поддерживающие именно русский язык. В том числе используются модели, обученные на корпусах текстов с новостной семантикой.

Magn Oct 6 2023 at 13:20

Функциональное программирование в Python: ежедневные рецепты

Medium

21 min

17K

«Лаборатория Касперского» corporate blogPerfect code*Programming*Python*Functional Programming*

Tutorial

Как говорится, спроси пять программистов, что такое функциональное программирование, получишь шесть разных ответов. В целом это программирование через функции в их математическом понимании, то есть когда функция принимает что-то на вход и что-то возвращает на выходе, не меняя глобального состояния.

В своей команде — команде разработки инструментов для разработчиков под KasperskyOS — мы создаем разные интересные консольные утилиты, эмулятор, обеспечиваем интеграцию с IDE и так далее. И для этого мы используем разные языки — C++, C, TypeScript; но больше всего пишем на Python.

В этой статье, которая написана по следам моего выступления на конференции PiterPy, я обращаюсь к практикующим разработчикам — расскажу о том, какие функциональные приемы можно использовать в этом языке. Сконцентрируюсь на практике — на тех примерах, которые можно использовать уже буквально сейчас, не переписывая свой проект.

Читать дальше →

+16

aledovskiy Oct 6 2023 at 12:00

Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI

7 min

19K

AvitoTech corporate blogPython*Data Mining*Big Data*

Продолжаем выводить ваши знания о PySpark на новый уровень :) В этот раз расскажем, что такое план запроса, как его смотреть, и что делать, чтобы уточнить узкие места в расчётах.

1 2 ...

7 8

10 11 12 13 14