Pull to refresh
61
0
Send message

Как получить полезную информацию из своих категориальных признаков?

Level of difficultyEasy
Reading time9 min
Views8.4K

В этой статье я выскажу свою точку зрения о том, что из себя представляют категориальные признаки. Расскажу про способы работы с ними, которыми пользуюсь сам как антифрод-аналитик в Каруне.

Читать далее
Total votes 10: ↑10 and ↓0+10
Comments5

Работа с временными рядами в Python. Часть 2

Level of difficultyEasy
Reading time10 min
Views13K


Добро пожаловать во вторую часть нашей серии статей "Работа с временными рядами в Python." В первой части, мы ознакомились с основами работы с временными рядами и научились анализировать и визуализировать их. Теперь мы переходим к более продвинутым аспектам этой увлекательной темы.
Читать дальше →
Total votes 19: ↑17 and ↓2+21
Comments3

Разработан инструмент, позволяющий художникам «отравлять» свой контент для ИИ

Reading time4 min
Views12K

С тех пор, как год назад вышел ChatGPT, индустрия генерации цифрового контента находится в суматохе. Всех постепенно начинает вытеснять ИИ. Ряд художников, авторов, исполнителей, и даже звукозаписывающие компании подали многочисленные иски против компаний, занимающихся искусственным интеллектом, в основном против OpenAI. Все они касаются одного: обучающих данных. Компании ходят по всему интернету и собирают миллиарды фрагментов текста/звука, а также миллионы изображений в дата-сеты для тренировки своих моделей ИИ. Естественно, авторам или владельцам контента за это никто не платит, и их даже вообще никак не нотифицируют. Развитие технологии превыше всего.

Чтобы пресечь такой сбор данных, Reddit и X этим летом запретили доступ к своим API сторонним приложениям. Но обычные дизайнеры и цифровые художники не имели никакой возможности противостоять использованию их работ для обучения новых коммерческих ИИ. Теперь в их руках появляется более радикальный инструмент: система Nightshade. Которая отравляет любое изображение, которое ИИ просканировал без твоего разрешения.

Читать далее
Total votes 23: ↑20 and ↓3+26
Comments33

Как применять метод PCA для уменьшения размерности данных

Level of difficultyMedium
Reading time9 min
Views17K

Одной из ключевых задач при работе с данными является уменьшение размерности данных, чтобы улучшить их интерпретируемость, ускорить алгоритмы обучения машин и, в конечном итоге, повысить качество решений. Сегодня мы поговорим о методе, который считается одним из наиболее мощных инструментов в арсенале данных разработчиков — методе главных компонент, или PCA (Principal Component Analysis).

Читать далее
Total votes 17: ↑14 and ↓3+15
Comments16

Распознавание речи (транскрибация) по аудиозаписям диалогов. Whisper. Личный опыт

Reading time5 min
Views15K

Распознаем речь по аудиозаписям диалогов сотрудников и клиентов.
Сохраняем по разным дорожкам, в тексте и с таймингом.
Модель Whisper, работаем в Colab.
Личный опыт.

Читать далее
Total votes 7: ↑6 and ↓1+8
Comments3

Играем в Mortal Kombat с помощью TensorFlow.js

Reading time18 min
Views19K
Экспериментируя с улучшениями для модели прогнозирования Guess.js, я стал присматриваться к глубокому обучению: к рекуррентным нейронным сетям (RNN), в частности, LSTM из-за их «необоснованной эффективности» в той области, где работает Guess.js. В то же время я начал играться с свёрточными нейросетями (CNN), которые тоже часто используются для временных рядов. CNN обычно используют для классификации, распознавания и обнаружения изображений.


Управление MK.js с помощью TensorFlow.js

Исходный код для этой статьи и МК.js лежат у меня на GitHub. Я не выложил набор данных для обучения, но можете собрать свои собственные и обучить модель, как описано ниже!
Читать дальше →
Total votes 68: ↑65 and ↓3+62
Comments11

ML и DS оттенки кредитного риск-менеджмента

Reading time14 min
Views26K


Всем привет.

Мы команда Advanced Analytics GlowByte и запускаем цикл статей о моделировании в задачах управления кредитным риском. Цель цикла — кратко рассказать о сфере, расширить словарь профессиональных терминов и дать ссылки на полезные статьи и книги. В вводной статье мы покажем особенности применения ML и DS в сфере кредитного риска, без глубокого погружения в предметную область.

Далее раскроем вопросы методологии моделирования, работы с компонентами кредитного риска, а также подходов к калибровке и валидации, которые учитывают специфику работы моделей в банке.

Основа публикаций — наш проектный опыт по разработке и внедрению аналитических моделей в банковской сфере.

А теперь под кат.
Читать дальше →
Total votes 5: ↑3 and ↓2+5
Comments1

Кейс «Мониторинг делового кредитного портфеля банка с помощью трехмерной визуализации»

Reading time10 min
Views6.3K

Введение


В этой статье я поделюсь с вами нашим опытом решения интересной аналитической задачи с помощью нестандартных визуальных инструментов. Статья будет интересна людям, занимающимся анализом данных, а также банковским менеджерам, которые специализируются на мониторинге и анализе кредитного портфеля банка.

Приложение, про которое, собственно, буду писать ниже, выполнено на базе платформы iDVP (Interactive Data Visualization Platform).



Читать дальше →
Total votes 13: ↑12 and ↓1+11
Comments13

Облегчают анализ данных: 7 бесплатных сервисов на базе ИИ

Level of difficultyEasy
Reading time4 min
Views20K

Ниже представлены инструменты на основе искусственного интеллекта, которые облегчают анализ данных. По мнению разработчиков данных сервисов, они подходят не только для новичков в анализе данных, но и для профессионалов. А также в качестве так называемой “аналитики самообслуживания”.

Некоторые из них бесплатны полностью, некоторые предоставляют базовые функции бесплатно, а некоторые имею бесплатный период. Но все так или иначе можно попробовать бесплатно без привязки карт.

Читать далее
Total votes 5: ↑3 and ↓2+3
Comments1

Летадло, предисловие

Level of difficultyHard
Reading time28 min
Views3.9K

Эта статья, мой конспект, сигнальный флаг, или очередная тренировка изложения своих мыслей? В силу обстоятельства, прикоснулся к unreal, замечательный инструмент в "умелых руках", много од написано сему творению человеческой мысли, так что взаимодействие с ним большая честь для разработчика. Создание игр, визуализация, исследования, много всего интересного заложено в этот проект с многолетней историей развития. Открытость и большое сообщество, существенно понижает порог вхождения, конечно тривиальность писать такое, каждый второй инструмент с такими характеристиками, но это говорит о общей высокой планке нынешних инструментов для реализации любых техно извращённых фантазий. Невероятное стечение обстоятельств, получаю деньги за то что учусь взаимодействовать с этим инструментом.

Читать далее
Total votes 3: ↑2 and ↓1+2
Comments2

Влад Грозин о PhD в США, философии в Data Science, пузыре рекомендаций и голодающих геймерах

Level of difficultyEasy
Reading time7 min
Views4.5K

К нам в гости заглянул Влад Грозин — создатель ODS Pet Projects, ex. Head of Data Science из компании INCYMO, чтобы поговорить за жизнь про получение PhD в Америке и экзистенциальные риски, связанные с разработкой рекомендательных систем: пузыри рекомендаций и появление алгоритмов, которые будут предсказывать желания пользователя.

Читать далее
Total votes 18: ↑17 and ↓1+17
Comments2

Kaggle для футболистов. Разбираем подходы призеров соревнований по детекции столкновений (5 — 3 место)

Level of difficultyMedium
Reading time11 min
Views2.7K

Недавно закончилось соревнование от американской национальной футбольной лиги (NFL), которая объединилась с AWS, чтобы прокачать системы спортивной видеоаналитики.

Организаторы поставили простую, казалось бы, задачу — точно определить, в каких случаях игроки сталкиваются друг с другом во время матча по американскому футболу. Мы с коллегами приняли участие, но не успели реализовать все свои идеи. Зато изучили подходы других команд и поняли, что были на верном пути. В этой статье я рассмотрю некоторые из решений, которые принесли денежное вознаграждение и золотые медали участникам этого челленджа. 

Читать далее
Total votes 16: ↑16 and ↓0+16
Comments1

Архитектура рекомендаций: как дать пользователю соцсети то, что ему понравится

Level of difficultyMedium
Reading time12 min
Views3.7K

Сегодня я расскажу, про базовое решение задачи рекомендации текстового контента на конкретном примере — ленте одной российской социальной сети. Посмотрим, что под капотом у сервиса рекомендаций, какие данные нужны для построения векторов пользователей, как ранжируются посты и к какой архитектуре рекомендательной системы мы пришли спустя несколько месяцев экспериментов.

Читать далее
Total votes 17: ↑17 and ↓0+17
Comments0

Аутентификация в React — это просто

Reading time13 min
Views36K


Аутентификация — это одна из тех вещей, которые зачастую требуют от нас гораздо больше усилий, чем нам хотелось бы.

Чтобы реализовать аутентификацию, приходится заново разбираться в темах, о которых вы не вспоминали с тех пор, как в последний раз делали ее для вашего приложения. Ведь эта область очень быстро развивается, а это означает, что за прошедшее с тех пор время появилась целая куча всего нового: новые угрозы, новые решения и обновления ранее используемых вами инструментов, из-за которых вам придется часами копаться в документации и ваших прошлых проектах.

В этом руководстве мы рассмотрим другой подход к аутентификации (а также управлению доступом, SSO и т.д.) в React-приложениях.
Читать далее
Total votes 10: ↑7 and ↓3+6
Comments2

Преобразование табличных данных в Python

Level of difficultyEasy
Reading time5 min
Views5.6K

Предположим: вы полны желания изучить  манящий массив данных. К счастью, для этого достаточно вашего компьютера. Итак, вы открываете блокнот Python или REPL, чтобы начать работать:  какую библиотеку использовать? Естественно, вы можете обратиться к старой доброй Pandas. А как насчет новой модной библиотеки фреймов данных, например Polars или datatable? А ещё, для разнообразия, можно попробовать встроенный SQL с помощью DuckDB.

Давайте погрузимся в прекрасную область фреймов данных, чтобы сделать выбор!

PS: Используйте DuckDB, если вам удобно работать с SQL, Polars или Pandas с поддержкой PyArrow, если вам не нужно какое-то специфическое расширение NumPy, и задействуйте PyArrow в том случае, если вы не против ручной оптимизации.

Читать далее
Total votes 8: ↑7 and ↓1+6
Comments1

Анализ текстовых данных с использованием тематического моделирования

Reading time14 min
Views10K

Анализ текстовых данных становится все более важным в наше время, когда огромные объемы информации генерируются и обмениваются каждую секунду. От социальных медиа до новостных порталов, от клиентских отзывов до академических статей — текстовые данные содержат бесценные знания и инсайты. Однако извлечение значимой информации из таких объемов текста может быть огромным вызовом.

Компании хотят понимать общественное мнение о своих продуктах и брендах, но анализировать миллионы постов и комментариев вручную практически невозможно. Вот где анализ текстовых данных и тематическое моделирование приходят на помощь. Эти методы позволяют автоматически выявлять темы, тональность и структуру текста, делая процесс анализа эффективным и масштабируемым.

Читать далее
Total votes 10: ↑10 and ↓0+10
Comments0

Начал бегать с марта 2023. Итог 40 беговых тренировок. Организм не тянет. Это провал? Анализируем и визуализируем данные

Reading time2 min
Views33K

Поледний раз нормально бежал будучи студентом на сдаче нормативов для получения зачета по физкультуре. И вот сустя десятки лет попытался начать бегать для здоровья. Первая пробежка получилась всего 300 метров и пульс зашкалил. Вторая - 1 км. А 3-я уже с пульсометром - 1.5 км и она первая на графиках ниже.

Читать далее
Total votes 33: ↑23 and ↓10+16
Comments262

Основные ресурсы нейронных сетей для начинающих и энтузиастов

Level of difficultyEasy
Reading time4 min
Views12K

Собрал все в одном месте! Выбор образовательных материалов в области нейронных сетей, а также различные проекты с открытым исходным кодом с нейронными сетями, которые могут быть полезны для разработки сервисов

Ознакомиться
Total votes 21: ↑21 and ↓0+21
Comments4

Теории вероятностей: готовимся к собеседованию и разрешаем «парадоксы»

Reading time17 min
Views95K

Каждый год я участвую примерно в сотне собеседований в образовательных проектах JetBrains: собеседую абитуриентов в Computer Science Center и корпоративную магистратуру ИТМО (кстати, набор на программу идёт прямо сейчас). Все собеседования устроены по одному шаблону: мы просим на месте порешать задачи и задаём базовые вопросы по дисциплинам, которые студенты изучали в университетах. Большинство вопросов, которые мы задаём, довольно простые — нужно дать определение некоторого понятия, сформулировать свойство или теорему. К сожалению, у значительной доли студентов все эти определения выветриваются сразу после экзаменов в университетах. Казалось бы, что тут удивительного? В современном мире любое определение можно за пару секунд нагуглить, если это нужно. Но невозможность восстановить базовое определение свидетельствует о непонимании сути предмета.

Если непонимание алгебры или математического анализа может мало влиять на вашу жизнь, то непонимание теории вероятностей делает из вас лёгкую мишень для обмана и манипулирования. Суждения о вероятностях различных событий настолько глубоко вошли в нашу повседневную жизнь, что умение правильно рассуждать и отличать правду от невежества или манипуляции является необходимым. В этом небольшом обзоре мы поговорим о базовых понятиях теории вероятностей, научимся правильно формулировать утверждения про простые случайные процессы и разберём несколько парадоксов. Часть материала позаимствована из брошюры А. Шеня «Вероятность: примеры и задачи», которую я очень рекомендую для самостоятельного изучения.
Читать дальше →
Total votes 15: ↑12 and ↓3+17
Comments101

Слушаем и декодируем в реальном времени радиосигнал точного времени из интернета

Level of difficultyMedium
Reading time20 min
Views22K
image

Сегодня я хочу поговорить о том, как можно получить и декодировать сигналы точного времени, которые передаются по радио. Чтобы выполнить эту задачу, вам даже не понадобятся специальные устройства. Достаточно будет компьютера с более-менее быстрым интернет-соединением.

Технология передачи точного времени по радио не нова. Сигналы точного времени начали передавать практически сразу, как появился радиотелеграф. Сейчас передача сигналов точного времени осуществляется с помощью различных технологий. Помимо радио, информация о времени с разной степенью точности передаётся:

  • в интернете (NTP);
  • в сетях мобильной связи (NITZ);
  • в системах спутниковой навигации GPS, ГЛОНАСС, BeiDou-3, Galileo.

Хотя в этих случаях используются более современные технологии, передача сигналов точного времени по радио продолжает существовать и выполнять свои функции. Промышленностью выпускаются различные устройства, принимающие эти сигналы, например, часы Casion Wave Ceptor. Изучив основы передачи точного времени по радио, вы узнаете много интересного, а также закрепите свои знания в различных областях.
Читать дальше →
Total votes 53: ↑52 and ↓1+69
Comments40

Information

Rating
Does not participate
Date of birth
Registered
Activity

Specialization

Frontend Developer, Game Developer
Middle
From 1,100 €
JavaScript
HTML
SQL
.NET
PostgreSQL
Microsoft SQL Server
MySQL
C#
Python