В этой статье я выскажу свою точку зрения о том, что из себя представляют категориальные признаки. Расскажу про способы работы с ними, которыми пользуюсь сам как антифрод-аналитик в Каруне.
User
Работа с временными рядами в Python. Часть 2
Добро пожаловать во вторую часть нашей серии статей "Работа с временными рядами в Python." В первой части, мы ознакомились с основами работы с временными рядами и научились анализировать и визуализировать их. Теперь мы переходим к более продвинутым аспектам этой увлекательной темы.
Разработан инструмент, позволяющий художникам «отравлять» свой контент для ИИ
С тех пор, как год назад вышел ChatGPT, индустрия генерации цифрового контента находится в суматохе. Всех постепенно начинает вытеснять ИИ. Ряд художников, авторов, исполнителей, и даже звукозаписывающие компании подали многочисленные иски против компаний, занимающихся искусственным интеллектом, в основном против OpenAI. Все они касаются одного: обучающих данных. Компании ходят по всему интернету и собирают миллиарды фрагментов текста/звука, а также миллионы изображений в дата-сеты для тренировки своих моделей ИИ. Естественно, авторам или владельцам контента за это никто не платит, и их даже вообще никак не нотифицируют. Развитие технологии превыше всего.
Чтобы пресечь такой сбор данных, Reddit и X этим летом запретили доступ к своим API сторонним приложениям. Но обычные дизайнеры и цифровые художники не имели никакой возможности противостоять использованию их работ для обучения новых коммерческих ИИ. Теперь в их руках появляется более радикальный инструмент: система Nightshade. Которая отравляет любое изображение, которое ИИ просканировал без твоего разрешения.
Как применять метод PCA для уменьшения размерности данных
Одной из ключевых задач при работе с данными является уменьшение размерности данных, чтобы улучшить их интерпретируемость, ускорить алгоритмы обучения машин и, в конечном итоге, повысить качество решений. Сегодня мы поговорим о методе, который считается одним из наиболее мощных инструментов в арсенале данных разработчиков — методе главных компонент, или PCA (Principal Component Analysis).
Распознавание речи (транскрибация) по аудиозаписям диалогов. Whisper. Личный опыт
Распознаем речь по аудиозаписям диалогов сотрудников и клиентов.
Сохраняем по разным дорожкам, в тексте и с таймингом.
Модель Whisper, работаем в Colab.
Личный опыт.
Играем в Mortal Kombat с помощью TensorFlow.js
Управление MK.js с помощью TensorFlow.js
Исходный код для этой статьи и МК.js лежат у меня на GitHub. Я не выложил набор данных для обучения, но можете собрать свои собственные и обучить модель, как описано ниже!
ML и DS оттенки кредитного риск-менеджмента
Всем привет.
Мы команда Advanced Analytics GlowByte и запускаем цикл статей о моделировании в задачах управления кредитным риском. Цель цикла — кратко рассказать о сфере, расширить словарь профессиональных терминов и дать ссылки на полезные статьи и книги. В вводной статье мы покажем особенности применения ML и DS в сфере кредитного риска, без глубокого погружения в предметную область.
Далее раскроем вопросы методологии моделирования, работы с компонентами кредитного риска, а также подходов к калибровке и валидации, которые учитывают специфику работы моделей в банке.
Основа публикаций — наш проектный опыт по разработке и внедрению аналитических моделей в банковской сфере.
А теперь под кат.
Кейс «Мониторинг делового кредитного портфеля банка с помощью трехмерной визуализации»
Введение
В этой статье я поделюсь с вами нашим опытом решения интересной аналитической задачи с помощью нестандартных визуальных инструментов. Статья будет интересна людям, занимающимся анализом данных, а также банковским менеджерам, которые специализируются на мониторинге и анализе кредитного портфеля банка.
Приложение, про которое, собственно, буду писать ниже, выполнено на базе платформы iDVP (Interactive Data Visualization Platform).
Облегчают анализ данных: 7 бесплатных сервисов на базе ИИ
Ниже представлены инструменты на основе искусственного интеллекта, которые облегчают анализ данных. По мнению разработчиков данных сервисов, они подходят не только для новичков в анализе данных, но и для профессионалов. А также в качестве так называемой “аналитики самообслуживания”.
Некоторые из них бесплатны полностью, некоторые предоставляют базовые функции бесплатно, а некоторые имею бесплатный период. Но все так или иначе можно попробовать бесплатно без привязки карт.
Летадло, предисловие
Эта статья, мой конспект, сигнальный флаг, или очередная тренировка изложения своих мыслей? В силу обстоятельства, прикоснулся к unreal, замечательный инструмент в "умелых руках", много од написано сему творению человеческой мысли, так что взаимодействие с ним большая честь для разработчика. Создание игр, визуализация, исследования, много всего интересного заложено в этот проект с многолетней историей развития. Открытость и большое сообщество, существенно понижает порог вхождения, конечно тривиальность писать такое, каждый второй инструмент с такими характеристиками, но это говорит о общей высокой планке нынешних инструментов для реализации любых техно извращённых фантазий. Невероятное стечение обстоятельств, получаю деньги за то что учусь взаимодействовать с этим инструментом.
Влад Грозин о PhD в США, философии в Data Science, пузыре рекомендаций и голодающих геймерах
К нам в гости заглянул Влад Грозин — создатель ODS Pet Projects, ex. Head of Data Science из компании INCYMO, чтобы поговорить за жизнь про получение PhD в Америке и экзистенциальные риски, связанные с разработкой рекомендательных систем: пузыри рекомендаций и появление алгоритмов, которые будут предсказывать желания пользователя.
Kaggle для футболистов. Разбираем подходы призеров соревнований по детекции столкновений (5 — 3 место)
Недавно закончилось соревнование от американской национальной футбольной лиги (NFL), которая объединилась с AWS, чтобы прокачать системы спортивной видеоаналитики.
Организаторы поставили простую, казалось бы, задачу — точно определить, в каких случаях игроки сталкиваются друг с другом во время матча по американскому футболу. Мы с коллегами приняли участие, но не успели реализовать все свои идеи. Зато изучили подходы других команд и поняли, что были на верном пути. В этой статье я рассмотрю некоторые из решений, которые принесли денежное вознаграждение и золотые медали участникам этого челленджа.
Архитектура рекомендаций: как дать пользователю соцсети то, что ему понравится
Сегодня я расскажу, про базовое решение задачи рекомендации текстового контента на конкретном примере — ленте одной российской социальной сети. Посмотрим, что под капотом у сервиса рекомендаций, какие данные нужны для построения векторов пользователей, как ранжируются посты и к какой архитектуре рекомендательной системы мы пришли спустя несколько месяцев экспериментов.
Аутентификация в React — это просто
Аутентификация — это одна из тех вещей, которые зачастую требуют от нас гораздо больше усилий, чем нам хотелось бы.
Чтобы реализовать аутентификацию, приходится заново разбираться в темах, о которых вы не вспоминали с тех пор, как в последний раз делали ее для вашего приложения. Ведь эта область очень быстро развивается, а это означает, что за прошедшее с тех пор время появилась целая куча всего нового: новые угрозы, новые решения и обновления ранее используемых вами инструментов, из-за которых вам придется часами копаться в документации и ваших прошлых проектах.
В этом руководстве мы рассмотрим другой подход к аутентификации (а также управлению доступом, SSO и т.д.) в React-приложениях.
Преобразование табличных данных в Python
Предположим: вы полны желания изучить манящий массив данных. К счастью, для этого достаточно вашего компьютера. Итак, вы открываете блокнот Python или REPL, чтобы начать работать: какую библиотеку использовать? Естественно, вы можете обратиться к старой доброй Pandas. А как насчет новой модной библиотеки фреймов данных, например Polars или datatable? А ещё, для разнообразия, можно попробовать встроенный SQL с помощью DuckDB.
Давайте погрузимся в прекрасную область фреймов данных, чтобы сделать выбор!
PS: Используйте DuckDB, если вам удобно работать с SQL, Polars или Pandas с поддержкой PyArrow, если вам не нужно какое-то специфическое расширение NumPy, и задействуйте PyArrow в том случае, если вы не против ручной оптимизации.
Анализ текстовых данных с использованием тематического моделирования
Анализ текстовых данных становится все более важным в наше время, когда огромные объемы информации генерируются и обмениваются каждую секунду. От социальных медиа до новостных порталов, от клиентских отзывов до академических статей — текстовые данные содержат бесценные знания и инсайты. Однако извлечение значимой информации из таких объемов текста может быть огромным вызовом.
Компании хотят понимать общественное мнение о своих продуктах и брендах, но анализировать миллионы постов и комментариев вручную практически невозможно. Вот где анализ текстовых данных и тематическое моделирование приходят на помощь. Эти методы позволяют автоматически выявлять темы, тональность и структуру текста, делая процесс анализа эффективным и масштабируемым.
Начал бегать с марта 2023. Итог 40 беговых тренировок. Организм не тянет. Это провал? Анализируем и визуализируем данные
Поледний раз нормально бежал будучи студентом на сдаче нормативов для получения зачета по физкультуре. И вот сустя десятки лет попытался начать бегать для здоровья. Первая пробежка получилась всего 300 метров и пульс зашкалил. Вторая - 1 км. А 3-я уже с пульсометром - 1.5 км и она первая на графиках ниже.
Основные ресурсы нейронных сетей для начинающих и энтузиастов
Собрал все в одном месте! Выбор образовательных материалов в области нейронных сетей, а также различные проекты с открытым исходным кодом с нейронными сетями, которые могут быть полезны для разработки сервисов
Теории вероятностей: готовимся к собеседованию и разрешаем «парадоксы»
Каждый год я участвую примерно в сотне собеседований в образовательных проектах JetBrains: собеседую абитуриентов в Computer Science Center и корпоративную магистратуру ИТМО (кстати, набор на программу идёт прямо сейчас). Все собеседования устроены по одному шаблону: мы просим на месте порешать задачи и задаём базовые вопросы по дисциплинам, которые студенты изучали в университетах. Большинство вопросов, которые мы задаём, довольно простые — нужно дать определение некоторого понятия, сформулировать свойство или теорему. К сожалению, у значительной доли студентов все эти определения выветриваются сразу после экзаменов в университетах. Казалось бы, что тут удивительного? В современном мире любое определение можно за пару секунд нагуглить, если это нужно. Но невозможность восстановить базовое определение свидетельствует о непонимании сути предмета.
Если непонимание алгебры или математического анализа может мало влиять на вашу жизнь, то непонимание теории вероятностей делает из вас лёгкую мишень для обмана и манипулирования. Суждения о вероятностях различных событий настолько глубоко вошли в нашу повседневную жизнь, что умение правильно рассуждать и отличать правду от невежества или манипуляции является необходимым. В этом небольшом обзоре мы поговорим о базовых понятиях теории вероятностей, научимся правильно формулировать утверждения про простые случайные процессы и разберём несколько парадоксов. Часть материала позаимствована из брошюры А. Шеня «Вероятность: примеры и задачи», которую я очень рекомендую для самостоятельного изучения.
Слушаем и декодируем в реальном времени радиосигнал точного времени из интернета
Сегодня я хочу поговорить о том, как можно получить и декодировать сигналы точного времени, которые передаются по радио. Чтобы выполнить эту задачу, вам даже не понадобятся специальные устройства. Достаточно будет компьютера с более-менее быстрым интернет-соединением.
Технология передачи точного времени по радио не нова. Сигналы точного времени начали передавать практически сразу, как появился радиотелеграф. Сейчас передача сигналов точного времени осуществляется с помощью различных технологий. Помимо радио, информация о времени с разной степенью точности передаётся:
- в интернете (NTP);
- в сетях мобильной связи (NITZ);
- в системах спутниковой навигации GPS, ГЛОНАСС, BeiDou-3, Galileo.
Хотя в этих случаях используются более современные технологии, передача сигналов точного времени по радио продолжает существовать и выполнять свои функции. Промышленностью выпускаются различные устройства, принимающие эти сигналы, например, часы Casion Wave Ceptor. Изучив основы передачи точного времени по радио, вы узнаете много интересного, а также закрепите свои знания в различных областях.
Information
- Rating
- Does not participate
- Date of birth
- Registered
- Activity