Pull to refresh
-1
0
Глеб @snackTate

User

Send message

Экосистема для разработки и применения Computer Vision (CV) в промышленности

Level of difficultyMedium
Reading time11 min
Views2.3K

В этой статье мы хотим поделиться опытом разработки экосистемы (если есть слово поудачнее, то обязательно поделитесь в комментариях) сервисов для упрощения процесса разработки моделей и решений по CV. Идея написать статью укрепилась после того как мы пообщались со специалистами из разных промышленных компаний и поняли, что опыт у всех довольно разный, а средний уровень зрелости еще не такой высокий.

В данной статье сделаем акцент не на получающиеся ML-модели, их интеграцию и бизнес кейсы, а на обычно скрытый от глаз процесс разработки решений с ML (и CV в частности) в промышленности.

Читать далее

Введение в WebSocket и Socket.IO

Level of difficultyMedium
Reading time5 min
Views10K

Введение

WebSocket — это протокол, обеспечивающий двустороннюю коммуникацию между клиентом и сервером, идеально подходящий для приложений, где необходима передача данных в реальном времени, таких как чаты, уведомления и онлайн-игры

Socket.IO — это библиотека, которая расширяет возможности WebSocket, предоставляя механизмы автоматического переподключения и fallback-режимы для более стабильной работы в нестабильных сетевых условиях

В этой статье мы рассмотрим, как работают эти технологии, какие задачи решают, их преимущества и ограничения, а также покажем, как быстро настроить сервер и клиента для работы с WebSocket и Socket.IO.

Читать далее

Порядок работы с устареванием ML моделей. Шаг 2: Создание надежных и долговечных моделей

Level of difficultyMedium
Reading time19 min
Views1.1K

Еще на этапе создания модели следует проделать работу направленную на замедление ее устаревания.

Реализацию процесса работы с устареванием моделей в ML можно разделить на 4 шага.

В этой части мы с вами узнаем как создать надежную и долговечную модель, а также получить много полезной информации, которая поможет нам бороться с устареванием в будущем.

Мы пройдем полный путь создания модели и работы над замедлением ее устаревания.

Читать далее

Boxplot, он же ящик с усами

Level of difficultyMedium
Reading time10 min
Views4.6K

Представьте, что вам нужно быстро сравнить распределения зарплат сотрудников разных отделов или оценить разброс результатов эксперимента. В таких ситуациях отличным выбором будет boxplot, он же “ящик с усами” – эффективный инструмент для выявления ключевых характеристик распределения, позволяющий быстро оценить медиану, разброс данных и обнаружить выбросы.

В этой статье мы подробно разберем, что такое boxplot и почему его называют “ящиком с усами”.

Читать далее

LLM для автоматизации поддержки

Level of difficultyMedium
Reading time7 min
Views3.4K

Привет, Хабр! Меня зовут Ирина, я занимаюсь NLP для автоматизации поддержки в Центре искусственного интеллекта Т-Банка. В статье расскажу, как мы исследовали применение LLM в автоматизации поддержки: какие подходы попробовали, какие сложности возникли и какие решения оказались наиболее эффективными.

Классические системы поддержки строятся на предсказании интентов с последующим запуском сценариев. Но такие решения часто не учитывают контекст, из-за чего пользователи вынуждены переформулировать вопросы или обращаться к оператору. Мы решили проверить, сможет ли LLM заменить традиционный пайплайн классификации интентов, повысить точность понимания и улучшить пользовательский опыт.

Наш эксперимент показал, что LLM действительно открывает новые возможности, но не все оказалось так просто. В статье я расскажу, какие техники сработали, какие проблемы пришлось решать и как LLM можно эффективно встроить в реальную систему поддержки.

Читать далее

Как тестировать бизнес-процессы в Camunda: пошаговый гайд

Level of difficultyMedium
Reading time6 min
Views3.2K

На один из процессов я разработала почти 150 тестов. В статье показываю и рассказываю, как тестировать в Camunda.

Читать далее

Основы очистки данных в data science

Level of difficultyEasy
Reading time10 min
Views4.7K

В реальной жизни данные, к сожалению, не идеальны и требуют тщательной предобработки. Проблемы с данными могут возникать по разным причинам: из-за их природы, способа сбора или ошибок при вводе.

Очистка данных позволит сделать анализ более точным, а в случае машинного обучения — улучшить качество моделей.

Давайте рассмотрим пять задач, с которыми можно столкнуться в рамках очистки данных. Это не исчерпывающий список, но он послужит хорошим ориентиром при работе с реальными датасетами.

Все примеры мы будем рассматривать на Ames Housing Dataset, который содержит информацию о продажах жилой недвижимости в городе Эймс, штат Айова, США

Читать далее

Практическое применение открытых API: трансформация студенческого проекта в бизнес-решение по оценке контрагентов

Level of difficultyEasy
Reading time8 min
Views1.8K

Как студенческое исследование по оценке репутации контрагентов с использованием открытых данных переросло в ИТ-решение представителя среднего бизнеса.

История моей ИТ-инициативы началась с университетского проекта по управлению рисками, выполненного на кафедре «Бизнес-информатика» Финансового университета. Совмещая приятное с полезным, одновременно с учебным проектом занимался оценкой благонадежности контрагентов и рисков сотрудничества с ними в реальном бизнесе.

В рамках университетского исследования изучены взаимосвязи между различными корпоративными данными, включая факторы риска, и результатами сотрудничества с контрагентами. В исследованиях выявил взаимозависимость репутационных рисков с банкротствами аффилированных лиц, политическими взглядами учредителей и судебной активностью, при этом благонадёжность определяется устойчивым развитием, участием в госзакупках и политических кампаниях.

Руководству были представлены результаты исследования взаимосвязей между репутацией и благонадёжностью контрагентов. На основе проведённого исследования было принято решение внедрить ИТ-решение по автоматизации анализа и визуализации данных с использованием открытых данных из источников, таких как ФНС, Право.ру и СКБ Контур, доступных через открытые API. Так, функционал этих инструментов начал применяться в реальном бизнесе для оценки благонадёжности контрагентов.

Читать далее

Алгоритм Байеса для аналитики данных

Level of difficultyMedium
Reading time8 min
Views16K
Автор статьи: Артем Михайлов

Алгоритм Байеса — это статистический метод, который используется для определения вероятности событий на основе предыдущих знаний об этом событии. Этот метод основан на теории вероятности, которая позволяет нам оценить вероятность случайного события, на основе его значимости и частоты его возникновения.

Он был назван в честь английского математика Томаса Байеса, который жил в 18 веке и внес значительный вклад в развитие теории вероятностей. Он также занимался исследованием теории решения задач на основе эмпирических данных.



Суть алгоритма Байеса заключается в обновлении апостериорных вероятностей для параметров модели на основе априорных вероятностей и новых наблюдений. То есть, при анализе данных, необходимо определить вероятности того, что искомый параметр принимает определенное значение. По мере поступления новых данных, вероятности для параметров модели обновляются, с учетом априорных знаний и новых данных.

Одной из самых популярных областей применения алгоритма Байеса является анализ данных. Алгоритм Байеса может быть использован для определения вероятности события на основе уже имеющихся данных, что делает его очень полезным инструментом для прогнозирования и принятия решений в разных областях, таких как медицина, бизнес и финансы.

В этой статье мы рассмотрим основные принципы этого алгоритма и как его применять на практике.
Читать дальше →

Сегментация данных — это не больно. Применяем ML-модели в аналитике

Reading time8 min
Views2.8K

Как именно пол, возраст или семейное положение пользователей влияют на наши продуктовые метрики? 

Ответить на подобные вопросы помогает решение задач в духе «сегментация чего-либо по имеющимся данным».

Классические подходы аналитиков (анализ зависимостей отдельных переменных, группировка по всем потенциальным переменным) в таких случаях могут быть сложны и требовать больших трудозатрат. 

Альтернативный вариант — использовать собственный инструмент сегментирования, созданный на базе ML-модели под конкретный набор задач. 

Под катом рассказываем о том, как у нас в Сравни устроен подобный сервис, принципах его работы и деталях технической реализации.

Читать далее

Работа с API: 17 полезных ссылок для системного аналитика

Level of difficultyMedium
Reading time3 min
Views9.7K

Привет! Это команда Яндекс Практикума. Делимся подборкой экспертов курса «Системный аналитик» — со статьями, курсами, книгами, видео и инструментами для аналитиков, разработчиков, тестировщиков и других специалистов, работающих с API.

Читать далее

Мастер-класс по точечному переносу изменений между ветками в git

Level of difficultyEasy
Reading time7 min
Views12K

Представьте ситуацию: вы нашли критический баг в проекте, исправили его в feature-ветке, но до полного слияния ещё далеко. Или вам срочно нужно перенести одно конкретное изменение из текущей ветки в другую. В таких случаях git cherry-pick становится вашим секретным оружием.

Читать далее

Забудьте про зарплаты в 500 тысяч: сколько будут получать разработчики в 2025 году

Level of difficultyEasy
Reading time8 min
Views178K

Хантинг с зарплатами в 500 тысяч остался в прошлом, вместо "безумных" денег пришли "разумные" бюджеты, а географическое положение разработчика перестало играть решающую роль. Мы поговорили с экспертами рынка о том, как формируются зарплаты в IT сегодня, почему "переезд в Омск" может стать отличной карьерной стратегией, и какие специалисты действительно могут чувствовать себя уверенно в 2025 году. Выяснилось, что рынок менее предсказуемым, но не менее интересным для тех, кто сумеет играть по новым правилам.

Читать далее

Как стать аналитиком данных с нуля? Бесплатная программа обучения

Level of difficultyEasy
Reading time2 min
Views28K

Если вбить фразу «как стать аналитиком данных» в поисковую строку, можно найти огромное количество курсов по данному направлению. Проблема в том, что все курсы являются платными и, как правило, имеют ценник в несколько десятков тысяч рублей. 

Чтобы разбавить засилие платных курсов, мы с аналитиком данных Сергеем Булюкиным подготовили программу обучения «Аналитик данных с нуля», которая состоит только из бесплатных курсов.

Читать далее

Как организовать безопасное хранение секретов в Docker: лучшие практики

Level of difficultyMedium
Reading time6 min
Views15K

Хей, Хабр! Секреты — это такая щекотливая тема, из‑за которой у безопасников начинаются нервные подёргивания глаза. Вроде бы «просто пароль» или «просто токен», но в 2025 году мы уже знаем, что просто в безопасности — это верная дорога к утечкам и ночным обкаткам плана B. В этой статье поговорим, как правильно хранить секреты в Docker‑контейнерах и окрестностях, а заодно разберёмся, чем могут помочь Docker Secrets, HashiCorp Vault и компания.

Читать далее

Открытые книги по ML и работе с данными

Level of difficultyEasy
Reading time5 min
Views10K

Мы регулярно публикуем подборки литературы для специалистов: делали дайджест книг для желающих поближе познакомиться с Postgres и Kubernetes. Сегодня на очереди справочники и пособия по машинному обучению, которые можно найти в открытом доступе. Эти материалы помогут погрузиться в ML, разобраться в базовых математических концепциях, понять тренды опенсорсных технологий для систем ИИ и перейти к работе с ML-платформой.

Читать далее

Мастерство Data Science: Автоматизированное конструирование признаков на Python

Reading time11 min
Views13K
image

Машинное обучение все больше переходит от моделей, разработанных вручную, к автоматически оптимизированным пайплайнам с использованием таких инструментов, как H20, TPOT и auto-sklearn. Эти библиотеки, наряду с такими методами, как случайный поиск, стремятся упростить выбор модели и настройку частей машинного обучения, находя лучшую модель для набора данных без какого-либо ручного вмешательства. Однако разработка объектов, возможно, более ценный аспект пайплайнов машинного обучения, остается почти полностью человеческим трудом.

Конструирование признаков (Feature engineering), также известная как создание признаков (feature creation), представляет собой процесс создания новых признаков из существующих данных для обучения модели машинного обучения. Этот шаг может быть более важным, чем фактическая используемая модель, потому что алгоритм машинного обучения извлекает уроки только из тех данных, которые мы ему предоставляем, и создание признаков, которые имеют отношение к задаче, абсолютно необходимо (см. Превосходную статью «Несколько полезных вещей, которые необходимо знать о Машинное обучение").
Читать дальше →

Глубокое обучение: Алгоритм обратного распространения ошибки. Теория и реализация. С нуля

Level of difficultyEasy
Reading time10 min
Views9.9K

Всем привет. Меня зовут Алмаз Хуснутдинов. В этой статье я рассказываю про алгоритм обратного распространения ошибки, который используется для обучения нейросетей.

Содержание: архитектура простой нейросети и инициализация переменных, прямое распространение ручной расчет, вывод производных, вывод алгоритма, обратное распространение ручной расчет, реализация простой архитектуры нейросети и задача «логическое или», реализация класса для многослойной нейросети и изображения MNIST.

Читать далее

AI для аналитики

Level of difficultyEasy
Reading time11 min
Views4.2K

Случается, что мои знакомые и друзья внезапно возбуждаются на тему ИИ и начинают тревожно звонить с вопросами: ну что там с ИИ? Уже случилась революция? Пора всех увольнять и срочно заменять чат-ботами?

Уволить конечно можно, особенно бездельников и когда на заводах/пароходах работать некому, но касаемо реальных бизнес-кейсов с ИИ все не то чтобы прям заладилось. Бизнес конечно по-прежнему возбуждается и визионирует на конференциях, но реальные проекты пока драйвово буксуют, а ванильный AI-вайб начинает попахивать болотной тиной.

Надо с этим что-то делать и срочно насыпать каких-нибудь корповых бизнес-кейсов и потом к этим кейсам прикрутить какую-нибудь новую ИИ-штуку чтобы вернуть радугу приунывшим единорогам.

Читать далее

Энтропия – это мера того, как мало мы на самом деле знаем

Level of difficultyMedium
Reading time20 min
Views20K

Жизнь — это антология разрушения. Всё, что вы строите, в конце концов ломается. Все, кого вы любите, умрут. Любое ощущение порядка или стабильности неизбежно рушится. Вся Вселенная движется по мрачному пути к состоянию окончательного хаоса.

Чтобы следить за этим космическим распадом, физики используют понятие, называемое энтропией. Энтропия — это мера беспорядка, и утверждение, что энтропия всегда растёт, известное как второй закон термодинамики, — одна из самых неотвратимых заповедей природы.

Меня давно беспокоит всеобщее стремление к беспорядку. Порядок хрупок. Чтобы создать вазу, требуются месяцы тщательного планирования и мастерства, а чтобы разрушить её футбольным мячом — одно мгновение. Мы проводим жизнь, пытаясь разобраться в хаотичном и непредсказуемом мире, где любая попытка установить контроль, похоже, приводит лишь к обратному результату. Второй закон запрещает механизмам быть идеально эффективными, а это значит, что любая структура, возникающая во Вселенной, в конечном итоге служит лишь для дальнейшего рассеивания энергии — будь то звезда, которая в конце концов взрывается, или живой организм, превращающий пищу в тепло. Мы, несмотря на все наши благие намерения, являемся проводниками энтропии.

Читать далее

Information

Rating
Does not participate
Location
Ставрополь, Ставропольский край, Россия
Date of birth
Registered
Activity