Pull to refresh
-1
0
Глеб @snackTate

User

Send message

Энтропия – это мера того, как мало мы на самом деле знаем

Level of difficultyMedium
Reading time20 min
Views18K

Жизнь — это антология разрушения. Всё, что вы строите, в конце концов ломается. Все, кого вы любите, умрут. Любое ощущение порядка или стабильности неизбежно рушится. Вся Вселенная движется по мрачному пути к состоянию окончательного хаоса.

Чтобы следить за этим космическим распадом, физики используют понятие, называемое энтропией. Энтропия — это мера беспорядка, и утверждение, что энтропия всегда растёт, известное как второй закон термодинамики, — одна из самых неотвратимых заповедей природы.

Меня давно беспокоит всеобщее стремление к беспорядку. Порядок хрупок. Чтобы создать вазу, требуются месяцы тщательного планирования и мастерства, а чтобы разрушить её футбольным мячом — одно мгновение. Мы проводим жизнь, пытаясь разобраться в хаотичном и непредсказуемом мире, где любая попытка установить контроль, похоже, приводит лишь к обратному результату. Второй закон запрещает механизмам быть идеально эффективными, а это значит, что любая структура, возникающая во Вселенной, в конечном итоге служит лишь для дальнейшего рассеивания энергии — будь то звезда, которая в конце концов взрывается, или живой организм, превращающий пищу в тепло. Мы, несмотря на все наши благие намерения, являемся проводниками энтропии.

Читать далее

Оптимизация SQL запросов

Level of difficultyMedium
Reading time6 min
Views27K

Оптимизация SQL-запросов является одной из ключевых задач при работе с реляционными базами данных. Эффективные SQL-запросы позволяют значительно улучшить производительность приложений и обеспечить более быстрый доступ к данным. В данной статье мы рассмотрим как переписать запрос, чтобы выполнялся быстрее. В статье пойдет речь о PostgreSQL, хотя применять данные советы к любой базе данных SQL Ниже будут представлены термины и операторы, о которых пойдет в данной статье.

Читать про оптимизацию

Виртуальный ПЛК – следующий шаг в цифровой трансформации архитектур автоматизации

Reading time7 min
Views7.9K

Статья Дэвида Хамфри (David Humphrey), директора по исследованиям аналитического агентства ARC Europe, в которой рассматривается появление программно-определяемой автоматизации на уровне контроллера и ее влияние на то, как АСУ ТП будут проектироваться, развертываться и управляться в будущем. Речь идет о виртуальных ПЛК (vPLC) – программных средств, эмулирующих функции физических программируемых логических контроллеров.

Читать далее

Как объяснить сейлам, что обещание жестких сроков — это плохо

Level of difficultyEasy
Reading time4 min
Views4.1K

Недавно я имел очередной разговор с представителями коммерческого департамента на предмет выдачи клиентам обещаний по срокам реализации функционала. Так как регулярно приходится объяснять почему это крайне сомнительный путь, то решил написать небольшую статью с описанием логики и аргументации.

Читать далее

Создание эффективных агентов

Level of difficultyEasy
Reading time12 min
Views3.9K

За прошедший год мы поработали с десятками команд, создающих агентов на основе больших языковых моделей (LLM) в различных отраслях. Последовательно мы отмечали, что самые успешные реализации не использовали сложные фреймворки или специализированные библиотеки. Вместо этого они строились на простых, составных паттернах.

В этой статье мы делимся тем, что узнали, работая с нашими клиентами и создавая агентов самостоятельно, а также даём практические советы разработчикам по созданию эффективных агентов.

Читать далее

Цифровизация без сокращений: MES и новая эра управления персоналом

Reading time9 min
Views4.1K

Кадровый дефицит — хроническая болезнь российской промышленности. Токарь не вышел на смену, смена не вышла целиком, план сорвался, клиенты ждут, а конкурент дышит в спину. Вдобавок к этому проблемы с нехваткой ресурсов, недостаточная квалификация у вышедших, нет сырья/материалов на складе (но не в учете) и много чего ещё. Но что, если решение может лежать не в плоскости найма людей, а в использовании умных систем? Например, MES может взять на себя часть работы и дать предприятиям возможность не просто продержаться в экономически сложной ситуации , но и стать сильнее. Но, разумеется, есть нюансы… Про них сегодня и расскажу.

Читать далее

Анализ фильмов с интернет-портала Кинопоиск

Level of difficultyMedium
Reading time41 min
Views3K

Данное исследование посвящено анализу данных о фильмах, собранных с крупнейшей российской платформы КиноПоиск. Основная цель работы — выявить факторы, влияющие на популярность фильмов, их рейтинги и финансовую успешность. В ходе исследования были проанализированы жанровые предпочтения аудитории, проведено сравнение оценок фильмов на Кинопоиске и IMDb, а также исследована взаимосвязь между бюджетами фильмов и их кассовыми сборами.

Разработка включала этапы сбора, обработки, анализа и визуализации данных. Для обработки данных применялись методы очистки от пропусков и ошибок, фильтрации по ключевым показателям и трансформации структур данных. Были реализованы функции для конвертации валют, извлечения данных о жанрах и персоналиях фильмов (актёрах и режиссёрах), а также вычисления статистических показателей полноты и однородности выборки.

Для эффективной работы системы был использован современный технологический стек. Обработка данных осуществлялась с помощью MongoDB, что обеспечило хранение и управление большими объёмами неструктурированной информации. RabbitMQ организовал асинхронный обмен сообщениями между компонентами системы, а серверная часть приложения разрабатывалась на базе Spring Boot, что ускорило процесс разработки и упростило развертывание приложения. Контейнеризация с использованием Docker обеспечила удобное развертывание и масштабирование системы. Основными языками программирования стали Java 17 и Python: Java использовалась для серверной части и микросервисов, а Python — для анализа данных и построения алгоритмов обработки информации.

Для анализа данных применялись библиотеки Pandas, Seaborn и SciPy, которые обеспечили эффективную обработку данных и визуализацию результатов. В рамках анализа строились графики, отображающие популярность жанров, исследовалась корреляция оценок на Кинопоиске и IMDb, а также визуализировалась связь между бюджетами и кассовыми сборами. Для представления результатов применялись такие инструменты, как matplotlib и seaborn, позволяя визуализировать ключевые закономерности в виде графиков и диаграмм.

Анализ выявил ключевые закономерности: популярность определённых жанров, зависимость коммерческого успеха фильма от его бюджета и значительное влияние известных актёров и режиссёров на успех фильма. Полученные результаты могут быть полезны для киностудий и продюсеров при планировании новых проектов, прогнозировании кассовых сборов и выборе жанров. Результаты также могут применяться для оптимизации маркетинговых стратегий при продвижении фильмов. В будущем планируется углубить исследование, проанализировать долгосрочные тренды в изменении популярности жанров и исследовать влияние пользовательских рецензий на успех фильмов.

Читать далее

Рецензия на книгу «Байесовская оптимизация с примерами из библиотек Python»

Level of difficultyEasy
Reading time9 min
Views2.9K

Байесовская оптимизация (Bayesian Optimization) призвана решить проблему исследования данных от «черного ящика» путем объединения вероятностного машинного обучения (ML) и теории принятия решений. Несмотря на то, что BayesOpt доказала свою эффективность во многих реальных задачах оптимизации «черного ящика», многие практикующие ML-специалисты все еще сторонятся этой методики, полагая, что для этого им нужны более высокие компетенции. Теперь у вас есть возможность получить нужные знания с новой книгой от издательства Manning в русском переводе от Alist в партнерстве с БХВ.

Читать далее

Мир за пределами Pandas: достойные альтернативы для работы с данными

Reading time7 min
Views9.7K

Хабр, привет! Это Леша Жиряков, техлид backend-команды витрины онлайн-кинотеатра KION. В мире дата-аналитики Pandas остается одной из самых популярных библиотек. Но это вовсе не значит, что нет других быстрых, удобных и производительных инструментов. Мой пост покажет альтернативы: от колоночной DuckDB и сверхскоростной Polars до мощного Modin и гибкого Vaex. В подборке я постарался передать главную суть — назначение и преимущества инструмента и его характеристики с GitHub.

Читать далее

Как сделать резюме, которое дойдёт до работодателя. Фильтры ATS в 2025 году

Level of difficultyEasy
Reading time9 min
Views16K

ATS (Applicant tracking system) — ПО, которое помогает работодателям и рекрутерам искать и отбирать кандидатов на первичном этапе. С такой системой до живого рекрутера доходит лишь малая часть резюме, потому что ATS беспощадно отсеивают кандидатов, которые им не нравятся. Ваша кандидатура может идеально подходить по требованиям, но если вы неправильно себя преподнесете — ваше резюме отправят в цифровую корзину.

По статистике StandOut CV за 2023 год, ATS отклоняет на первом этапе 75% резюме. Компания Oorwin, которая сама предлагает продукты для автоматизации рекрутинга, упоминает такое же количество отказов — 75%. В итоге живой рекрутер видит только каждое четвертое резюме.

В этой статье я расскажу, как работают системы ATS и как составить резюме, которое точно попадет в руки реального человека.

Читать далее

Как сократить время выполнения ресурсоемких задач в Python

Level of difficultyMedium
Reading time9 min
Views2.3K

Всем привет! На связи Spectr и рубрика «Что читают наши разработчики». Сегодня разберем практические методы ускорения тяжелых вычислений с помощью оптимизации на GPU в Python.

Узнать о методах ускорения в Python

Подборка книг для аналитиков и разработчиков

Level of difficultyEasy
Reading time3 min
Views8.3K

Всем привет! Меня зовут Дарья, и из десяти лет работы в банке последние пять я занимаю должность системного аналитика. Хочу поделиться с вами списком книг, которые помогли мне прокачать скиллы и продвинуться по карьерной лестнице. 

Если вы находитесь в начале своего карьерного пути или просто живёте с девизом «хочу всё знать!», этот список вам точно пригодится!

Читать далее

Метрики оценки качества вероятностей в бинарной классификации: опыт из ФинТеха

Level of difficultyMedium
Reading time14 min
Views3.1K

Бинарная классификация — одна из ключевых задач машинного обучения, но в реальных приложениях часто важно не только определить класс, но и понять, с какой вероятностью модель принимает решение. Как проверить точность вероятностных предсказаний?

В статье обсуждаются специализированные инструменты для оценки качества вероятностных прогнозов, ключевые метрики и их интерпретация. Материал будет полезен для практиков, стремящихся повысить точность и объяснимость своих моделей.

Читать далее

Как пережить собеседование, если ты интроверт и очень боишься провалиться

Reading time5 min
Views12K

Привет, жители Хабра! Это Асия Морозова, руководитель направления по обучению и адаптации персонала.

Уверена, среди вас немало интровертов, для которых собеседования с потенциальным работодателем кажутся настоящим адом испытанием: это же нужно созвониться с совершенно незнакомым человеком (а вдруг их вообще будет несколько!), рассказывать о себе, отвечать на вопросы — брррр! Но сразу успокою: это не редкость. Для айтишников быть интровертами — классика. За годы работы у меня были случаи, когда люди стеснялись включать камеру на созвоне, а иногда даже почти всегда оставляли в резюме пустой квадрат на месте фотографии. Бывали и более креативные ребята: вместо своего фото, они загружали фото кота. Звучит забавно, но не для работодателя.

Чтобы ваше стеснение не перекрыло вам дорогу к карьерному треку мечты, к собеседованию нужно заранее готовиться и морально себя настраивать. Сегодня поделюсь лайфхаками, которые помогут выстоять в таком нелегком деле. Отталкиваться будем от пяти популярных страхов кандидатов перед собеседованиями: а вдруг я все забуду или меня спросят о том, чего я не знаю, вдруг не подключится звук и так далее. Поехали!

Читать далее

Умная нормализация данных

Reading time8 min
Views116K

Эта статья появилась по нескольким причинам.


Во-первых, в подавляющем большинстве книг, интернет-ресурсов и уроков по Data Science нюансы, изъяны разных типов нормализации данных и их причины либо не рассматриваются вообще, либо упоминаются лишь мельком и без раскрытия сути.


Во-вторых, имеет место «слепое» использование, например, стандартизации для наборов с большим количеством признаков — “чтобы для всех одинаково”. Особенно у новичков (сам был таким же). На первый взгляд ничего страшного. Но при детальном рассмотрении может выясниться, что какие-то признаки были неосознанно поставлены в привилегированное положение и стали влиять на результат значительно сильнее, чем должны.


И, в-третьих, мне всегда хотелось получить универсальный метод учитывающий проблемные места.


Читать дальше →

Как сравнивать ML-модели: шпаргалка для разработчиков и менеджеров

Level of difficultyMedium
Reading time10 min
Views2.9K

При разработке и поддержке ML-продуктов одним из ключевых решений является решение о переходе на новую модель, опережающую предыдущую по ряду характеристик. Разработчики и бизнес сталкиваются с риском впустую потратить ресурсы на продуктивизацию новой модели, если разница между текущей и обновленной моделью статистически не обоснована. В статье представлен исчерпывающий системный подход к разрешению данной дилеммы, который успешно применяется у нас в t2 (ранее Tele2).

Читать далее

Хостинг для бота: как без лишних усилий запустить Python бота в Docker-контейнере и почему это удобно

Level of difficultyEasy
Reading time6 min
Views13K

Боты стали незаменимыми помощниками уже почти для любого бизнеса. Чат‑боты автоматизируют обработку запросов, улучшая пользовательский опыт и снижая нагрузку на сотрудников. Боты для Telegram‑каналов и других мессенджеров помогают распространять нужную информацию, управлять группами и решать целый ряд других задач.

Выбор хостинга для бота и запуск его на сервере — задачи с которыми ежедневно сталкивается множество пользователей. В этой статье мы расскажем о вариантах хостинга ботов и разберем по шагам на конкретном примере как запустить Telegram бота на платформе Dockhost.

Читать далее

Стартер-пак книг для продуктового аналитика (и не только)

Level of difficultyEasy
Reading time4 min
Views9.6K

Я тут недавно общался с одной командой аналитиков и мы обсуждали, что бы можно было порекомендовать тем, кто хочет прокачаться в продуктовой аналитике. Вспоминали кейсы, делились историями «до» и «после» прочтения некоторых книг. Так вот, этот список — это не просто «лучшие бестселлеры по версии Google», а те книги, которые изменили подход меня и моих коллег к работе.

Читать далее

Гайд по установке Apache Airflow, на случай, если у тебя его ещё нет в преддверии 2025 года

Level of difficultyMedium
Reading time5 min
Views10K

Немного лирики, что такое Apache Airflow — это оркестратор (ваших данных), инструмент для создания, планирования и мониторинга рабочих процессов (так называемых DAGs — Directed Acyclic Graphs).

Читать далее

7 продвинутых приемов pandas для науки о данных

Reading time4 min
Views14K

Pandas — это основная библиотека для работы с данными. Вот несколько приёмов, которые я использую, чтобы быстрее и проще выполнять повторяющиеся задачи по работе с данными.

Читать далее

Information

Rating
Does not participate
Location
Ставрополь, Ставропольский край, Россия
Date of birth
Registered
Activity