Обновить
1024K+

Python *

Высокоуровневый язык программирования

444
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Автоэнкодер: как нейросеть учится понимать норму

Время на прочтение6 мин
Охват и читатели7.3K

Непосвящённому человеку кажется, что нейронная сеть может всё.
Средства массовой информации этот миф только подпитывают, а где-то в недрах Голливуда Джеймс Камерон шепчет:
«Я не режиссёр — я пророк».

В реальной же повседневной работе от нейронной сети мне нужна одна простая и приземлённая вещь — поиск аномалий в данных.
И вот с этим нейросети действительно справляются. Более того, для этого у них есть специальный инструмент — автоэнкодер.

В этом небольшом опусе я попробую быстро, просто и без магии объяснить, что такое автоэнкодер, как он работает и почему он вообще способен находить аномалии.

Читать далее

Биномиальное — это не нормальное распределение

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели7.2K

Вероятно разные распределения скорее описывают разные системы, чем характеризуют разные состояния одной. На примере биномиального, с одной стороны, убеждаемся в специфике применения определенного распределения, с другой, — выясняем при каких параметрах его можно считать частным случаем нормального, и стоит ли доводить до этого.

С графиками и без формул

Как реализовать выборочную долговременную память в LLM-боте на Python

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели6.7K

LLM-модели хорошо решают задачи диалога, но имеют одно ключевое ограничение: отсутствие встроенной долговременной памяти. Модель опирается только на текущий контекст.

Читать далее

Анализ данных с сайта Pet911

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели7.9K

В статье рассмотрено программное решение для сбора набора данных о пропавших и найденных животных с сайта Pet911.ru – крупнейшей в России система поиска пропавших животных, анализа и визуализации полученных данных. Исследуется зависимость шанса нахождения животного или новых хозяев от его вида, возраста, подробности описания примет, числа комментариев, количества фотографий и так далее Формируется статистика о пропавших питомцах по регионам. Данная работа может помочь при организации поисков пропавших животных и для нахождения хозяев уличным животным, создании новых волонтёрских объединений.

Исследование выполнено в рамках дисциплины «Большие данные» магистерской программы «Математические методы анализа и визуализации данных» Санкт‑Петербургского политехнического университета Петра Великого.

Читать далее

Ежедневный отчёт по Telegram-каналу без шаманства с crontab

Время на прочтение8 мин
Охват и читатели8.1K

Сегодня у многих есть свой Telegram-канал: личный блог, канал продукта, проектная рассылка или просто канал "для своих". Посты публикуются, идут реакции, подписчики иногда растут, иногда падают. Но до статистики большинство добирается редко: нужно отдельно открывать статистику от телеграм, которая не у всех то и доступна, смотреть графики, считать охваты и пытаться понять, какие посты зашли, а какие нет.

Очевидный путь - автоматизировать все самому: поднять VPS, поставить туда Python, написать скрипт, настроить crontab, следить за работой и молиться, что все будет работать без ошибок. Ради одного короткого задания раз в день это выглядит избыточно, приходится платить за целую виртуалку и тратить время на настройку.

В этой статье я покажу, как сделать проще: собрать небольшой Python-скрипт, который раз в день отправляет вам в Telegram краткий отчет по каналу: количество постов, просмотры, репосты, реакции, самые популярные реакции и топ-посты за указанный вами период без необходимости постоянной аренды VPS.

Читать далее

Дистрибутивные схемы, ч.1

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели6.7K

Борис Цирлин

Рассматриваются дистрибутивные схемы - подкласс схем, не зависящих от скорости, являющийся промежуточным между последовательными и полумодулярными схемами.
Подсчитано количество таких схем, состоящих из двух и трех элементов. Определены и подсчитаны неизоморфные дистрибутивные схемы.

Читать далее

Текст как пазл: Нашел палиндромы в стихах Маяковского с Python

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели6.2K

Как Python помогает находить симметрии в поэтическом тексте. Простой код для поиска палиндромов (слов и фраз, читающихся одинаково в обе стороны) в творчестве Владимира Маяковского.

Читать далее

Как я тв-шоу переводил с помощью ML-моделей без подписок и СМС

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели11K

Привет, Хабр!

Сейчас мы переживаем бум ИИ-сервисов, которые за небольшую плату могут реализовать любые ваши творческие фантазии без необходимости глубокого понимания технических принципов их работы. Но я из тех, кто любит «ковыряться под капотом», поэтому в качестве проекта «выходного дня» я решил реализовать сервис машинного закадрового перевода видео с помощью общедоступных моделей с локальным запуском. А что из этого вышло – читайте далее.

Читать далее

Как квантовать LLM. Практическое руководство для начинающих

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели15K

В этой статье я расскажу об основных концепциях квантования, сделаю небольшой обзор популярных методов квантования, а также для каждого метода приведу практический пример на Python для его применения к LLM.

🔥 Начинаем 🔥

Руководство по PyTorch для новичков: создаём модель множественной регрессии с нуля

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели14K

В реальных задачах машинного обучения куда чаще приходится иметь дело не с «миллионами картинок», а с небольшими табличными датасетами вроде Abalone из UCI. В статье разбирается путь от честного EDA и линейной регрессии до нейросетевой модели на PyTorch: что дают трансформации признаков, какие проблемы создают гетероскедастичность и мультиколлинеарность, когда глубокая модель действительно улучшает метрики, а когда остаётся всего лишь дорогим способом получить те же самые 4–5 % выигрыша. По сути, это разбор того, где проходит граница здравого смысла между «добавим ещё один слой» и «нам хватит простой модели».

Читать далее

ГенИИальный помощник ИТ-аналитика: как ИИ влияет на профессию и что с этим делать

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели5.2K

Профессия ИТ-аналитика в последние годы быстро трансформируется под влиянием бурного развития генеративного ИИ. Эксперт Axenix Игорь Кайбанов рассказывает, какие задачи теперь должен уметь решать специалист по данным, на какие ключевые тренды в развитии моделей ему важно обратить внимание и какие возможности ГенИИ стоит применять в своей работе.

Эволюция профессии

Всего за несколько лет эволюции генеративного ИИ роль ИТ-аналитиков заметно изменилась — модели взяли на себя огромную часть рутины, оставив человеку критическую оценку проделанной работы и преобразование инсайтов в действенные бизнес-решения.

CEO Shopify Тоби Лютке недавно предложил термин context engineer на замену понятия prompt engineer — и это оправдано. От постановки задачи и способов ее исполнения мы перешли к необходимости ограничивать и задавать контекст решения. В этом помогают как экспертные промты и ИИ-агенты, так подключение к системе специализированного массива данных.

Казалось бы, аналитик, пройдя стадию промт-инжиниринга для domain-задач, становится профи в контент-инжиниринге. Но и это быстро уходит в прошлое. По мере того, как искусственный интеллект становится проактивным и все больше берет на себя принятие решений, аналитик превращается в когнитивного инженера.

Ключевой задачей аналитика становится гибридная экспертиза, то есть синтез ИТ-знаний плюс понимание возможностей/рисков ИИ (особенно в security-sensitive отраслях). На этом уровне аналитик становится «проводником» между данными и стратегией, где ГенИИ — не замена, а мультипликатор эффективности.

Читать далее

Поиск работы в Telegram: как автоматизировать рутину с помощью JobStalker

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели6.6K

Поиск работы часто превращается в бесконечный скроллинг по Telegram-каналам: десятки уведомлений, тонны сообщений, чтение длинных описаний вакансий, попытки понять, подходит ли это тебе. А ведь Telegram — один из самых популярных источников свежих предложений о работе, особенно в IT, маркетинге и фрилансе. Но вручную фильтровать всё это — сплошная потеря времени. Здесь на помощь приходят современные технологии: машинное обучение, которое может анализировать текст лучше, чем человек, и автоматизировать процесс.

Именно из этой идеи родился JobStalker — Telegram-бот, который мониторит публичные каналы с вакансиями, фильтрует их с помощью модели машинного обучения, оценивает релевантность и сохраняет подходящие варианты в удобной базе данных. Всё это с веб-интерфейсом для настройки и просмотра результатов. Проект полностью open-source, и вы можете развернуть его на своём ПК или сервере.

Ссылка на репозиторий

Читать далее

Гайд по форматированию строк в Python: от % до f-строк и обратно

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели10K

Форматирование строк кажется тривиальной задачей, пока вы не сталкиваетесь с поддержкой чужого легаси-кода или вопросами производительности в высоконагруженных циклах.

За годы развития Python прошел путь от C-style форматирования (%) до мощных f-строк (Python 3.6+). Но означает ли это, что о старых методах можно забыть?

Читать далее

Ближайшие события

Python + Fortran: Когда numpy уже мало, а C++ ещё страшно. Ускоряем код в 150 раз

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели9K

Привет, Хабр!

В прошлой статье я рассуждал о том, почему Fortran в 2025 году всё ещё жив и даже растет в рейтингах. В комментариях справедливо заметили: «Философия — это хорошо, но как это применить современному разработчику? Зачем мне Fortran, если я пишу на Python?».

Это правильный вопрос. Сегодня я хочу ответить на него кодом, а не словами.

Я покажу, как использовать Fortran в качестве «числодробилки» для Python. Мы возьмем задачу, на которой интерпретатор Python гарантированно просядет, и ускорим её в ~150 раз, используя инструмент, который уже есть в вашем numpy.

Речь пойдет не о замене Python, а о симбиозе: удобный интерфейс Python + сырая мощь Fortran.

Читать далее

От «обезьяньей» работы к Smart-анализу: как выполнить предобработку данных для моделей

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели10K

От «обезьяньей» работы к Smart-анализу: как правильно готовить данные для моделей.

Что такое Exploratory Data Analysis и как избежать основных ошибок при его выполнении.

Читать далее

Multi-API Ensemble: 95% точности транскрипции региональных топонимов

Уровень сложностиСредний
Время на прочтение28 мин
Охват и читатели7.7K

В статье полный разбор архитектуры, алгоритмы scoring, примеры кода и расчёт экономики.

Один STT-сервис дал 60-70% точности на специфической лексике (топонимы, названия улиц, профессиональные термины). Два сервиса параллельно + взвешенное голосование + AI-fusion для спорных случаев дали 95%+ точности. Время обработки 5-8 секунд.

Читать далее

Generalized Propensity Score: как оценить эффект от непрерывного воздействия без A/B-теста

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели6.2K

Привет, Хабр! Меня зовут Игорь Пантелеев, я Applied Data Scientist в компании Garage Eight. Сейчас моя команда занимается развитием одного из разделов сайта разрабатываемого нами продукта. 

В прошлом квартале мы задались вопросом: как оценить эффект от времени, которое пользователь проводит в нашем разделе, на Retention Rate (RR)? Казалось бы, решение очевидное: провести A/B-тест, но на поверку всё оказалось не так просто. В статье разберем, как у нас получилось определить эффект, с какими сложностями столкнулись в процессе и как нам помог метод Generalized Propensity Score.

Читать далее

Внедряем Gemini во все поля ввода Windows: Бесплатно, без смс и с обходом ограничений

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели22K

Полгода назад 1500 бесплатных запросов в Gemini казались вечностью. Сегодня Google закрутил гайки, и лимиты улетают за час

Я доработал свою Open Source утилиту на Python. В этой статье расскажу, как реализовать систему ротации API-ключей, чтобы получить «бесконечный» доступ к нейронке, как переключаться между моделями Gemini и Gemma на лету и внедрить AI-помощника прямо в буфер обмена Windows. Исходники и готовый билд — внутри.

Посмотреть код

Это другое. Python нашел замалчивание в поэзии Беллы Ахмадулиной

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели12K

Творческие секреты поэтессы глазами кода. Что анализ фонетики на Python рассказывает о «шестидесятниках».

Читать далее

Реализуем компьютерное зрение на практике

Время на прочтение10 мин
Охват и читатели12K

На тему компьютерного зрения есть множество различных публикаций, которые в основном рассказывают о применении этой технологии в разных отраслях. Однако, зачастую публикации содержат лишь общую информацию о том, что реализовано и для каких задач, но при этом отсутствует описание того, как это можно сделать.

В нашей статье мы поговорим о том, как можно реализовать на Python навигационную систему на основе машинного зрения для автономных транспортных средств, проанализировать медицинские изображения и выполнить генерацию новых изображений из набора данных уже  существующих.

Читать далее