Все потоки

Python *

Высокоуровневый язык программирования

СтатьиПостыНовостиАвторыКомпании

Antipozitive 9 янв в 09:01

Memory Is All You Need: Активная память для трансформеров — мой новый подход к долгосрочным зависимостям в ИИ

Средний

3 мин

6.9K

Open source * Машинное обучение * Математика * Python *

Туториал

Переосмысливаем память в ИИ: от пассивного контекста к активной, "живой" системе. Мой проект MemNet с Hebbian-графом и "сновидениями" решает задачи долгосрочных зависимостей. Код на GitHub + эксперименты внутри!

Читать далее

+1

eavprog 5 янв в 15:27

От парных котировок к абсолютным курсам — как мы построили фундамент веб-интерфейса AbsCur3 с 287 валютными парами

Средний

12 мин

7.3K

Python * Data Engineering * Базы данных * Big Data * GitHub *

Кейс

Recovery Mode

Попробуйте найти исторические курсы для пар вроде «доллар к афгани» или «евро к таджикскому сомони». Данные либо платные, либо их просто нет в виде готового датасета. Мы решили эту проблему в рамках своего проекта, хотя единственный подходящий API диктовал суровые условия: 8 запросов в минуту и 5000 дней за раз.

Получилось! Наш Python-скрипт аккуратно, чанк за чанком, собрал историю всех 287 пар за 4.5 часа, ни разу не превысив лимит. В статье делюсь техническими деталями, как выстроить такую загрузку, и уроками, которые мы извлекли.

Читать далее

+1

Sterpa 2 янв в 04:00

STAC — знакомство: Новая эпоха в работе с данными о Земле (часть 1)

11 мин

7.7K

Геоинформационные сервисы * Открытые данные * Python * Data Engineering * Анализ и проектирование систем *

Обзор

Информационный хаос в геопространственной сфере

Задумывались ли вы, как в эпоху, когда мы можем мгновенно найти любую информацию в интернете, поиск спутникового снимка конкретного поля, леса или города за определённую дату до сих пор напоминает квест? Всего несколько лет назад мир геопространственных данных представлял собой хаотичный ландшафт изолированных архивов, каждый со своим уникальным форматом данных, структурой папок, проприетарным API и системой метаданных. Чтобы проанализировать один и тот же регион по данным разных спутников, учёным и инженерам приходилось тратить до 80% времени не на сам анализ, а на «добычу» и приведение данных к единому виду. Эта проблема интероперабельности (совместимости) была главным тормозом для развития целых направлений: от оперативного мониторинга чрезвычайных ситуаций до долгосрочного изучения климата.

Именно из этой «боли» родилась идея SpatioTemporal Asset Catalog (STAC) — Каталога пространственно‑временных активов. Изначально это была не инициатива госорганов или крупных корпораций, а практический ответ сообщества разработчиков и аналитиков на ежедневные сложности.

Материал будет интересен молодым специалистам в области ДЗЗ — будущим геоинформатикам, экологам, data scientist'ам. Знакомство с STAC перестаёт быть опциональным, это становится базовой цифровой грамотностью в области геоинформатики и наук о Земле, таким же необходимым инструментом, как, например, умение работать с SQL для backend‑разработчика. Это язык, на котором будет говорить «цифровая копия» нашей планеты, и те, кто освоит его первыми, получат ключ к решению самых амбициозных задач XXI века.

Читать далее

+1

borush 25 дек 2025 в 12:15

Дистрибутивные схемы, ч.2

Средний

4 мин

6.1K

Борис Цирлин

Продолжается рассмотрение класса дистрибутивных схем - подкласса схем, не зависящих от скорости, начатое в ч.1. Этот подкласс является промежуточным между параллельно-последовательным, рассмотренным в упомянутой статье и полумодулярными схемами которым посвящена статья "Полумодулярные схемы"

Все эти подклассы были описаны в книге "Автоматное управление асинхронными процессами в ЭВМ и дискретных системах, вышедшей под редакцией В.И.Варшавского в 1986 г. из которой и здесь заимствуются их формальные определения. Подсчитано количество дистрибутивных схем, состоящих из двух и трех элементов. Определены и подсчитаны неизоморфные схемы этого подкласса.

Читать далее

+1

maksimov_m 23 дек 2025 в 18:32

Метрики для задач NLP. Часть 1. Классификация, NER, Кластеризация

Средний

25 мин

9.3K

Python * Natural Language Processing * Машинное обучение * Data Mining *

Туториал

В этой статье будет рассказано о популярных метриках для NLP-задач: классификации текста, NER и кластеризации. Рассказ будет сопровождаться визуализацией, примерами и кодом на Python.

🔥 Начинаем 🔥

+1

comerc 22 дек 2025 в 23:27

Масштабирование LLM с помощью Golang: как мы обслуживаем миллионы запросов LLM

5 мин

11K

Go * Python * Искусственный интеллект

Кейс

Перевод

Хотя экосистема LLM в основном ориентирована на Python, мы нашли Go исключительно подходящим для производственных развертываний. Наша инфраструктура на базе Go обрабатывает миллионы ежемесячных запросов LLM с минимальной настройкой производительности. Помимо хорошо документированных преимуществ Go (см. отличное изложение Роба Пайка о преимуществах Go), три возможности оказались особенно ценными для нагрузок LLM: статическая проверка типов для обработки выходных данных модели, горутины для управления параллельными вызовами API и интерфейсы для построения составных конвейеров ответов. Вот как мы реализовали каждую из них в нашем производственном стеке.

Читать далее

+1

linabesson 22 дек 2025 в 13:41

TRIZ + LLM без эзотерики: задеплоили агента‑решателя противоречий, который не скатывается в болтовню

Средний

2 мин

6K

Кейс

TRIZ Insight — агент‑решатель противоречий. Он берёт задачу, прогоняет её через формальный ТРИЗ‑скелет и LLM, а на выходе даёт конкретный план действий с ролями, шагами и метриками успеха. Подходит для личных и бизнесовых задач.

Узнать больше

+1

Niuh 20 дек 2025 в 05:15

Trustworthy experimentation для B2C: как перестать угадывать в A/B‑тестах

Простой

4 мин

6.9K

Python * Статистика в IT

Из песочницы

В продуктовой аналитике легко дойти до того момента, когда экспериментов много, а доверия к результатам все меньше и меньше: тесты закрывают “когда стало понятно”, p-value проверяют чуть ли не каждый день (принимая преждевременные решения), MDE забывают фиксировать, а денежные метрики зашумлены так, что выводы получаются, мягко говоря, спорные.

В этой статье я показываю практический каркас для более надежных A/B-тестов в B2C: как делать анализ мощности и размера выборки для конверсии и ARPU, как интерпретировать кривую мощности анализа теста и trade-off между MDE, длительностью и доступным трафиком, и почему ratio-метрики вроде выручки на сессию часто лучше голого ARPU.

Отдельно разбираю линеаризацию ratio-метрик: как привести их к user-level значениям, чтобы применять стандартные тесты корректнее и стабильнее.

Читать далее

+1

Avlakan 18 дек 2025 в 11:30

Использование библиотеки spaCy для поиска сущностей в тексте

Средний

11 мин

6.5K

Python * Программирование *

Кейс

Снова приветствую всех читателей Хабр.

В предыдущей статье был приведен пример создания кода проекта для задачи автоматизации обработки данных, в результате чего получилось подготовить нужную информацию по модели данных ЛОЦМАН: PLM. Эти данные планируется использовать для построения механизмов обработки поисковых запросов пользователей к базе ЛОЦМАН:PLM — в частности, для распознавания сущностей в тексте запроса. Это позволит понимать, на какие объекты модели данных ссылается пользователь: изделия, их параметры, типы документов и так далее.

Для решения новой задачи я решил опробовать возможности библиотеки spaCy, в которой сущности можно распознавать на основе заранее заданных паттернов. В ходе экспериментов с библиотекой и её модулями EntityRuler и SpanRuler я столкнулся с рядом особенностей, и в данной статье делюсь накопленным опытом и наработками — надеюсь, они окажутся полезными и для вас.

Читать далее

+1

All_Pri 16 дек 2025 в 10:00

Борьба с дисбалансом классов. Ансамблевые и комбинированные методы

Средний

11 мин

5.8K

Блог компании KozhinDevМашинное обучение * Python *

Туториал

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это четвертая часть цикла о борьбе с дисбалансом классов. Предыдущие статьи:
- В первой статье мы рассказали про суть проблемы дисбаланса классов и стандартные методы борьбы с ним;
- Во второй статье обсуждались методы undersampling - удаление данных из распространенного класса;
- В третьей статье рассматривались методы oversampling - генерация примеров редкого класса.

В данной части мы рассмотрим комбинированные и ансамблевые методы библиотеки Imbalanced Learn.

Читать далее

+1

albinatan 15 дек 2025 в 08:57

Запускаем бота на основе ChatGPT, DeepSeek и Grok в Телеграм за вечер

Простой

16 мин

12K

ХостингPython *

Туториал

Рассказываю, как создать чат‑бота в Телеграме на основе ИИ для интернет-магазина. Нам понадобятся арендованный сервер, API-ключи от нейросетей и базовые знания Python. По итогу у вас будет работающий Телеграм-бот, который 24/7 отвечает на вопросы о доставке, оплате и помогает с выбором товаров. Материал ориентирован на админов уровня джун и на технически подкованных маркетологов.

Читать далее

+1

borush 7 дек 2025 в 11:00

Изоморфные схемы

Средний

6 мин

7.2K

В статье рассматриваются алгоритмы подсчета схем, построенных из логических элементов и заданных системами логических уравнений. В частности полумодулярных и последовательных схем.

Читать далее

+1

it_police 3 дек 2025 в 20:46

LLM-клиент с MCP – дорогой и неэффективный подход в разработке

Средний

4 мин

9K

Программирование * Python * Разработка под e-commerce *

Мнение

В наше время тяжело представить разработку цифровых продуктов, в которые хоть в какой-то степени не включили так называемый ИИ на больших языковых моделях (LLM). И я вовсе не против, но у меня вызывают вопросы подходы разработчиков к способам внедрения интеллектуальных инструментов в свои продукты.

Думаю, абсолютное большинство оптимальным способом внедрения интеллекта в продукт выбрали использование проприетарных моделей через API, с добавлением кастомного функционала через вызовы MCP серверов. Кажется, это уже даже стало стандартом, и в этом я вижу проблему.

Давайте кратко разберем схему работы какого-то нашего приложения с официальным LLM-клиентом (например, OpenAI) + MCP:

Читать далее

+1

CodeCatVS 30 ноя 2025 в 13:31

Любовное письмо LLM, или как я перестал бояться и впервые довел пет-проект до конца

Простой

9 мин

8.2K

Python * Искусственный интеллектМессенджеры *

Из песочницы

Я ненавижу пет-проекты.

Да, я НЕНАВИЖУ их всей своей душой. Ровно с тех пор, как получил свою первую фул-тайм работу разработчиком. Я ненавижу приходить с работы и вставать перед выбором - работать в рамках привычного мне фронтенда, которым я занимаюсь на моей “с 9 до 5” и от которого к концу рабочей недели уже тошнит.

…или с головой погружаться в новые технологии, медленно и мучительно прогрызаясь через них, прежде, чем у тебя получится сделать нечто чуть лучше условного Hello world. Если ты, конечно, не готов жертвовать сном, другими хобби или временем, проведенным с любимыми людьми.

По крайней мере, я так думал до одного забавного дня пару месяцев назад.

Читать далее

+1

Eco_coder 28 ноя 2025 в 08:24

Я пена морская. Как BERT не справился с анализом простой поэзии

Простой

3 мин

7.7K

Читальный залЗанимательные задачкиPython * Natural Language Processing *

Аналитика

Небольшой опыт использования модели для определения эмоций. Я пытался найти эмоции у Цветаевой с помощью Python. Да не смог.

Читать далее

+1

artur-shamseiv 27 ноя 2025 в 06:48

Долгая дорога к DiT (часть 3)

Средний

17 мин

4.2K

Машинное обучение * Python * Искусственный интеллект

Туториал

Заключительная (но ещё не последняя) статья из цикла про диффузные модели, где мы наконец отбросим примитивную модель из полносвязных слоёв и напишем работающий генератор изображений c архитектурой Diffusion Transformer (DiT). Разберёмся зачем нарезать изображения на квадратики и увидим, что произойдёт с вашей генерацией, если проигнорировать главную "слабость" трансформеров - неспособность понимать порядок.

Читать далее

+1

KristMarrakesh02 26 ноя 2025 в 06:15

DCN-R: как объединить Deep & Cross-модель и ResNet-подход для улучшения рекомендаций

Сложный

18 мин

5.6K

IT-компанииPython * Искусственный интеллектМашинное обучение * Математика *

Из песочницы

Как мы построили DCN-R: новую гибридную модель рекомендаций на Cross Network и ResNet-блоках

Современные рекомендательные системы сталкиваются с парадоксом: модели умеют либо отлично «запоминать» закономерности, либо хорошо «обобщать» новые случаи — но почти никогда не делают это одновременно. В этой статье я показываю, как гибридная архитектура DCN-R, сочетающая Cross Network и Residual Blocks, смогла обойти это ограничение и превзойти классические подходы.

Мы провели серия экспериментов, автоматический подбор гиперпараметров, абляции и построили продакшн-готовый сервис, чтобы проверить, действительно ли DCN-R работает лучше, или это просто красивая идея.

Читать далее

+1

Efrosim123 24 ноя 2025 в 12:16

Telegram-бот для малого бизнеса на Python и aiogram 3.x: пошаговый гайд за вечер

Простой

7 мин

10K

Из песочницы

Небольшим офлайн- и онлайн-бизнесам всё чаще нужен простой канал связи с клиентами: записать на услугу, принять заявку, ответить на типовые вопросы, не написав при этом собственный «личный кабинет» с авторизацией и фронтендом. Telegram-боты хорошо ложатся в этот сценарий: они доступны с телефона, поддерживают кнопки, формы, платежи и работают поверх знакомого интерфейса мессенджера.

В этой статье разбирается, как с нуля собрать минимально полезного бота для малого бизнеса (например, магазина одежды или студии услуг) на Python и библиотеке aiogram 3.x: от получения токена до развёртывания на сервере. Статья рассчитана на разработчиков, которые уже базово знакомы с Python, но ещё не работали с Telegram Bot API или современными фреймворками для ботов.

Перейти к гайду

+1

Katner 24 ноя 2025 в 10:39

AI-аудит звонков по чек-листу: делаем автоматическую оценку через МТС Exolve и GigaChat

Средний

9 мин

5.7K

Блог компании ExolvePython * Natural Language Processing * Искусственный интеллектУправление персоналом *

Туториал

Привет, Хабр!

В этой статье разберём, как настроить полный сценарий: от вебхуков в МТС Exolve до автоматической оценки звонков с помощью GigaChat и LangChain. По разным исследованиям, менеджеры по качеству тратят до 60% рабочего времени на прослушивание диалогов и при этом успевают проверять лишь 5–10% звонков. Мы соберём сервис на Python, который автоматически обрабатывает каждый звонок, расшифровывает аудио, прогоняет диалог через модель и возвращает структурированный JSON по чек-листу оценки оператора. Такой подход снижает ручную нагрузку и даёт воспроизводимую оценку в реальном времени.

Читать далее

+1

Eco_coder 20 ноя 2025 в 09:18

Пейзажная лирика глазами кода

6 мин

6.4K

Python * Читальный залГовнокодНаучно-популярноеЗанимательные задачки

Аналитика

Где заканчивается слово и начинается образ? Использую Python для поиска особенностей творчества К.Г. Паустовского.

Читать далее

+1

1 2 ...

78