Pull to refresh
14
60
Роман @Runoi

User

Send message

Анализируем MLP сообщество на Пикабу или как я спарсил 65 тысяч постов с Pikabu и построил интерактивный дашборд

Level of difficultyEasy
Reading time7 min
Views1.5K

Дело было вечером, делать было нечего... Я, как и многие в IT, периодически просматриваю вакансии, чтобы держать руку на пульсе рынка. И знаете, что бросается в глаза? Огромное количество позиций "Аналитик данных". Хоть это и не моя основная специализация (я больше по ML), теоретическая база у меня есть. И вот я подумал: а как бы мне сделать интересный пет-проект в этой области, чтобы и навыки прокачать, и самому не заскучать?

Читать далее

Пять научных статей и один хакатон: собираем продвинутый RAG для AI for Finance Hack 2025

Reading time25 min
Views1.7K

Что, если я скажу вам, что можно за 72 часа(личный вызов/ограничение) в одиночку спроектировать, собрать и отладить RAG-систему, архитектура которой основана на пяти state-of-the-art научных статьях, опубликованных буквально в последние месяцы? В рамках хакатона AI for Finance Hack 2025 от Changellenge » я решил проверить это на практике. Спойлер: было больно, интересно, а результат превзошел все ожидания.

Задача хакатона была классической, но с подвохом: создать финансового AI-ассистента, который дает точные ответы на вопросы пользователей, основываясь на предоставленной базе знаний. "С подвохом" — потому что среди простых вопросов вроде "что такое ОСАГО" скрывались и сложные, многоэтапные ("multi-hop") кейсы: "сравни условия по продукту А и продукту Б", "какой был лимит по вычету в прошлом году и как он изменился сейчас?".

Стандартный RAG-подход "найди похожие документы -> передай в LLM" на таких задачах быстро ломается. Он либо не находит все части информации, разбросанные по разным документам, либо находит слишком много "шума", в котором "тонет" языковая модель.

Поэтому, вместо того чтобы строить очередной простой RAG, мы решили пойти по пути "тяжелой артиллерии" — спроектировать полноценного агентского помощника, который умеет планировать, анализировать и итеративно уточнять поиск.

Эта статья — история нашего штурма: от амбициозного плана, собранного из передовых исследований, через жестокую реальность отладки API и библиотек, до финальной, оптимизированной и высокопроизводительной архитектуры. Я покажу, какие именно идеи из научных статей мы взяли, как адаптировали их под жесткие рамки хакатона и, самое главное, как решали проблемы, которые возникали на каждом шагу.

Читать далее

Построение E2E-решения для прогнозирования временных рядов на примере метеоданных

Level of difficultyMedium
Reading time13 min
Views677

Привет, Хабр!

Четыре года назад, еще в институте, одним из моих первых серьезных проектов была простая LSTM-модель для прогноза погоды. Недавно, пересматривая старые наработки, я задался вопросом: насколько дальше можно зайти, применив накопленный за эти годы опыт и современные инженерные практики?

Эта статья — история такого "рефакторинга длиною в 4 года". Это рассказ о том, как простой академический проект был переосмыслен и превращен в полноценное End-to-End (E2E) решение. Цель — не просто снова предсказать погоду, а на практическом примере продемонстрировать системный подход к построению ML-пайплайна с нуля.

В статье рассматриваются все ключевые этапы: от разработки отказоустойчивого веб-скрапера до проведения сравнительного анализа трех разнородных моделей прогнозирования:

Читать далее

Путь к Computer Vision: Чему меня научил простой NLP-классификатор на 5 МБ

Level of difficultyEasy
Reading time11 min
Views6.9K

Ретроспектива pet-проекта, который стал полигоном для отладки, архитектуры и оптимизации перед более сложными задачами в CV.

Читать далее

Собираем ANPR-систему на Python: от YOLOv8 и кастомного OCR до INT8-квантизации

Reading time13 min
Views5.7K

Привет, Хабр!

Распознавание автомобильных номеров (ANPR) — задача не новая. Существует множество коммерческих решений и open-source библиотек. Но что, если стандартные инструменты не не подходят? А что, если нам нужна система, которая будет молниеносно работать на обычном CPU, без дорогих видеокарт?

Недавно я столкнулся именно с такой задачей. Вместо того чтобы просто "склеить" готовые решения, я решил пройти весь путь ML-инженера от начала до конца: от анализа данных до обучения кастомных SOTA-моделей и их финальной оптимизации. В этой статье я поделюсь всем процессом, кодом, результатами и проблемами, с которыми пришлось столкнуться.

Читать далее

Information

Rating
122-nd
Location
Нижний Тагил, Свердловская обл., Россия
Date of birth
Registered
Activity