Системный и бизнес-анализ

15 июн 2025 в 14:466.6K

Блог компании Cloud.ruIT-инфраструктура * Хранение данных * Облачные сервисы *

Как компания «Литрес» построила облачное аналитическое хранилище на базе КХД Cloud.ru и сократила время обработки и анализа данных 📚

Что за компания

Компания «Литрес», основанная в 2005 году, сегодня является лидером на рынке лицензионных электронных и аудиокниг в России и странах СНГ. Ежемесячная аудитория сервиса Литрес составляет 11 млн человек, которые скачивают более 2,7 млн книг в месяц.

Какая была задача

«Литрес» подошла к этапу, когда мощностей для быстрого расчета витрин для аналитики и отчетности перестало хватать, поскольку был накоплен значительный объем данных — около 6 ТБ. Компания решила разработать собственное хранилище — создать надежную и масштабируемую платформу для хранения и обработки больших объемов данных, что позволило бы оптимизировать бизнес-процессы и повысить эффективность работы.

Как ее решили

Изначально у нас было два варианта, как можно сделать большую аналитическую базу. Первый и самый очевидный — запустить Greenplum. Но для этого нужно было выделять серверы, оптимизировать решение, нанимать администраторов — это сложно и долго. В качестве второго варианта можно было закупить готовое решение у подрядчика, однако выяснилось, что поддержка такого решения при приемлемом уровне производительности стоит космических денег. В итоге в Cloud.ru нам предложили альтернативу — КХД — облачное корпоративное хранилище, которое дает возможность быстро обрабатывать огромные массивы данных из разных систем хранения и источников. Решение нас заинтересовало.
Кирилл Шевченко
Руководитель отдела разработки информационно-аналитических систем группы компаний «Литрес»

Чтобы понять, какое решение выгоднее и эффективнее, «Литрес» провели исследование и сравнили работу КХД, ClickHouse в облаке и локального ClickHouse компании. Результат — КХД лучше всего справился с поставленными задачами (например, обработка больших запросов на таблицах с JOIN заняла всего 20 минут).

Что в результате

Команда «Литрес» создала собственное хранилище на базе КХД Cloud.ru и в результате сократила время на обработку и анализ данных:

обновление всего хранилища занимает 40 минут вместо 3 часов,
среднее время выполнения процедур — 2 минуты вместо часа,
на обработку простого запроса при обновлении витрин хватает 5 секунд.
раньше на создание одной витрины требовалось несколько дней, а теперь можно создать 3 витрины в день.

Читать кейс полностью 💼

oshurkovata

10 июн 2025 в 09:274.3K

Анализ и проектирование систем * UML Design * Управление разработкой * Инфографика

Бесплатный гайд с шаблонами диаграмм на PlantUML

В моем канале IT Talks можно скачать бесплатный методический материал, где ты найдешь шаблоны пяти основных диаграмм на PlantUML в практических кейсах с описанием.

Для каждого шаблона подробно описан процесс, для которого построена диаграмма, а также есть сама диаграмма и исходный код на PlantUML. В гайде можно найти диаграмму активности, последовательности, прецедентов, состояний и компонентов.

Ещё вчера у меня вышла новая статья Диаграмма последовательности на практике в реальном кейсе, где я подробно по шагам рассказала про построение диаграммы последовательности на примере реальной задачи.

InfoWatch

9 июн 2025 в 14:538.5K

Блог компании InfoWatchУправление проектами * Исследования и прогнозы в IT * КонференцииПрезентации

Как провести быстрый аудит разработки без изучения кода: доклад Андрея Бирюкова на CTO Conf X 2025

В пятницу прошла интересная конференция для технических директоров – CTO Conf X 2025. Вице-президент по исследованиям, разработке и сервисам ГК InfoWatch Андрей Бирюков выступил перед аудиторией с докладом «Как провести быстрый аудит разработки без изучения кода».

«В практике СТО может возникнуть ситуация, когда необходимо оперативно провести глобальную оценку или чек-ап разработки: вы перешли в новую компанию и нужно быстро во всем разобраться, появился запрос на изменение подходов к разработке, или ваша компания собралась покупать другую и нужно понять, что там внутри. В докладе поделился своим видением – какие вопросы и кому важно задавать, стоит ли насторожиться, если нет багов, а план фичей расписан на пять лет вперед, и почему в центре внимания должны быть люди, а не код», – говорит Андрей Бирюков.

В докладе он рассказал о методах оперативной оценки состояния разработки в новых или приобретаемых командах. Его методика поможет понять, насколько модель разработки компании далека от идеальной, выявить и поставить в приоритет потенциальные проблемы.

Общая схема аудита, анализ процесса разработки, оценка инженерных практик — в презентации с выступления.

denzceo

8 июн 2025 в 11:186K

Data Mining * Agile * Data Engineering *

Здесь кто-нибудь есть?

Давненько не было постов! Теперь посты будут выходить намного чаще, поэтому ждите интересный контент! Сегодня хочу с Вами поделиться своими наблюдениями по самым распространенным страхам при входе или же в начале карьеры в IT, а также конечно же расскажу, как с ними бороться!

Поехали!

Большие деньги - большая ответственность, я еще немного поучусь и можно ходить на собеседования

Самое частое заблуждение и страх - это то, что я не до конца изучил материал и мне рано идти на собеседования. IT действительно кажется сложной сферой, особенно на старте. Куча непонятных терминов, новые технологии, быстрая смена трендов. Главное — не пытаться сразу охватить всё. Дроби путь на маленькие шаги: сначала разберись в основах, потом усложняй задачи.

Признайте, что никто не знает всего, даже сеньоры постоянно гуглят и учатся. Учись радоваться прогрессу, пусть даже небольшому — это отличный способ победить страх перед сложностью. Я часто на работе вижу людей, которые знают намного меньше меня, но при этом зарабатывают больше денег. Думаете, что они думают про это?

Убейте в себе внутреннего "отличника", который хочет всё идеально знать. Начните действовать как можно раньше, ведь главный наш ресурс - это время. Если не начнете ходить по собеседованиям сейчас, то потом может стать поздно!

Я слишком стар/молод/у меня нет профильного образования

Это миф. В IT реально можно войти в любом возрасте и с любым бэкграундом. Большинство компаний смотрит на твои навыки и то, как ты решаешь задачи, а не на диплом. Например у меня еще ни разу не спрашивали про мой диплом и про моё образование, но при этом огромное кол-во людей верит в то, что реально нужен крутой бэкграунд, а не опыт. Важно показывать интерес к профессии, прокачивать навык прохождения собеседований, учиться продавать себя на рынке труда и тогда у Вас всё получится! Как говорил Олег Тинькофф: "Продай свои мозги дорого". Это очень хорошо описывает в целом текущее состояние рынка.

Я буду выглядеть глупо среди опытных коллег Это нормально — не знать и ошибаться, особенно в начале. Важно не бояться задавать вопросы. В IT очень развита культура поддержки: тебе скорее помогут, чем осудят. Воспринимай каждую ошибку как точку роста, а не как провал. Ведь наш опыт - это сумма всех наших ошибок. Думаете, что какой-то сеньор никогда не допускал ошибок?

Я не найду работу без опыта От каждого второго человека слышу это. Мол я не могу найти работу без опыта, всё дело в опыте! А потом я открываю его резюме и вижу, что там полная каша и оказывается, что дело не в опыте, а в резюме или же в чём-то другом. Не бойтесь искать любую возможность попробовать реальные проекты. На старте важно показывать свою мотивацию и учиться командной работе. Не стесняйся писать в компании напрямую, предлагать свою помощь за отзыв или за опыт — так много кто стартует.

Теперь дам общие советы, которые подойдут под любой Ваш страх. Но помните, что я Вам даю всего лишь отмычки, а Вы их уже сами подбираете под Ваши "проблемные" двери:

Разделяй путь на маленькие задачи и радуйся каждому шагу.
Найди ментора, чтобы не оставаться один на один с вопросами.
Веди дневник успехов — записывай даже маленькие победы.
Не сравнивай свой путь с другими, особенно в соцсетях — у каждого свой старт и темп.
Признай: страх — это нормально. Его испытывали все, кто сегодня работает в IT.

Понравился пост? Тогда переходите ко мне в телеграмм канал, там находится много полезного материала, для входа в IT!

-2

AlfaTeam

5 июн 2025 в 12:096.3K

Блог компании Альфа-БанкPython * Машинное обучение * Искусственный интеллект

Привет, меня зовут Александр, я аналитик в Альфа-Банке. Однажды я устал, что на Feature Store, на платформе для дата-инженеров (DE) и дата-саентистов (DS), невозможно ничего найти.

Поиск по контексту отсутствует. Приходится руками шерстить огромное количество ETL-проектов в поисках той самой полезной информации, полагаясь сначала на удачу, а после — на опыт и помощь коллег.

Feature Store сама по себе — платформа, которая должна упрощать работу коллег с большими данными, упрощает бюрократию жизненного цикла создания ETL, ввода моделей в промышленную эксплуатацию. Но какой же поиск там...В общем, хотелось бы улучшить процесс по поиску данных в ней.

И я сделал MVP с GPT-2: весит около ~400 МБ и, самое главное, не требует регистрации. В статье пошагово описал, как всё прикрутить. Заходите почитать.

Примечание. Для прома MVP, конечно, не прокатит, но после показа решения начали реализовывать решение на OpenSearch.

GarageEight

5 июн 2025 в 10:574.4K

Блог компании Garage EightВизуализация данных *

Как строить систему отчетности? Расскажет Рома Бунин!

В мае в гости к аналитическому комьюнити Garage Eight заглянул Рома Бунин, специалист по визуализации данных и развитию BI-систем, Head of Data Nebius Group, а также автор канала Reveal the Data. На встрече он рассказал про Dashboard Map. Этот фреймворк позволяет заранее оценить, какая аналитика нужна внутри команды, и подготовить инструменты для разных типов задач.

Лекцию записали и теперь делимся с вами!

Из нее узнаете:
> зачем нужно заранее проектировать архитектуру системы дашбордов;
> из каких шагов состоит проектирование;
> как заполнять Dashboard Map;
> как провести сессию проектирования;
> что делать после сессии;
> примеры систем дашбордов.

Смотрите на удобной платформе: YouTube | VK Видео

krakenkaken

5 июн 2025 в 08:474.3K

Блог компании GramaxАнализ и проектирование систем * Управление проектами * Управление продуктом * Подготовка технической документации *

Pull/Merge Request для согласования требований и документации

Аналитики и технические писатели, признайтесь: сколько раз вы теряли время, сравнивая версии документов в MS Word? Компьютер тормозит, красные и синие правки сливаются в кашу, а поиск согласования в бесконечной переписке или Confluence превращается в квест.

Есть решение — берем механизм Pull/Merge Request и применяем его к текстам! Что получаем:

Все правки в одном месте. Редактируйте несколько документов сразу и смотрите изменения в едином окне. Забудьте про переключение между файлами и версиями!
Подробная подсветка. Все правки видны построчно или в удобном визуальном редакторе — сразу ясно, что добавили, убрали или исправили.
Простое согласование. Назначайте проверяющих и получайте их апрувы прямо в интерфейсе. Никаких "ок" в письмах или мессенджерах!
Полная история. Все комментарии, согласования и версии сохраняются. В любой момент можно вернуться и проверить, кто, что и когда утвердил.
Экономия времени. Gramax объединяет редактирование, ревью и согласование в одном месте — больше не нужно жонглировать Word, Confluence и почтой.

И все это в Gramax! Как всегда: бесплатно и с открытым исходным кодом.
Все как в коде, только проще.

krakenkaken

3 июн 2025 в 10:305.8K

Блог компании GramaxOpen source * Анализ и проектирование систем * Контент и копирайтинг * Подготовка технической документации *

💥 Майская версия Gramax 💥

Что нового мы добавили в open source-платформу для управления технической документацией Gramax.

ИИ-поиск для портала документации. Раньше поиск по документации был ограничен точным совпадением слов, теперь можно подключить ИИ-поиск от любого провайдера (например, OpenAI, Anthropic и др.) и искать по смыслу. Даже при неточном запросе пользователь получит релевантные результаты. Поддерживается как облачное подключение, так и запуск собственного сервера — для тех, кому важна приватность.
ИИ для создания и редактирования текста. В пространстве редактора можно также подключить ИИ. Он позволит написать текст с нуля: например, если не удается придумать структуру статьи. А также отформатировать существующий текст. В случаях, если его нужно сократить, сделать более формальным или структурированным.
Шаблоны. Добавили возможность создавать шаблоны со свойствами и использовать их в статьях.
Заметки. Теперь можно прямо в каталоге сохранять идеи и предложения для изменения документации. Заметки сохраняются в репозитории, но не отображаются на портале для чтения.
Расширенный редактор сниппетов. Теперь сниппеты можно оформлять как и обычную статью без ограничений.
Выбор формата для исходных файлов. Добавили 2 дополнительных формата хранения статей — XML и GitHub Flavored Markdown. Изменить формат можно в настройках каталога.
Вход для внешних пользователей в Gramax Enterprise Server. Добавили возможность настроить вход на портал для чтения по почте: таким читателям не нужно иметь учетную запись в SSO. Достаточно указать свою почту при входе и ввести одноразовый код.

О других изменениях читайте в статье — https://gram.ax/resources/docs/whats-new

vasilevafb

3 июн 2025 в 04:484.3K

Growth Hacking * Развитие стартапаКарьера в IT-индустрии

Если много стараетесь, но результата нет — вот что помогает мне: вместо того чтобы делать всё подряд, я ищу одну главную причину, что тормозит, и фокусируюсь только на ней. Это даёт максимальный эффект.

Вот 2 типичных случая, когда не получается сдвинуться с места:

1. Неясно, за что хвататься — и ничего не работает.

Пример — новички в аналитике, которые ищут работу, часто не понимают, на чём сфокусироваться. Мысли скачут: “Может, выучить ещё один инструмент? А вдруг дело в опыте?”. Паника только усиливает расфокус. Но стоит спокойно разобрать воронку — и оказывается, всё сыпется уже на этапе резюме. Откликов нет, потому что резюме общее и сырое. Когда текст становится чётким и показывает ценность для работодателя — начинаются отклики.

2. Фокус на том, что привычно, а не на том, что важно.

Пример — у многих начинающих предпринимателей с бэкграундом в разработке или аналитике не получается делать продажи. Причина банальна: на сайте нет трафика. Но вместо того чтобы заняться маркетингом и привлечь хотя бы первых 1000 человек, разработчики продолжают улучшать продукт, а аналитики — совершенствовать сбор данных. Продукт еще никто не видит, а данные не на что применять, поэтому пока не решишь вопрос с трафиком — всё остальное делать бессмысленно.

Прогресс начинается тогда, когда находишь и убираешь главное препятствие, а не делаешь всё подряд или то, что привычно.

Эту идею описал Элияху Голдратт в книге "Цель". Главный герой, Алекс, должен за 90 дней спасти завод, и наставник учит его искать главное ограничение — и устранять именно его. Хотя книга о производстве, принципы легко применимы в любой сфере.

Суть: в любой системе есть одно узкое место, которое сдерживает результат. Оно может быть внутренним (процессы, команда) или внешним (рынок, ресурсы). Пока это ограничение не убрано — остальные усилия почти бесполезны.

Недавно увидела, что результаты по проекту не те, которые планировала (а недавно я еще и увеличила планку), поэтому решила применить теорию на практике. Что сделала:

Выделила время на глубокий анализ данных из систем аналитики. Данные подсказывали: проблема — в продукте или его позиционировании. Но не всё можно понять только по цифрам.
Поэтому я подробно описала ситуацию ChatGPT — что происходит, мои сомнения и приложила данные. Попросила найти ограничение через призму Теории ограничений.
Сначала ChatGPT предложил несколько вариантов. После пары итераций с уточняющими вопросами я нашла главное ограничение.
Сейчас фокусируюсь на устранении этого ограничения. Когда решу — перейду к следующему ограничению (это, кстати, один из принципов Теории ограничений).

В чём отличие от обычной расстановки приоритетов?

Приоритеты часто ставят на ощущениях. Теория ограничений даёт чёткий фокус — куда бить, чтобы был максимальный эффект.

Конечно, идеализировать не стоит — у любой теории есть рамки. Теорию ограничений лучше применять, когда:
— Ресурсы ограничены — а так почти всегда: время, деньги, внимание.
— Нужен быстрый результат
— Система (бизнес, команда, проект) не даёт результатов, хотя вроде “всё делается”

Любая теория — не панацея, но помогает по-новому увидеть свою ситуацию.

AlfaTeam

2 июн 2025 в 14:017.4K

Блог компании Альфа-БанкАнализ и проектирование систем * Конференции

Alfa Analyze IT Meetup #4

19 июня наше SA-сообщество проведёт четвёртый Alfa Analyze IT Meetup — поговорим о том, как оценивать навыки по матрицам компетенций, принимать решения о повышении и адаптироваться к изменениям от ИИ.

Вы поймёте, как тимлиды ищут таланты внутри команд и выстраивают карьерные треки, а также получите готовые инструменты для оценки и развития аналитиков.

В программе:

процесс ассессмента для аналитиков в Альфа-Банке,
выстраивание и развитие матрицы компетенций системного аналитика Газпромбанк.Тех в эпоху цифровой трансформации,
развитие системных аналитиков в X5 Tech: от внутреннего поиска до повышения с опорой на матрицу компетенций,
архитектура DWH в Яндекс Go: технологии, подходы, матрица компетенций.

Присоединяйтесь онлайн и офлайн — зарегистрироваться можно по ссылке.

Где: Офис Альфа-Банка по адресу Москва, Андропова пр-т., 18 к.3, в трёх минутах пешком от метро «Технопарк».

AstahovaAnna

2 июн 2025 в 11:356.4K

Блог компании ИТ-интегратор Белый кодВизуализация данных * IT-компании

BI-система помогает аптечным сетям управлять продажами быстро и эффективно

Если вы хотите оперативно принимать решения, опираясь на точные данные, приглашаем вас на вебинар-демонстрацию решения по BI-аналитике специально для аптечных сетей.

Дата: 24 июня
Время: 12:00 мск
Бонус для участников: скидка 10% на проведение предпроектного обследования

С помощью BI-аналитики можно собирать и визуализировать ключевые показатели работы аптечной сети: от продаж до эффективности персонала. Вы получите полную картину в виде понятных графиков и диаграмм. А главное, сможете быстро скорректировать стратегию работы, особенно во время сезонных пиковых нагрузок.

Этим инструментом уже пользуются некоторые аптеки. В одном из недавних кейсов рассказывала, как крупная сеть, включающая более 250 точек, получила возможность анализировать остатки и продажи. Например, система показывает, как долго товары лежат без движения, а также предрассчитывает, на сколько хватит запасов.

На вебинаре руководитель проектного отдела Анна Светличная расскажет:

какое решение поможет управлять аптечной сетью на основе данных,
почему бизнес-аналитика становится стандартом в аптечном ритейле,
как с помощью BI можно находить точки роста и управлять показателями в реальном времени.

Также проведем демонстрацию продукта на примере данных аптечных сетей и ответим на ваши вопросы.

Регистрируйтесь по ссылке

antzim_in

31 мая 2025 в 13:338.4K

Анализ и проектирование систем * UML Design * Подготовка технической документации *

PlantUML | Шаблон для описания таблиц БД

Делюсь с Вами разработанным мною шаблоном, для описания таблицы БД в PlantUML, c элементами автоматизации, описание которых указанно в комментариях.

Всем привет!
Делюсь с Вами разработанным мною шаблоном, для описания таблицы БД в PlantUML, c элементами автоматизации, описание которых указанно в комментариях.

Протестировать можете тут, а сам код шаблона указан ниже:

 ' Шаблон описания таблицы БД (в PlantUML)
@startuml

skinparam {
' Параметры для управления нижним колонтитулом
    FooterFontColor #blue
    FooterFontSize 12
' Параметры для управления легендой
    LegendBackgroundColor #lightblue
    LegendBorderThickness 0
}

' Переменные для ускорения описания таблицы
' - PRIMARY KEY можно указывать как: "$PK"
    !$PK="  <size:11><#DarkKhaki:key:></size> (PK)  "
' - FOREIGN KEY можно указывать как: "$FK"
    !$FK="  <size:11><#DeepPink:key:></size> (FK)  "
' - NOT NULL (N-N) можно указывать как: "$NN"
    !$NN="  <#LightGreen> **N-N**  "
' - NULL можно указывать как: "$N"
    !$N = "  <#LightCoral> **NULL**  "


' Переменные для ускорения добавления информации о таблице
' - Наименование таблицы БД (латинское)  
    !$table_name="Наимнование_таблицы_БД"
' - Краткое описание таблицы (на русском) 
    !$description="Краткое описание таблицы (на русском)"
' - Ссылка на описание таблицы (на русском)
    !$doc_url="Ссылка"

' Контакты, отображаемые в нижнем колонтитуле
    !$autor ="Зимин Антон"
    !$email ="antzim_in@ya.ru"
    !$telegram="antzim_in"

' Заголовок документа, формируется автоматически из заполненных выше параметров (при необходимости можно удалить)
    title $table_name | $description

' Легенда (может быть заполнена любыми необходимыми данными)
' - "right" говорит о том, что легенда будет расположена справа 
legend right
**Легенда:**
| Версия документа: | 1.0.0 |
end legend



' Описание таблицы
' - заголовок таблицы, с кликабельной ссылкой (если выгружать в SVG) формируется автоматически
class "[[$doc_url $table_name]] ($description)" as $table_name << (T,#FF5722) >>{

|=   PK,FK  |=   Поле   |=   Тип   |=   Обязательность   |=   Значение\n по умолчанию   |=   Описание   |
| $PK | id | serial | $NN | | Идентификатор записи в таблице |
| $FK | subscriber_id | integer | $NN | | Идентификатор записи в таблице subscriber |
|     | electronic_address | varchar(255) | $N | | Электронный адрес \n клиента |
|     | created_at | timestampz | $NN | now() | Дата и время создания записи в БД |
|     | updated_at | timestampz | $NN | now() | Дата и время обновления записи в БД |
}

' Нижний колонтитул (формируется автоматически из введенных параметров)
footer © $autor | tg: [[https://t.me/$telegram @$telegram]] | email: $email
@enduml

Буду рад Вашим комментариям, отзывам, а если еще и поднимите карму то буду крайне благодарен.

Всем спасибо.
----

Пообщаться со мной можно в telegram: @antzim_in
P.S. Также, если Вам интересно, я веду telegram канал @sa_chulan и буду очень рад Вашей подписке.

rgrits

30 мая 2025 в 10:374.1K

КопирайтИскусственный интеллект

Почему не нужно использовать LLM для написания текстов?

Задумался об этом после попытки отформатировать пост из перегруженных сложносочинённых предложений под популярную сеть для поиска работы. LLM перестаралась на мой взгляд, и не только превратила текст из 10 строчек в 30 строчек буллет поинтов, украшенных восклицаниями и смайликами, но и упростило аналитику вопроса применения рассматриваемой методологии до набора лозунгов и призывов с однозначным выводом. Изначально в посте был вопрос к читателям, и если и был какой то призыв, то призыв усомниться, и оспорить утверждение, чем призыв к действию по покупке.

В результате я забраковал пост от LLM и оставил свой текст, ожидаемо не популярный среди широкой аудитории, но нашедший читателей среди людей, которых я ценю и знаю как профессионалов, что для меня гораздо более ценно.

Я не исключаю что пост может быть и был бы более популярным, и получил бы больше лайков и может быть даже и клиентов с оферами. Но дело в том, что если мы продвигаем себя, мы хотим продвигать себя для аудитории способной воспринимать нас, а не посты от LLM, чем все большее количество статей и являются.

Доверяя LLM адаптацию текстов вы совершаете самоубийство себя как творческой единицы, добровольно уничтожая свое творчество и подменяя его тем, что вами не является.

Зачем мне читать опубликованный совместно с LLM текст, если я могу запросить его в любой момент у LLM под мои нужды?

Вопрос дискуссионный, комментарии приверженцев другой точки зрения любопытны.

Не удержусь и разбавлю картинкой из той соцсети, в которой публиковался:

denis-19

29 мая 2025 в 06:005.2K

Криптография * Анализ и проектирование систем * Математика * Статистика в IT

АНБ США рассекретила внутреннее исследование 1988 года под названием: «Пятьдесят лет математического криптоанализа (1937-1987)».

SomeEditor

28 мая 2025 в 12:014.6K

Блог компании Yandex Cloud & Yandex InfrastructureBig Data * Машинное обучение * Искусственный интеллектData Engineering *

Управляемые сервисы на базе YTsaurus и Apache Spark, новые возможности DataLens и Yandex Cloud AI Studio — о чём говорили на Data&ML2Business

Собрали самые интересные анонсы с Data&ML2Business, ежегодной конференции Yandex Cloud о практическом применении технологий. Вот что прозвучало на главном докладе 28 мая.

Трек Data

Ранний доступ к Yandex Managed Service for YTsaurus. Платформа Яндекса для хранения и обработки больших данных YTsaurus уже два года в опенсорсе, а с этого дня доступ к ней открывается ещё в двух форматах: в облаке и в инфраструктуре заказчика (on‑premise).

Создать базовый кластер YTsaurus теперь можно в привычной консоли

Для тестирования работы в этих форматах необходимо подать заявку.

Доступ к сервису Yandex Managed Service for Spark. Новый управляемый сервис на базе опенсорс-решения поможет с загрузкой и обработкой данных, а также задачами машинного обучения в облаке. Протестировать его в режиме Preview можно здесь.

Кроме этого, в публичный доступ вышел сервис управления распределённым аналитическим массивно‑параллельным движком обработки больших данных Trino в облачной инфраструктуре.

Обновления Yandex DataLens. Что появилось в сервисе BI‑аналитики:

DataLens Gallery — публичная витрина готовых примеров дашбордов. Теперь любой пользователь может открыть галерею, выбрать нужную отрасль или предметную область и изучить готовые дашборды и модели данных, а также стать автором галереи. При согласии автора дашборд из галереи можно развернуть у себя в качестве примера или стартового дашборда.
DataLens Editor — редактор для кастомизации графиков и таблиц с помощью JavaScript. Пользователи смогут создавать продвинутые визуализации и удобно интегрировать данные из нескольких источников (включая внешние API).
Собственная программа сертификации Yandex DataLens Certified Analyst. С её помощью специалисты могут официально подтвердить свои навыки работы с DataLens. На экзамене проверяются знания и навыки работы с чартами и датасетами, вычисляемыми полями и параметрами, внешними источниками данных, построения дашбордов и выдачи доступов.

Также на конференции рассказали про OLAP-движок для YDB. Теперь СУБД подходит для самых высоконагруженных сценариев. В последней версии YDB появился неточный векторный поиск, позволяющий использовать YDB для специализированных задач, связанных с ИИ.

Трек ML

Обновления RAG‑пайплайна в AI Assistant API. Доступный на платформе Yandex Cloud AI Studio инструмент для создания умных ассистентов дополнился новым графическим UI — теперь создать виртуального помощника можно не только через API или SDK. Возможности поиска данных по базам знаний также расширились: доступны поддержка новых типов данных (таблицы и pdf‑файлы), дообучение эмбедингов, обогащение чанков метаданными, получение метаданных ответа, а также использование дообученной модели. Также на платформе появился рефразер — отдельная модель, которая может перефразировать запросы пользователя.

Доступ к Yandex Cloud AI Studio on‑premise. AI‑платформа Yandex Cloud внесена в реестр отечественного ПО, что позволяет интегрировать решения как в облаке, так и в своей инфраструктуре.

Эксперты обсудили и уже состоявшиеся запуски:

Инструменты работы с OpenAI Compatible API в облаке. API для языковых моделей в Yandex Cloud AI Studio совместим с OpenAI API. Благодаря этому модели YandexGPT проще интегрировать с популярными решениями для работы с ML, например, AutoGPT или LangChain. В совместимом с OpenAI API поддерживаются Function Calling, работа с эмбеддингами и Structured Output.
Смысловые теги Yandex SpeechSense — инструмент умного тегирования и поиска для анализа диалогов в колл‑центрах, доступный отдельно по клиенту и оператору.
Доступ к VLM и LLM в режиме Batch Processing и co‑pilot сервис для операторов Yandex Neurosupport — о которых мы рассказывали на Хабре.

На конференции более 20 спикеров представили 15 докладов по направлениям Data и ML. Подключайтесь к трансляции на странице мероприятия или смотрите в записи, чтобы познакомиться с опытом внедрения технологий.

11odin

28 мая 2025 в 07:314.1K

Блог компании HFLabsОткрытые данные *

Таблица соответствия кодов всех регионов России

Коды регионов зашифрованы повсеместно: в документах, автомобильных номерах, телефонах, адресах. Например, обычно первые две цифры в серии паспорта соответствуют коду ОКАТО. Но есть исключения: так, в паспортах Ямало-Ненецкого АО и ряда других регионов вместо него используется другой индекс.

Мы подготовили таблицу соответствия кодов по всем регионам России — посмотреть и скачать ее можно здесь.

В таблице отражена связь между:

кодами ФНС,
кодами подразделений, выдающих паспорта,
кодами в серии паспорта,
первыми автомобильными кодами,
кодами Росстата.

На что обратить внимание

Автомобильные коды быстро меняются, и во многих регионах сразу несколько кодов. В таблице приведены только первые.
Телефоны и почтовые индексы тоже начинаются на свой код региона. Причем один код может использоваться в разных регионах, а в одном регионе может использоваться несколько кодов.
В серии паспорта могут встречаться два универсальных кода — 09 и 39 — они не привязаны к конкретным регионам России.
В классификаторах Росстата ОКАТО и ОКТМО группы субъектов идут в следующем порядке:
- края,
- области,
- автономные округа,
- республики,
- автономные области.
Внутри групп субъекты РФ упорядочены по алфавиту. Но это правило верно не всегда: со временем регионы переименовываются, меняется их статус и появляются новые, а менять каждый раз код было бы неудобно. Поэтому:
- Камчатский край до 2007 года был областью — в списке регионов он среди областей с кодом 30. Аналогичная ситуация у Пермского края;
- Республика Алтай в этом порядке считается начинающейся на Р, а не на А, как Адыгея;
- Часть автономных округов по ОКАТО/ОКТМО относится к другим субъектам.
Интересно, что в 65-й статье Конституции РФ субъекты перечислены в ином порядке: республики, края, области, города федерального значения, автономные области и автономные округа.

vasilevafb

23 мая 2025 в 04:286.2K

Аналитика мобильных приложений * Управление продуктом * Бизнес-модели * Продвижение игр *

8 инструментов аналитики, которые я реально использую каждый день как предприниматель

От автора телеграм канала Аналитика и Growth mindset.

Я начинала как аналитик, сейчас — предприниматель. Но подход не изменился: принимаю решения только на основе данных, а не интуиции.

Вот основные инструменты, которые я использую практически каждый день:

1. Julius AI — ИИ-ассистент для анализа данных

Для аналитики данных, маркетинговой, финансовой аналитики, data science и научных исследований.

Поддерживает разные форматы данных, в том числе PostgreSQL
Использует разные языковые модели в работе
В отличие от ChatGPT Data Analysis, даёт более точные ответы

Использую: для быстрой повседневной аналитики и визуализации.

Бесплатно, ограниченный доступ.

2. Google Analytics — классика веб-аналитики

Базовый, но мощный инструмент.

Использую для анализа откуда приходит трафик, кто моя аудитория, как люди двигаются по воронке.

Бесплатно.

3. Ahrefs Web Analytics — альтернатива Google Analytics

Быстрая и простая веб-аналитика по сайту, особенно в live-режиме. Но возможностей меньше, чем в Google Analytics.

Использую для повседневного быстрого отслеживания, сверяю данные с GA.

Бесплатно.

4. Mida — эксперименты за 10 минут

Для запуска простых экспериментов без кода.

Подключается быстро с помощью пикселя
Интегрируется с GA, Amplitude, Mixpanel и др.
Не тормозит сайт
Есть сертификат ISO 27001 — подтверждает, что компания серьёзно относится к защите данных

Тестирую тексты, кнопки и структуру лендингов.

Бесплатно, ограниченный доступ.

5. Similarweb — анализ конкурентов

Анализирую трафик конкурентов на сайте: откуда трафик, какие каналы дают результаты, географию, демографию и др.

Бесплатно, ограниченный доступ. В платной версии — углублённый анализ трафика и исследования рынка. Подумываю купить.

6. Semrush — SEO и анализ конкурентов

В некоторых моментах пересекается с Similarweb.

Использую в основном для SEO-анализа. Хочу попробовать инструмент для анализа соцсетей конкурентов.

Бесплатно, ограниченный доступ.

7. PostgreSQL — база для всего

Надёжная, масштабируемая база данных.

Использую как основную БД: собираю и храню данные по проектам. Рекомендована для Django, который я использую в разработке.

Бесплатно.

8. Channel Analyzer — мой продукт для анализа Telegram-каналов

У меня несколько телеграм-каналов, вот 2 из них: канал для аналитиков данных и всех, кто интересуется аналитикой данных и канал по развитию телеграм каналов.

Так как в начале я сталкивалась с различными проблемами в развитии телеграм-каналов, я решила создать инструмент, который поможет владельцам телеграм каналов "растить" их канал.

Channel Analyzer анализирует любой Telegram-канал и даёт полезные инсайты:

как улучшить монетизацию
где провисает контент
как продвигать быстрее и эффективнее

TheBears

22 мая 2025 в 14:085K

Биология

Спросил сегодня у сына, используют ли они на работе искусственный интеллект. "Даже естественный не используют", -- ответил он.

Sravni_Tech

21 мая 2025 в 13:255.4K

Блог компании СравниХранение данных * Data Engineering *

Хранилище для данных или катастрофа на миллион строк? Видео-гайд по оптимизации запросов в Greenplum

Немного про нашу data-реальность в Сравни: мы используем Greenplum как аналитическую платформу для обработки терабайтов данных — пользовательских, продуктовых и маркетинговых. Это не просто хранилище, но один из основополагающих инструментов для команды DWH и аналитиков.

О применении Greenplum на практике наш дата-инженер Владимир Шустиков выпустил трилогию обучающих видео. С их помощью можно ознакомиться с азами самой БД и узнать, как дата-инженеры Сравни переписывают запросы для более высокой эффективности.

Если интересуетесь в целом Greenplum и вопросом оптимизации запросов в частности — вот все три выпуска гайда!

1. Greenplum. Что такое и как работает?

Видео о сути и архитектуре GP, основных понятиях и возможностях (реплицирование сегментов, дистрибуция, партицирование, индексы, загрузка и выгрузка данных, оптимизация запросов).

2. Простая оптимизация запросов в GreenPlum (+ кейсы)

Автор отвечает на вопрос, как именно стоит оптимизировать запросы в GP и на что обращать внимание.

3. Кейс оптимизации запроса в GreenPlum

Автор разбирает реальный кейс из практики Сравни, в котором применяются подходы и техники из видео №2.

Предыдущий видео-цикл Владимира, о самых распространенных вопросах на собеседованиях по SQL (с ответами!), доступен в этом посте.

Также ранее мы провели курс лекций в Бауманке: рассказали о техниках оптимизации аналитических SQL-запросов. Видео — здесь.

✅ТГ-канал инженерного сообщества Sravni Tech

Osya_razrabotchik

19 мая 2025 в 13:004.9K

IT-компании

Инновационный центр «Безопасный транспорт» победил в нескольких номинациях 3-й Национальной премии «Умный город».

Наши специалисты заняли:
🔹 1-е место в номинации «Умный муниципалитет» за проект АИС «Мониторинг аварийности». Система анализирует причины и локации ДТП.
🔹 2-е место в номинации «Мобильный город» за проект «Предмоделирование». Система примерно за 25 мин. автоматически рассчитывает прогноз, как строительство повлияет на транспортную загруженность участка, и предлагает наиболее удобные варианты.

Это важное признание наших усилий и работы над созданием более комфортной и безопасной городской среды.

Большое спасибо нашей команде! Мы продолжим развивать и внедрять инновационные решения, которые делают наш город лучше.

1 2 ...

7 8