Как стать автором
Обновить
Синимекс
Разработка IT-систем для бизнеса
Сначала показывать

Обработка геоданных для ML-задач. Часть 3: агрегирование данных и оценка пространственных шаблонов

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров913

Пространственное агрегирование помогает контролировать степень детализации данных в зависимости от пространственных характеристик отдельных записей. Эта операция может быть полезна, если вы хотите сравнить разные регионы по конкретному параметру, (например, плотность населения или динамика продаж), оценить значение признака на единицу площади (скажем, среднюю выручку магазинов на квадратный километр) или преобразовать набор точек в растровые пространственные данные.

Важно учитывать, что агрегирование упрощает анализ, но «схлопывает» внутреннюю вариативность данных, типа как усреднённая температура по больнице может скрывать локальные перегретые серверные. Существует, по крайней мере, три метода пространственного агрегирования...

Читать далее

Обработка геоданных для ML-задач. Часть 2: пространственные объединения и расстояния

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров660

Статья продолжает обсуждение пространственных признаков в Python. Здесь мы рассматриваем пространственные объединения — аналог обычного объединения в мире геоданных, основанный на топологических отношениях между объектами, таких как пересечение, вложение или касание. Также мы узнаем, как правильно рассчитывать различные типы расстояний (и иногда это не просто евклидово расстояние между двумя точками). Например, геодезическое расстояние учитывает кривизну Земли, что особенно важно для анализа данных на больших территориях; расстояние маршрута учитывает направление: оптимальный маршрут от A до B не всегда равен маршруту от B до A. 

Читать далее

Обработка геоданных для ML-задач. Часть 1

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров1.2K

Привет, я Александр Мещеряков, более 3-х лет работаю в компании «Синимекс» специалистом по анализу данных. Мне удалось поработать с различными ML-проектами, и больше всего меня увлекла работа с геоданными. Для многих эта тема кажется немного «магией» и я хотел бы на страницах Хабра пролить на нее немного света.

Эта статья — как шпаргалка для шеф-повара: берите готовые рецепты под ваши задачи. Здесь вы найдёте ключевые библиотеки (geopandas, h3-py) и принципы работы с геоданными — от парсинга OpenStreetMap до агрегации по шестиугольникам.

Читать далее

Профессии будущего в BI

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3.7K

Все эти 10 лет задаюсь вопросом: «Почему в BI всего две профессии — BI Developer и BI Analyst, а в других data-областях — Data Science, Data Engineering, Data Analytics — их много, с разными названиями и набором обязанностей? Ждать ли новых BI профессий в будущем? Каких?»

Эти размышления постепенно переросли в небольшое исследование, результатами которого я поделюсь в статье.

Читать далее

Секреты построения Data Vault 2.0: эффективное хранение данных

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров4.9K

Когда я впервые услышал о Data Warehouse (DWH), мне казалось, что это просто большая база данных. Однако, углубившись в тему, я понял, что настоящее хранилище данных должно отвечать множеству требований. Например, оно должно обеспечивать гетерогенность — возможность принимать данные из множества различных и несвязанных систем, что отличает его от классических реляционных или транзакционных баз данных. Оно должно обладать гибкостью и расширяемостью, позволяя добавлять новые источники данных без нарушения работы системы. Также важна историчность — способность хранить изменяющиеся атрибуты, такие как смена фамилии сотрудника. Хранилище должно быть способно обрабатывать огромные объемы данных и при этом обеспечивать высокую скорость обновления, позволяя создавать отчеты на основе актуальной информации.

Эти особенности делают хранилище данных сложной и важной системой, необходимой для бизнеса. В этой статье мы разберем классические подходы к построению DWH, их недостатки, а также рассмотрим современный подход Data Vault 2.0, который решает многие проблемы традиционных архитектур.

Читать далее

Гайд по трекингу экспериментов в ML

Время на прочтение9 мин
Количество просмотров2.1K

Многие привыкли, что в качестве результата эксперимента достаточно метрик и просто сохранения обученной модели, однако в современном мире машинного обучения трекинг экспериментов имеет ключевое значение для обеспечения воспроизводимости, надежности и эффективности. Давайте рассмотрим главные этапы проведения эксперимента и проблемы, которые могут возникнуть. Мы обсудим основы трекинга экспериментов в машинном обучении и исследуем, как вы можете упростить свой рабочий процесс с помощью правильных инструментов и практик. В конце я также поделюсь преимуществами одного из инструментов.

Читать далее

Team Lead. «Жизнь на грани»

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров763

Существует немало различной литературы, как управлять людьми в целом и командой программистов в частности. Наверняка там есть много дельной информации, но сегодня не об этом.
В статье хотела бы поделиться своими наблюдениями и выводами относительно вопросов по управлению командой и роли тимлида на проекте.

Читать далее

Реконсиляция в иерархическом прогнозировании временных рядов

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров1.9K

Всем привет! Меня зовут Ян, я ведущий специалист по анализу данных в компании Cinimex Data Lab. Не так давно мы столкнулись с задачей иерархического прогнозирования временных рядов для заказчика из фармацевтической области, откуда и родилась идея для этого материала. В статье коснемся особенностей иерархического прогнозирования (форекастинга), разберем что значит термин реконсиляция, рассмотрим его математическую формализацию а также разные методы реконсиляции.

Читать далее

Вызовы для DevOps в сфере поддержки ML-проектов

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров3.4K

Привет!
Коротко о себе:

Мой опыт в разработке ПО насчитывает порядка 18 лет, и 6 из них пришлись на работу в качестве Data Scientist. За это время я прошел путь от научного работника, аналитика данных, дата-сайентиста до Chief Data Scientist в банке. Сейчас я работаю в Синимекс, мы занимаемся разработкой ИТ-систем для бизнеса.

В этой статье я бы хотел обозначить и обратить внимание сообщества на проблемы, а также побудить коллег по Data Science инженерии подключиться к инициативе развития MLOps, чтобы совместными усилиями улучшать IT- ландшафт.

Читать далее

Приглашаем на Cinimex TECH VRN meetup в Воронеже (офлайн/онлайн)

Время на прочтение2 мин
Количество просмотров424

Привет, Хабр!

Приглашаем в Воронеж на митап TECH VRN meetup — Встретимся с ИТ-комьюнити и в традиционной уютной атмосфере поговорим про то, как построить хранилище данных по методологии Data Vault 2.0, сравним инструменты для автоматизированного тестирования и рассмотрим критерии их выбора, а завершим наш ИТ-вечер темой многоагентного подхода.

Читать далее

Приглашаем на Cinimex Spring IT Talk в Самаре (офлайн/онлайн)

Время на прочтение2 мин
Количество просмотров507

Привет, Хабр!

После майских праздников мы отправимся в Самару и проведем митап Spring IT Talk!

Встретимся с ИТ-комьюнити и в уютной атмосфере обсудим зоопарк технологий для DevOps-инженера, погрузимся в Kafka Streams и завершим IT-вечер темой преодоления стопперов в профессиональном развитии.

Читать далее

Приглашаем на Cinimex QA meetup (офлайн/онлайн)

Время на прочтение2 мин
Количество просмотров746

Привет, Хабр!

В первый день весны мы отправимся в Оренбург и проведем QA meetup!

Будем говорить о способах подготовки тестовых данных, основных принципах TDM. Разберем задачи, с которыми столкнулся начинающий QA Lead на проекте, и постараемся найти баланс между доверием и контролем на проектах.

Читать далее

Приглашаем на Cinimex DATA meetup (офлайн/онлайн)

Время на прочтение2 мин
Количество просмотров617

Привет, Хабр! Мы начинаем новый сезон ИТ-событий и приглашаем всех желающих в Санкт-Петербург на DATA meetup посвященный, темам инжиниринга данных, анализа данных и bi-аналитики.

Меня по-прежнему зовут Антон, и вот наша программа.

Читать далее

Где рождаются баги

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3.2K

К сожалению, баги - это неотъемлемая часть процесса разработки программного обеспечения. Но я обратил внимание, что одни команды допускают значительно меньше багов, чем другие.

Почему так происходит? - задался я вопросом.

Читать далее

Ближайшие события

Jenkins Pipeline для АТ

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров8.8K

В данной статье хочу поделиться содержанием pipeline.jenkinsfile с минимальной необходимостью для организации автоматизированного тестирования. Установку, настройку самого Jenkins мы рассматривать не будем, только pipeline и его содержание для АТ.

Читать далее

Вплавь через Босфор, как и зачем я проплыл 6,5 км на открытой воде

Время на прочтение12 мин
Количество просмотров6.8K

Всем привет! Меня зовут Женя Судариков, я директор лаборатории данных в IT-компании Синимекс. Хочу поделиться историей о том, как я осуществил свою мечту, проплыв 6,5 км на открытой воде через Босфор. Возможно, мой опыт кому-то будет полезен или вдохновит.

Как я узнал про заплыв

Приглашаем на Cinimex DEV meetup: ИТ-событие для разработчиков (офлайн/онлайн)

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров590

Привет Хабр! Осень - традиционно богата на ИТ-события, где есть возможность познакомиться с новыми людьми, посетить актуальные доклады и узнать о компаниях на стендах.

Меня по-прежнему зовут Антон и мы подготовили митап по разработке!

Когда?

Начало митапа: 19 октября в 19.00 

Встречаемся: 19 октября в 18:00 на площадке LOFT IDEALISTA (г. Москва, Нижняя Сыромятническая ул., 11, корп. 1, этаж 3)

Так же будет доступна онлайн‑трансляция митапа.

В билете после регистрации будет указана ссылка.

О чем расскажем?

Будем разбираться в вопросе, как писать код так, чтобы при этом создавать меньше багов? Какие "оверхеды" с точки зрения производительности и трудозатрат приносит микросервисная архитектура и нужно ли нам обратно в монолит? А так же постараемся разобраться насколько хорош паттерн Transactional Outbox и есть ли ему альтернатива?

Читать далее

ТОП-5 советов новичку в IT

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров2.9K

Привет!

Меня зовут Козурова Марина. Я инженер обеспечения качества компании Синимекс.

В данной статье я привела топ-5 советов для новичков в IT, которые будут полезны независимо от специализации (аналитика, разработка, тестирование и пр.).

Каждый, кому только предстоит работать в сфере IT или кто недавно пришел в профессию и, возможно, уже работает как junior-специалист, сможет почерпнуть для себя что-то полезное из этой статьи, что позволит меньше переживать и больше наслаждаться своей работой.

Все мои советы основаны на моем личном опыте и наблюдениях.

Если бы я знала об этом в начале своего пути, то множество ошибок удалось бы избежать, а часть нервных клеток не погибла бы смертью храбрых :) 

Сейчас я надеюсь, что данная статья поможет тебе обойти описанные грабли, чтобы собрать свои собственные и, возможно, поделиться информацией о них.

Изучить советы

Из журналистики в тестирование: мой опыт переключения

Время на прочтение10 мин
Количество просмотров2.8K

В марте исполнится два года с тех пор, как я, в то время ещё джун‑тестировщик без опыта, устроилась на работу в компанию «Синимекс». Сейчас моя должность — специалист по обеспечению качества. До перехода в IT я успела много лет проработать в журналистике и была, по мнению многих знакомых, тотальным гуманитарием. В этой статье я хочу поделиться своим опытом перехода — надеюсь, что моя история будет полезна тем, кто решил попробовать себя в IT и делает свои первые шаги на этом непростом и не всегда предсказуемом, но интересном пути.

К тому времени, как я решилась на поиски работы в сфере IT, за плечами у меня было десять лет работы в журналистике и гуманитарное образование. Приступать к освоению совершенно новой для меня области было непросто, но своё дело сделали пандемия коронавируса и профессиональное выгорание.

Думаю, мало чьей жизни не коснулись изменения 2020 года — периода, когда способы взаимодействия человека с другими людьми, условия и режим его работы, да и просто сама возможность выйти из дома стали сильно зависеть от эпидемиологической обстановки вокруг. В то время, когда из окон можно было следить за вереницами скорых, было сложно понять, что будет дальше и как приспособиться к новым условиям жизни. Очевидным было одно: настало время для изменений. И чем менее предсказуемым становится окружающий мир, тем больше гибкости от меня потребуется.

От журналистики, если честно, я и правда успела устать. И когда бывшая коллега, человек с разносторонним опытом работы в очень разных областях, предложила мне попробовать тестирование ПО («Ты ж редактор, они правят ошибки, и тестировщики тоже правят ошибки...»), решила — почему бы и нет?

Читать далее

Информация

Сайт
www.cinimex.ru
Дата регистрации
Дата основания
1997
Численность
501–1 000 человек
Местоположение
Россия