Как стать автором
Обновить
91.34

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Период
Уровень сложности

Data Science в travel-tech. Часть 1. Поиск и бронирование

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров2K

Привет! Меня зовут Иван Елфимов, я Developer Advocate в Островке. В прошлом месяце мы опубликовали пост о том, чем занимаются ML-инженеры в Островке. В этот раз рассказываем про Machine Learning (ML) и Data Science (DS) с точки зрения продукта.

Команда Data Science появилась в Островке в 2014 году, задолго до расцвета больших языковых моделей. За это время она успела сделать десятки проектов с computer vision, NLP и сложными классическими моделями.

Ажиотаж вокруг языковых моделей заставил многих из нас забыть, что Data Science — это не только трансформеры (General Pretrained Transformers, GPT). Мы используем картинки, текстовые и табличные данные для построения моделей, которые работают в реальном времени или обрабатывают статистические данные. Они помогают нам подбирать лучшие отели для вашего следующего путешествия.

Хороший DS-продукт не заметен — он просто работает. Давайте сыграем в игру: мы показываем скриншот страницы сайта, а вы пробуете отгадать, сколько на этой странице DS-продуктов. И не забывайте, что DS-продукт — это не только нейронные сети, но и классические модели, а также различные эвристики. Надеюсь, результаты вас удивят!

Читать далее

Как визуальные головоломки помогут выявить AGI

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров1.9K

Крупные языковые модели (LLM) вошли в число самых многообещающих изобретений в области искусственного интеллекта (ИИ). Впечатляющие возможности GPT-4 заставили многих восторженно говорить о появлении сильного искусственного интеллекта (AGI). При этом GPT-4 и другие LLM пока показывают очень слабые результаты на наборе данных ARC, состоящем из визуальных головоломок. Почему тест Тьюринга - плохой инструмент для определения AGI? В чем разница между узким и общим интеллектом? Насколько люди умнее GPT-4 по результатам тестов на ARC? В статье ответы на эти и другие вопросы.

Читать

Книга: «Нечеткое сопоставление данных в SQL»

Время на прочтение14 мин
Количество просмотров11K
image Привет, Хаброжители!

Если бы вам предоставили два разных, но связанных между собой набора данных, какие инструменты вы бы использовали для поиска совпадений? А если все, что у вас есть, — это доступ к базе данных через SQL SELECT? Джим Лемер предлагает лучшие практики, методики и приемы, которые помогут вам импортировать, очищать, сопоставлять, оценивать и осмысливать разнообразные данные с помощью SQL.

Администраторы баз данных, программисты, бизнес-аналитики и специалисты по исследованию данных узнают, как выявлять и удалять дубликаты, разбирать строки, извлекать данные из XML и JSON, генерировать SQL с помощью SQL, упорядочивать данные и готовить наборы данных, а также применять подходы к качеству данных и ETL для поиска сходств и различий между различными выражениями одних и тех же данных.

Примеры, приведенные в книге, полны реальных приемов и содержат рабочий код.
Читать дальше →

Агенты. Деньги. Бизнес и Работа

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров752

По материалам Fast Company, Venture Beat, CIO, NY Times, New Scientist, Wired, McKinsey и других ресурсов. Минимум булшита, максимум инсайтов.

Решается судьба будущего интернета: станет ли он открытым пространством для всех или превратится в сеть закрытых экосистем, контролируемых Big Tech...

ChatGPT на пике растет со скоростью 1 000 000 пользователей за пару часов...

Читать далее

Методы построения RAG систем

Уровень сложностиПростой
Время на прочтение20 мин
Количество просмотров6.2K

Процесс Retrieval-Augmented Generation (RAG) представляет собой довольно сложную систему, состоящую из множества компонентов. Вопрос о том, как определить существующие методы RAG и их оптимальные варианты реализации этапов обработки информации для выявления лучших практик. В настоящий момент остается наиболее актуальным. В этой статье я хочу поделиться своим опытом относительно реализации подходов и практик в области RAG систем, который реализует систематический подход к решению этой проблемы.

Читать далее

Как собрать ETL-процессы в Apache Airflow и перестать страдать

Время на прочтение10 мин
Количество просмотров6.7K

Оркестрация процессов в Apache Airflow — мощный инструмент для управления данными. Но как внедрить его так, чтобы процессы стали прозрачными, гибкими и удобными для команд? Как организовать ETL-пайплайны, чтобы они легко масштабировались и адаптировались под нужды аналитиков, ML-инженеров и других специалистов?

Меня зовут Любовь Марисева, я инженер дата-платформы в Циан. Мы разрабатываем десятки ETL-процессов, обеспечиваем данными разные команды и постоянно ищем способы сделать работу с Airflow эффективнее. В этой статье я расскажу, как мы решили ключевые проблемы, сделали расчёты более управляемыми и упростили взаимодействие между командами.

Если вы только начинаете работать с Airflow или хотите улучшить свои подходы, присоединяйтесь! Эта статья поможет взглянуть на оркестрацию процессов под новым углом.

Читать далее

Как мы используем разделяемую память в Aqueduct

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1.2K

Привет. Меня зовут Денис Лисовик, я Backend-инженер в команде Data Science SWAT Авито. В этой статье рассказываю, как использовать разделяемую память в Aqueduct. Вместе мы шаг за шагом пройдем от сервиса, который едва держит один RPS, до сервиса, который может держать сотни запросов в секунду. В процессе вы узнаете, как использовать разделяемую память и как сделать так, чтобы она не утекала, а приложение не падало с Segmentation fault.

Читать далее

Введение в Weight & Biases

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.9K

В практике любого инженера машинного обучения обязательно присутствует инструмент для управления жизненным циклом машинного обучения: отслеживание экспериментов, управление и деплой моделей и проектов. В этой статье я кратко расскажу о таком инструменте компании Weight & Biases, незаслуженно обойденным вниманием на просторах рускоязычного пространства.

Работа в современных реалиях требуют быстрой разработки и оценки моделей. Существует множество компонентов: изучение обучающих данных, обучение различных моделей, объединение обученных моделей в различные комбинации (ансамблирование) и т. д.

Много компонентов = много мест, где можно ошибиться = много времени, потраченного на отладку. Вы можете упустить важные детали, и вам придется заново обучать модель, или вы можете обучиться на неправильных данных (утечка информации). Или вы можете использовать неправильную модель для генерации представления.

Именно здесь на помощь приходит W&B.

Читать далее

Влияние маленьких файлов на Big Data: HDFS vs S3

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров2.3K

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API.

Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse. Сравним производительность HDFS и объектных хранилищ с S3 API. На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC).

Тесты, графики, инсайды

Цикл статей о Greenplum. Часть 3. Оптимизация

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров2.6K

Приветствуем вас на заключительном этапе в цикле статей о Greenplum. Ранее мы уже обсудили то, как выглядит архитектура системы. Посмотрели «под капот», подробнее обсудили виды хостов и их предназначение, узнали, как обрабатываются запросы пользователей.

Во второй статье погрузились в то, какие виды таблиц бывают, что такое дистрибьюция и партиционирование, как можно начать оптимизировать работу с таблицами ещё на этапе их создания.

Освежить память о содержании предыдущих статей можно здесь и здесь.

В данной статье мы совместно с @omoskvinрасскажем о том, что влияет на оптимальность выполнения запросов, как отслеживать различные проблемы и, конечно же, как с ними справляться. 

Читать далее

Как LLM меняют архитектуру систем: от простых дата-пайплайнов к интеллектуальным автономным агентам

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров5K

На каждой технической конференции в последнее время обязательно звучит слово «агенты». Они преподносятся по разному: и как следующая ступенька после RAG, и как серебряная пуля для решения всех проблем, и как абсолютная замена всех классических пайплайнов. А кто еще не использует агентов — безнадежно отстал от прогресса.

Но так ли это на самом деле? Данная статья вдохновлена видением компании Anthropic на применение LLM в процессах и на построение автономных агентов, поэтому давайте попробуем во всем разобраться.

Поговорим про Data Pipelines, LLM Workflows и LLM Agents, а так же сравним их между собой.

Читать далее

Как мы строили сквозную аналитику и укрощали бизнес-требования

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров1.4K

Привет! На связи Даниил, дата-инженер компании iSpring. Уже 23 года мы создаём инструменты для корпоративного обучения. В статье расскажу, как и почему мы решили внедрить сквозную аналитику в компанию, с какими сложностями столкнулись и как побеждали бизнес-требования.

Читать далее

Жизнь после SAP: импортозамещение платформы данных

Время на прочтение7 мин
Количество просмотров7.3K

Последние пару лет не перестает сходить с первого плана вопрос импортозамещения софта ушедших вендоров. Мы занимаемся данными, поэтому и делимся опытом импортозамещения платформ данных у наших enterprise заказчиков.

Если попробовать классифицировать причины импортозамещения, то это могут быть снижение вендорских рисков, требования Минцифры, сложность и стоимость закупки сертифицированного «железа» под импортные платформы и так далее.

Кстати, далеко не на последнем месте запрос команд разработки и поддержки на реализацию проектов на российском и open source технологическом стеке. Российский рынок вакансий на западном проприетарном вендорском ПО постепенно сужается, так как сейчас спрос российских компаний на такой софт стремится к нулю и такие системы постепенно превращаются в Legacy.

Так или иначе, российский крупный бизнес постепенно приходит к задаче импортозамещения и вместе с этим к целому спектру сложных задач, начиная от выбора подходящих целевых систем и технологий и их «допиливания», разработки,внедрения, до удовлетворения ожиданий не всегда простых бизнес-пользователей.

Разделим проблему на две части – подходящий апробированный технологический стек с формированием команды и сатисфакция бизнес-пользователей.

Читать далее

Ближайшие события

10 бесплатных курсов и мастер-классов, которые стоит пройти в августе

Время на прочтение5 мин
Количество просмотров6.3K

​​🤦 Посмотрели на календарь, а лучше бы не смотрели! 

Последний месяц лета решили провести с максимальной пользой. Начнём, пожалуй, с бесплатных занятий ;)

Погнали →

Пайплайны, разметка и версионирование — открытые решения для работы с неструктурированными данными

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.9K

Подготовили подборку решений для анализа и обработки неструктурированных данных. Инструменты помогут с разметкой текста, построением соответствующих пайплайнов и версионированием масштабных сводов информации для машинного обучения и не только. Поговорим про Sycamore, Surya, OmniParse, Unstract и Oxen — каждый из этих инструментов имеет открытый исходный код.

Кроме того, организации могут значительно сэкономить на управлении и эксплуатации неструктурированных данных за счет объектного облачного хранилища. Запустили тест-драйв, проверяйте. 

Читать далее

Базовые аспекты условных операторов в Python

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров7K

Привет, Хабр! Меня зовут Дмитрий, я аналитик данных и программный эксперт на курсе Python для анализа данных в Яндекс Практикуме. Решил поделиться тем, как реализованы условные операторы в Python: статья поможет вам составить впечатление о Python и улучшит ваше понимание условных операторов, при этом изложенные ниже принципы могут помочь и в других языках программирования и в формулах Excel или гугл-таблиц.

Читать далее

10 библиотек Python для машинного обучения — подборка для начинающих

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров30K

Составили список самых важных библиотек Python для машинного обучения и рассказали, для каких задач они могут быть полезны начинающим ML-инженерам и специалистам по Data Science.

Собрать подборку помог Кирилл Симонов — ML-разработчик компании IRLIX с экспертизой в компьютерном зрении.

Читать далее

За что аналитику данных платят зарплату

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров14K

Привет! Меня зовут Дарина Кухтина, я руководитель аналитики в компании, которая разрабатывает мобильные игры, и наставник на курсе «Аналитик данных». В статье я расскажу, зачем бизнес нанимает аналитиков данных.

Читать далее

Как мы решали задачу сегментирования бизнес-объектов

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров1K

Привет! Меня зовут Владимир, я руководитель управления разработки и тестирования в СИГМЕ. Сегодня хочу рассказать, как наша команда дорабатывала CRM-систему заказчика. Она используется для контроля всевозможных коммуникаций с клиентами — от звонков на горячую линию и переписки в мессенджерах до визитов в офисы и почтовых рассылок. Архитектурно CRM спроектирована так, что способна сопровождать оказание практически любых услуг, но исторически сосредоточена на взаимодействии с клиентами энергосбытовых компаний.

Перед нами стояла задача написать подсистему, которая позволит настраивать условия и в соответствии с ними сегментировать клиентскую базу. Клиенты, соответствующие заданным условиям, будут попадать в определенный сегмент. Эта функция нужна заказчику, чтобы выстраивать диалог с клиентами с учетом их психологического профиля и предпочтений, а также адресно предлагать услуги.

Читать далее

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

Уровень сложностиСложный
Время на прочтение18 мин
Количество просмотров1.6K

В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в отдельной статье, а здесь сосредоточимся на результатах тестирования. Мы оцениваем ряд ведущих открытых LLM, предоставляя подробный количественный и качественный анализ, а также рассматриваем, как качество бенчмарка влияет на достоверность и объективность оценки моделей.

Содержание
Общая информация о датасете
Стенд для тестирования
Результаты
Заключение

Читать далее