Обновить
165.71

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Масштабирование PostgreSQL до 800 миллионов пользователей ChatGPT

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели5.5K

Как известно, компания OpenAI, создавшая ChatGPT, находится на переднем крае развития ИИ и многим небезинтересно, какие технологии и решения работают "под капотом" этой популярной компании. Сотрудник технического отдела OpenAI, Бохан Чжан (Bohan Zhang) приоткрыл небольшую завесу о том, как компания работает с базами данных и с какими вызовами им приходиться сталкиваться и как их приходиться преодолевать. Это статья является вольным переводом оригинальной статьи Scaling PostgreSQL to power 800 million ChatGPT users, опубликованной на официальном сайте OpenAI, с некоторыми пояснениями и умозаключениями от переводчика, с учетом его знаний и опыта.

Читать далее

Новости

Как AI VK построили единую платформу для рекомендаций, поиска и рекламы в продуктах с многомиллионной аудиторией

Уровень сложностиСложный
Время на прочтение7 мин
Охват и читатели6.2K

Привет! На связи команда рекомендаций AI VK. Фактически в каждом продукте есть и рекомендации и поиск, и чтобы каждой команде не приходилось изобретать свой «велосипед», мы разработали единую Discovery-платформу. С ней команды могут «по кнопке» запускать рекомендации, тестировать модели, а также делиться лучшими решениями.

В статье поделились подробностями о том, что из себя представляет единая Discovery-платформа и какие результаты уже заметны.

Переходите под кат, будет интересно ⬇️

Про Discovery-платформу

Наглядная аналитика: разбираем кейсы по работе с данными через OLAP-кубы

Время на прочтение8 мин
Охват и читатели5.3K

Всем, кто работает с данными, знакома ситуация: цифр много, а понятных инсайтов — мало. Рутинные отчеты в Excel съедают время, а ответ на внезапный вопрос от руководства превращается в многочасовой квест.

Всем привет, меня зовут Ирина Севрюкова, руководитель отдела бизнес-анализа Polymatica. В этой статье я на реальных задачах разберу, как современные OLAP‑системы (на примере платформы Polymatica BI) позволяют не просто строить отчеты из больших данных, а проводить живой анализ данных, находить скрытые зависимости и быстро проверять гипотезы.

Несмотря на на то, что статья описывает проблемы заказчика в АПК, аналогичные задачи встречаются во многих отраслях.

Читать далее

Метрики тщеславия (Vanity Metrics): как красивые цифры мешают принимать правильные решения

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели3.9K

Поговорим в этой статье о метриках тщеславия — показателях, которые красиво выглядят в отчётах, но плохо помогают принимать решения. В тексте разбирается, почему такие метрики вводят в заблуждение, как отличить их от действительно полезных показателей и на какие альтернативы стоит опираться, чтобы объективно оценивать рост и здоровье продукта или бизнеса.

Читать далее

Доматчинг товаров с использованием LLM: от промптов до квантизации

Уровень сложностиСложный
Время на прочтение9 мин
Охват и читатели7.2K

Привет, Хабр! На связи команда продуктового матчинга ecom.tech. Наша команда решает задачи поиска, группировки и сопоставления товаров с помощью алгоритмов машинного обучения. Все это необходимо для развития и улучшения бизнес-процессов в компании, а именно быстрого заведения карточек товаров, мониторинга цен на товары и развития ML. В этой статье мы расскажем про доматчинг – сравнение сложных пар товаров, которые отобрали на предыдущем этапе пайплайна, с помощью LLM. Поехали!

Читать далее

Сравнительный обзор механизмов polling в Kafka и Pub/Sub в RabbitMQ: особенности и области применения

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели6.9K

Друзья, привет! Меня зовут Андрей Комягин, я CTO компании STM Labs. Мы занимаемся разработкой очень больших распределённых высоконагруженных систем для различных отраслей, включая налоговое администрирование, телеком, track & trace и многие другие. В своих проектах и архитектурах мы широко применяем open-source-решения, включая брокеры сообщений, такие как Kafka и RabbitMQ.

Совсем недавно я выступил на конференции HighLoad++ Genesis 2025: рассказал про анатомию каждого из этих брокеров, сравнил их по набору критериев и оценил результаты их нагрузочного тестирования. А теперь решил выпустить этот материал в виде статьи в блоге, чтобы читатели Хабра тоже смогли изучить нюансы и понять, на какие задачи заточен каждый из брокеров. Итак, поехали!

О брокере Apache Kafka я очень подробно рассказал в своей предыдущей статье. Повторяться и снова разбирать его сегодня я не буду — вы можете перейти по ссылке выше и ознакомиться с материалом, а затем вернуться сюда.

Читать далее

Роль хранилищ и платформ данных в развитии ИИ

Уровень сложностиПростой
Время на прочтение14 мин
Охват и читатели6.7K

Сегодня бизнес активно использует машинное обучение (Machine Learning, ML) для решения самых разных задач — от прогнозирования продаж до автоматизации процессов. Однако искусственный интеллект — это не какое-то волшебство, а математика, методы и алгоритмы, которые не будут работать без качественных и подходящих именно им данных. Чем больше качественных данных доступно для анализа, тем более сложные и точные модели можно построить. 

Меня зовут Анна Фенюшина, я ведущий архитектор направления «Дата-сервисы» в VK Tech. В этой статье я разберу, какие поколения ML существуют, какие данные нужны для их реализации и как современные хранилища могут помочь в развитии ИИ.

Читать далее

Навыки аналитика данных, которым вас никто не учит

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели8.2K

Аналитике редко учат напрямую: как выстраивать аналитическое мышление, находить реальные причины изменений в метриках и выбирать KPI, которые ведут к решениям, а не к «красивым отчётам». Эта статья — о навыках аналитика, которые формируются на практике и чаще всего через ошибки.

Читать далее

Компрессор для данных или как я написал свой первый custom transformer

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели8.1K

Эта статья будет полезна DS специалистам, и тем, кто хоть когда-нибудь сталкивался с такой проблемой, как выбросы в данных или OOD (out of distribution), и ищет пути решения проблем, возникающих из-за них.

Читать далее

Модуль Python для обновления данных в БД — DBMerge

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели7.7K

Хочу рассказать о своей разработке и поделиться ей с сообществом habr в виде готового модуля для Python.

Этот модуль решает задачу обновления данных в базе данных. Он выполняет insert/update/delete в одном действии.

Модуль DBMerge проектировался для упрощения ETL процессов по загрузке данных из множества внешних источников в SQL базу.

Для взаимодействия с базой данных используется SQLAlchemy и ее универсальные механизмы, таким образом, разработка не имеет привязки к конкретной БД. (На момент написания статьи, детальные тесты проводились для PostgreSQL, MariaDB, SQLite, MS SQL)

Принцип действия

Принцип действия следующий: модуль создает временную таблицу в базе и записывает в нее весь входящий датасет через операцию массового insert. Далее он выполняет инструкции UPDATE, INSERT, DELETE для целевой таблицы.

Читать далее

Как создать чат-бота с LLM?

Время на прочтение29 мин
Охват и читатели11K

История о том как я потратил 5 лет на изучении llm ботов и в итоге написал своего за пол года. Пути реализации и ошибки.

Читать далее

Open Table Formats — Iceberg vs Paimon — практика использования

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели6.6K

Привет, Хабр. Меня зовут Василий Мельник, я product owner решения для потоковой обработки данных Data Ocean SDI в компании Data Sapience. Наша команда приобрела большой практический опыт работы с Apache Iceberg в задачах на стыке традиционной пакетной обработки и near real-time и конкретно с использованием технологий на базе Flink, поэтому мы не могли пройти мимо нового открытого табличного формата (OTF) Paimon от разработчиков Apache Flink. В этой статье я опишу наш опыт и те практические выводы, которые мы сделали на промышленных средах, в виде репрезентативного тестирования, на котором проиллюстрирую ключевые практические сценарии.

Читать далее

Автоматизированные системы мониторинга моделей машинного обучения с помощью нашего open source фреймворка

Время на прочтение6 мин
Охват и читатели6.3K

Любая модель машинного обучения начинается с данных. Известное выражение «garbage in, garbage out» как нельзя лучше описывает главную уязвимость ML‑систем. В автоматизированном машинном обучении (AutoML) наиболее критичными точками являются процесс сборки данных и проблема мониторинга данных, в т.ч. в онлайне. Если процессы feature engineering и обучения наша библиотека формализует «из коробки» с помощью конфигурационных файлов и единых правил, то ответственность за загрузку и получение данных несет пользователь.

Читать далее

Ближайшие события

Как мы нашли утекающую маржу в сети кофеен на 240 000 чеков/мес: путь от Excel к ежедневной управляемости

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели13K

В сети 26 кофеен на 240k чеков в месяц всё выглядело достаточно хорошо (поток гостей, выручка растёт, но прибыль не соответствует ожиданиям). Рассказываю, как мы собрали ежедневную BI аналитику для управления сетью: от R-Keeper и ETL до витрин в ClickHouse и дашбордов в Yandex DataLens. По дороге упёрлись в типичную проблему: справочники, из-за которых отчёты неточны.

Читать далее

Байесовские А/Б-тесты: связь с p-значениями

Время на прочтение19 мин
Охват и читатели6.9K

Показана численная близость p-значений t-теста, \chi^2-теста и U-критерия Манна-Уитни в А/Б-тестах вероятностям лучшей группы байесовских моделей. Соотношения выполняются несмотря на различия в определениях.

Читать

Утвердить методологию DWH, практическое руководство для менеджмента

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели8.9K

Статья о создании процессов управления данными, о том, какие фундаментальные вопросы следует прояснить на старте, какую методологию стоит утвердить от технических специалистов менеджменту направления data.

Читать далее

Как мы сделали гибридный AI-поиск по смыслу книг: двухконтурная архитектура и семантическое ранжирование

Время на прочтение8 мин
Охват и читатели9.6K

Всем привет! Меня зовут Яна Чеканова, я проджект-менеджер в red_mad_robot уже два года — и да, я не технарь, а филолог по образованию. Парадоксально, но именно это образование помогло мне в одном из самых технологичных проектов — создании AI-поиска для сервиса книги билайн.

Идея родилась у команды билайна: они провели исследование и поняли, что большинство читателей не ищут конкретного автора или название, а ориентируются на настроение и ощущение от книги — «что-то атмосферное», «что-то как любимый роман». Так появилась гипотеза: сделать поиск, который понимает смысл запроса, а не только ключевые слова.

Мы подключились, чтобы превратить эту идею в технологию: векторизовали метаданные полумиллиона книг, обучили LLM и собрали гибридную систему, которая подбирает литературу по смыслу и контексту — даже если запрос звучит просто как «что-нибудь про путешествия во времени».

Рассказываю, как это было.

Читать далее

Хроники Valkey: сайдкары, операторы и один очень упрямый кластер

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели11K

Привет! Меня зовут Никита Кречетов, я работаю в команде Datawave в юните DBA в Авито. В этой статье рассказываю, как мы перевели полторы тысячи инстансов Redis на Valkey Cluster, как отказались от ручного решардирования и что это дало разработчикам и бизнесу. Материал будет полезен инженерам, которые ищут практичный опыт миграции на новые базы данных.

Читать далее

Кручу-верчу, обмануть хочу: как испортить картинку, чтобы нейросеть стала умнее

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели14K

Главной проблемой при обучении нейросетей остаётся нехватка качественной информации. Всем моделям глубокого обучения может потребоваться большой объём данных для достижения удовлетворительных результатов. Для успешного обучения модели данные должны быть разнообразными и соответствовать поставленной задаче. В противном случае пользы от такой сети будет мало. Хорошо известно, что нехватка данных легко приводит к переобучению.

Но вот беда, трудно предусмотреть и собрать данные, которые покрывали бы все ситуации. Допустим, вы хотите научить систему находить на фото конкретную кошку. Вам потребуются снимки этого животного в самых разных позах — будь то сидя, стоя или обдирающей диван.

А если требуется распознавать кошек в принципе, то вариантов становится в разы больше. Видов кошек в природе тысячи, они все разных цветов и размеров. Почему это важно? Представьте, что наш набор данных может содержать изображения кошек и собак. Кошки в наборе смотрят исключительно влево с точки зрения наблюдателя. Неудивительно, что обученная модель может неправильно классифицировать кошек, смотрящих вправо.

Поэтому всегда нужно проверять свою выборку на разнообразие. Если данные не подходят под реальные условия, то и задачу решить не получится.

Что делать, если у нас дефицит данных?

Читать далее

Процедурное SQL-расширение в Lakehouse-платформе – новые возможности для работы с данными

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели7.4K

Вас приветствует команда Data Sapience, и в сегодняшней публикации мы расскажем о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало доступным для пользователей. В материале пойдет речь о возможностях, применимости и сценариях использования процедурного языка в аналитической платформе данных и примеры реализации решения типовых задач.

Читать далее
1
23 ...

Вклад авторов