Статьи / Закладки / Профиль vandriichuk / Хабр

Виктор Андрийчук @vandriichuk

Data Engineer | Python Software Engineer

Профиль Публикации 12Комментарии 307Закладки 355

dimasklyarov 9 дек 2023 в 19:31

RAG (Retrieval Augmented Generation) — простое и понятное объяснение

Простой

8 мин

20K

Natural Language Processing*

Из песочницы

Краткое и понятное описание подхода RAG (Retrieval Augmented Generation) при работе с большими языковыми моделями.

amberovsky 1 авг 2018 в 14:02

CRDT: Conflict-free Replicated Data Types

10 мин

43K

Программирование*Анализ и проектирование систем*Алгоритмы*Математика*Распределённые системы*

Как считать хиты страницы google.com? А как хранить счётчик лайков очень популярных пользователей? В этой статье предлагается рассмотреть решение этих задач с помощью CRDT (Conflict-free Replicated Data Types, что по-русски переводится примерно как Бесконфликтные реплицированные типы данных), а в более общем случае — задачи синхронизации реплик в распределённой системе с несколькими ведущими узлами.

Читать дальше →

+18

muxeu 28 дек 2023 в 13:31

Многорукие бандиты в задаче ритейла

9 мин

3.1K

Алгоритмы*Математика*Машинное обучение*Блог компании X5 Tech

Обзор

В настоящее время набирают популярность модели Reinforcement Learning для решения прикладных задач бизнеса. В этой статье мы рассмотрим подмножество этих моделей, а именно многоруких бандитов (multi-armed bandits). Также мы:

- обсудим, какие задачи теоретически могут быть решены с помощью этих моделей;
- рассмотрим некоторые популярные реализации моделей многоруких бандитов;
- опишем симулятор ценообразования, применим эти алгоритмы в нём и сравним их эффективность.

Mark_K 14 сен 2023 в 09:50

LlamaIndex: создаем чат-бота без боли и страданий. Часть 3

7 мин

4.4K

Машинное обучение*Искусственный интеллект

Туториал

Завершаем исследование фреймворка llamaIndex. В этой части разбираемся с ретриверами, которые обеспечивают различные способы извлечения релевантного контекста из индексов документов.

Mark_K 17 авг 2023 в 11:06

LlamaIndex: создаем чат-бота без боли и страданий. Часть 2

Простой

5 мин

5.1K

Машинное обучение*Искусственный интеллект

Туториал

Продолжаем изучать фреймворк для создания AI-ботов. В этой части узнаем про тонкости индексирования собственной базы документов.

shveenkov 13 дек 2023 в 11:42

Инструменты продуктового аналитика VK, или Как мы работаем с большими данными

Средний

15 мин

8.4K

Блог компании VKData Mining*Data Engineering*

Аналитика

✏️ Технотекст 2023

Принятие решений на основе данных является неотъемлемой частью работы аналитика. Данные помогают сделать это быстро. Но что если объём данных достигает десятков петабайт? Подобная задача становится не такой тривиальной, как может показаться на первый взгляд. Как масштабировать работу с данными в продуктовых командах? Как быстро найти инсайты в куче данных? Какие инструменты могут быть полезны для аналитика?

Заинтригованы? Добро пожаловать в мир аналитики больших данных.

+34

Yefar 27 июл 2023 в 14:16

Как мы пришли к созданию своего BI решения на NLP для получения отчетов прямо в мессенджер

Простой

6 мин

3.7K

Big Data*Визуализация данных*Хранение данных*Искусственный интеллектБлог компании Sapiens solutions

Занимаясь BI-решениями почти всю сознательную жизнь, я обнаружил, что на самом деле ими пользуются только в случае крайней необходимости.

Про BI вспоминают, когда аудиторы запрашивают детализированные данные для подготовки ежеквартальной/ годовой/ другой отчетности акционерам и топ-менеджменту. Причем очень часто business intelligence системы используются, чтобы сформировать итоговый Excel или PowerPoint. В лучшем случае BI могут применять аналитики для подготовки планов продаж или закупок. Топ-менеджеры, к сожалению, не пользуются BI практически никогда.

Мы придумали, как решить эту проблему и сделать принятие data-driven решений в компании намного проще.

obus 16 июн 2016 в 18:25

Метрики качества ранжирования

7 мин

101K

Поисковые технологии*Алгоритмы*Математика*Машинное обучение*Блог компании E-Contenta

Туториал

В процессе подготовки задачи для вступительного испытания на летнюю школу GoTo, мы обнаружили, что на русском языке практически отсутствует качественное описание основных метрик ранжирования (задача касалась частного случая задачи ранжирования — построения рекомендательного алгоритма). Мы в E-Contenta активно используем различные метрики ранжирования, поэтому решили исправить это недоразуменее, написав эту статью.

Читать дальше →

+14

valemak 3 дек 2013 в 04:37

Пузырьковая сортировка и все-все-все

5 мин

613K

Совершенный код*Алгоритмы*

Все отлично знают, что из класса обменных сортировок самый быстрый метод – это так называемая быстрая сортировка. О ней пишут диссертации, её посвящено немало статей на Хабре, на её основе придумывают сложные гибридные алгоритмы. Но сегодня речь пойдёт не про quick sort, а про другой обменный способ – старую добрую пузырьковую сортировку и её улучшения, модификации, мутации и разновидности.

Практический выхлоп от данных методов не ахти какой и многие хабрапользователи всё это проходили ещё в первом классе. Поэтому статья адресована тем, кто только-только заинтересовался теорией алгоритмов и делает в этом направлении первые шаги.

image: пузырьки

Сделать первый шаг в изучении сортировок

+92

VladimirVerstov 23 июн 2021 в 13:06

Разработка платформы управления данными. Доклад Яндекса

25 мин

9.7K

Python*Блог компании ЯндексАдминистрирование баз данных*Хранение данных*Хранилища данных*

Яндекс Go разрабатывает платформу управления данными (DMP) как сервис для офлайн- и near real-time-обработки данных. Я постарался рассказать, какая мотивация нужна для создания собственного ETL-инструмента, как ETL и Data Warehouse превратить в DMP, какие проблемы возникают в процессе разработки и как мы их решаем.

— Меня зовут Владимир Верстов, я руковожу разработкой DMP в Яндекс Go — той частью, которая относится к платформе. Не контентной частью, а универсальными инструментами, которые мы переиспользуем, чтобы удобным образом выстроить внутри Такси, Еды и Лавки потоки данных и другие процессы, связанные с дата-инжинирингом. Чтобы сделать сущность, позволяющую дата-инженерам, аналитикам и разработчикам бэкенда коммуницировать на уровне данных и процессов.

Начать рассказ проще всего с вопроса, что вообще такое DMP, потому что каждый под этим может понимать что-то свое: нет устоявшихся паттернов. Расскажу, как мы вообще пришли к текущему состоянию, покажу несколько примеров использования нашей платформы для Greenplum, для Spark, и постараюсь успеть подвести итоги.

Читать дальше →

shveenkov 20 июн 2023 в 11:04

Зачем Data-инженеру Spark

Средний

24 мин

12K

Блог компании VKHadoop*Data Engineering*

Аналитика

Привет, Хабр, меня зовут Дима. В последние пару лет занимаюсь аналитикой, отвечаю за данные в Почте Mail.ru. Развиваю аналитическое хранилище данных и инструменты для работы с ними. Мы плотно работаем со стеком Hadoop, Hive, Spark, Clickhouse и Kafka. Я хочу остановиться на некоторых аспектах работы с данными в Spark: как мы храним петабайты информации и как выполняем запросы к ним?

Прежде всего поделюсь своими практическими наблюдениями. Расскажу как в нашем хранилище мы превратили 7 петабайт в 0,5 петабайт, что позволило сэкономить годовой бюджет по закупке серверов. И также расскажу о ключевых проблемах с данными, знание о которых помогло бы вам построить своё классное хранилище без последующей переделки.

+36

nikolai-averin 2 фев 2021 в 23:43

SQL миграции в Postgres. Часть 1

Средний

15 мин

29K

PostgreSQL*SQL*Администрирование баз данных*

FAQ

Технотекст 2021

Как обновить значение атрибута для всех записей таблицы? Как добавить первичный или уникальный ключ в таблицу? Как разбить таблицу на две? Как ...

Если приложение может быть недоступно какое-то время для проведения миграций, то ответы на эти вопросы не представляют сложности. А что делать, если миграции нужно проводить на горячую – не останавливая базу данных и не мешая другим с ней работать?

На эти и другие вопросы, возникающие при проведении миграций схемы и данных в PostgreSQL, постараемся дать ответы в виде практических советов.

Читать дальше →

+32

mr-pickles 29 мая 2023 в 11:11

Идеальный препроцессинговый пайплайн для NLP-моделей

Средний

12 мин

4.4K

Программирование*Алгоритмы*Машинное обучение*Natural Language Processing*

Туториал

Перевод

Если вы работали над проектом по реферированию текстов, то вы могли заметить сложность получения тех результатов, которые ожидалось получить. Если у вас имелись представления относительно того, как должен работать некий алгоритм, какие предложения он должен выделять при формировании рефератов, то этот алгоритм, чаще всего, выдавал результаты, весьма далёкие от ваших представлений. А ещё интереснее — ситуация с извлечением из текстов ключевых слов. Дело в том, что существует множество самых разных алгоритмов — от тех, что используют тематическое моделирование, до тех, где применяется векторизация данных и эмбеддинги. Все они работают очень хорошо. Но если дать одному из них абзац текста, то выданный им результат, опять же, будет далеко не самым правильным. А дело тут в том, что слова, которые встречаются в тексте чаще всего — это не всегда самые важные слова.

+11

MaxRokatansky 19 мая 2023 в 08:59

Использование нейросетей для вашей рекомендательной системы

7 мин

4.6K

Машинное обучение*Блог компании OTUS

Перевод

Глубокое обучение (Deep learning. DL) - это современное решение многих проблем машинного обучения, таких как компьютерное зрение или недостатки естественного языка, и превосходит альтернативные методы. Последние тенденции включают применение методов DL в рекомендательных системах. Многие крупные компании, такие как AirBnB, Facebook, Google, Home Depot, LinkedIn и Pinterest, делятся своим опытом использования DL для рекомендательных систем.

Недавно NVIDIA и команда RAPIDS.AI выиграли три соревнования с использованием DL: ACM RecSys2021 Challenge, SIGIR eCom Data Challenge и ACM WSDM2021 Booking.com Challenge.

Область рекомендательных систем сложна. В этом посте я сосредоточусь на архитектуре нейронной сети и ее компонентах, таких как эмбеддинг и полностью связанные слои, рекуррентные ячейки нейронной сети (LSTM или GRU) и блоки трансформеров. Я расскажу о популярных сетевых архитектурах, таких как Wide и Deep от Google и Deep Learning Recommender Model (DLRM) от Facebook.

BykoIanko 15 мая 2023 в 12:13

Реализация двустороннего A* на двух потоках

Сложный

10 мин

Программирование*Блог компании VKАлгоритмы*

Кейс

На Хабре можно найти немало статей, посвящённых оптимизациям поиска кратчайшего пути на графе. Я расскажу ещё про еще один подход. Речь пойдёт о распараллеливании алгоритма A* и исполнении его на двух потоках, а также о сложностях, с которыми я столкнулся при реализации, и их преодолении.

+56

mkrasilnikov 7 мая 2023 в 10:51

Метод генерации столбцов для решения задач математической оптимизации большой размерности

Средний

8 мин

Алгоритмы*Математика*Машинное обучение*Бизнес-модели*Статистика в IT

Из песочницы

Теперь к истокам задачи: часто, чтобы математическая модель была применима в реальном секторе, необходимо использовать очень много ограничений и большое количество переменных. Задачи, возникающие в бизнесе в реальных условиях, требуют использования моделей с большим количеством ограничений и большим количеством переменных. Временами задача в лоб может и не решиться, поэтому были придуманы различные трюки. Один из них - метод « генерации столбцов» (Column generation).

+23

ru_vds 1 мая 2023 в 16:25

Алгоритмы балансировки нагрузок

Средний

8 мин

31K

Алгоритмы*Серверная оптимизация*Серверное администрирование*Блог компании RUVDS.com

Туториал

Перевод

Рано или поздно веб-приложения перерастают среду одного сервера. Компаниям требуется увеличить или их доступность, или масштабируемость, или и то, и другое. Чтобы сделать это, они развёртывают своё приложение на нескольких серверах и ставят перед ним балансировщик нагрузок для распределения входящих запросов. Чтобы справляться с нагрузками, большим компаниям могут потребоваться тысячи серверов, на которых запущено веб-приложение.

В этом посте мы рассмотрим способы, которыми один балансировщик нагрузок может распределять HTTP-запросы на множество серверов. Мы начнём снизу и проделаем весь путь вверх до современных алгоритмов балансировки нагрузок.

Читать дальше →

+105

use_magic 14 апр 2023 в 17:36

Bag of tricks для разметки текстовых данных: Часть 2. Удаление дубликатов

Средний

9 мин

2.9K

Big Data*Машинное обучение*Искусственный интеллектNatural Language Processing*Блог компании MTS AI

Туториал

Привет! Меня зовут Ирина Кротова, я NLP-исследователь из компании MTS AI. В этой статье из цикла про разметку данных я расскажу об ещё одном способе собирать данные более качественно и экономить на разметке — фильтрации похожих друг на друга текстов.

В предыдущей статье я рассказывала о том, что такое аннотация данных, как это связано с работой инженера машинного обучения и о способах сократить количество ручной разметки в проекте.

badcasedaily1 28 мар 2023 в 18:50

Ультимативная дорожная карта для изучения SQL и баз данных в 2023 году + источники для знаний

Простой

9 мин

45K

SQL*Data Mining*Big Data*Учебный процесс в ITData Engineering*

Роадмэп

Roadmap, который поможет вам научиться работать с SQL. Чтобы стать настоящим экспертом в SQL, нужно много практиковаться и изучать различные аспекты языка на протяжении многих лет. Мой Roadmap предлагает отличный старт для начала изучения SQL, поэтому я рекомендую вам приступить к обучению согласно плану.

+11

evpak 21 сен 2022 в 15:01

Без А/B результат XЗ, или Как построить высоконагруженную платформу А/B-тестов

17 мин

19K

Высокая производительность*Анализ и проектирование систем*Тестирование веб-сервисов*Управление продуктом*Блог компании Ozon Tech

Победитель Технотекст 2022

Один из важных вопросов как в нашей жизни, так и в бизнесе, и в IT — вопрос эффективности. Эффективно ли мы планируем наше время, те ли задачи решает бизнес, тот ли код мы оптимизируем? Чтобы ответить на эти вопросы, результат должен обладать главным критерием — измеримостью. Измеримость результата новых фич для бизнеса и IT обеспечивает платформа А/B-тестов. О том, как её можно построить, выдерживать большой RPS и при этом не ~~облажаться~~ уронить прод, я расскажу в этой статье.

В конце статьи вы узнаете, как мы задетектили проблемы инфраструктуры, оптимизация которых значительно повлияла на скорость всего Ozon.

+106

2 3 ...

17 18