Статьи / Закладки / Профиль Eth_Moses / Хабр

Как стать автором

Игорь Моисеев @Eth_Moses

Experimentation Analysis Team Lead, Ozon Tech

Профиль Публикации 2Комментарии 9Закладки 145

Matyashevskaya 15 фев в 14:44

Как выжать максимум из Confluence. Глава вторая

Простой

6 мин

12K

Блог компании T-BankAtlassian*Подготовка технической документации*

Туториал

Привет, Хабр! На связи ведущий аналитик Ульяна. В первой главе я рассказала, что такое Confluence, зачем его используют и как работать с макросами.

Во второй главе поговорим про шаблоны и метки, которые помогут организовать процессные и проектные рутины, например ведение MN, RFC и другое интересное.

Читать далее

+11

robertd 22 фев в 16:24

Нелинейные корреляции. Моя любимая статистическая мера: D Хёфдинга

Средний

25 мин

5.4K

Data Mining*Статистика в IT

Мнение

Перевод

Предположим, у вас есть две последовательности чисел, которые вы хотите сравнить, чтобы измерить, насколько они связаны или зависимы друг от друга. Это действительно довольно общий сеттинг: две последовательности могут представлять временные ряды, так что у вас есть таблица с тремя столбцами и кучей строк. Первый столбец будет временем (скажем, с часовыми интервалами), а затем по одному столбцу для каждой последовательности; первый, например, может быть средней ценой акции за этот интервал, а второй - объемом торгуемых акций за этот интервал. Или вы могли бы сравнить процентное изменение цены одной акции по сравнению с другой. Конечно, это вовсе не обязательно должны быть временные ряды: у вас также может быть всего два столбца (то есть вообще без столбца времени). Первый может быть ростом американца старше 30 лет в дюймах, а второй — весом того же человека в фунтах. Или, чтобы использовать более актуальный пример, каждый столбец может представлять вектор эмбеддингов некоторых предложений на английском языке от определенной модели LLM. Первый столбец может быть вектором от модели Mixtral 8x7B для строки "I love my 3 sons" (Я люблю моих трех сыновей), а другой — от той же модели для строки "I cherish my 5 daughters" (Я дорожу моими пятью дочерьми).

В каждом из этих случаев у нас есть две последовательности данных, которые мы хотим сравнить. Проблема заключается в том, что в самой общей ситуации мы не имеем ни малейшего представления о том, какова может быть природа связи, или даже есть ли связь, о которой стоит говорить. Что, если две последовательности полностью независимы, как записи бросков двух разных честных кубиков? Что, если данные немного искажены и содержат некоторые экстремальные выбросы, которые искажают наиболее общие виды мер, на которые вы могли бы захотеть посмотреть, такие как среднее значение и дисперсия каждого столбца отдельно? Вы могли бы подумать сейчас: «Погодите, разве ответ на это — просто посмотреть на корреляцию?» И это действительно хорошая идея для проверки, поскольку это наиболее часто используемая мера ассоциации между двумя наборами данных.

Читать далее

+14

ivantipow 7 фев в 09:59

Два сапога — пара, а три — уже community: как алгоритмы на графах помогают собирать группы товаров

14 мин

22K

Data Mining*Алгоритмы*Big Data*Машинное обучение*Блог компании Ozon Tech

Кейс

✏️ Технотекст 2023

Привет, Хабр! Меня зовут Иван Антипов, я занимаюсь ML в команде матчинга Ozon. Наша команда разрабатывает алгоритмы поиска одинаковых товаров на сайте. Это позволяет покупателям находить более выгодные предложения, экономя время и деньги.

В этой статье мы обсудим кластеризацию на графах, задачу выделения сообществ, распад карате-клуба, self-supervised и unsupervised задачи — и как всё это связано с матчингом.

Читать далее

+127

randall 18 янв в 18:37

Прокачиваем навыки в сфере ML — что изучать в 2024-м

Простой

6 мин

15K

Блог компании MWSПрофессиональная литература*Машинное обучение*Блог компании МТСИскусственный интеллект

Обзор

Бизнесу нужны технологии, способные обрабатывать огромные объемы данных, предоставлять релевантные рекомендации, оценивать финансовую надежность клиентов и обеспечивать эффективный поиск информации. Ключевым элементом для автоматизации рутинных задач и создании бизнес-решений на основе данных становится ML.

Ритейл, банки, технологические предприятия, компании-разработчики и все те, кто собирает большие массивы неструктурированных данных, для запуска сложных моделей могут использовать вычислительные ресурсы облака. Например, строить нейросети с помощью ML-платформы или использовать объектное хранилище для обработки Big Data.

Но чтобы грамотно использовать инструменты для работы с AI- и ML-задачами, нужно приобрести необходимо знания и навыки. Поможет разобраться в машинном обучении и инструментах для работы с ML-моделями подборка новых и высокооцененных специализированных курсов, книг и других тематических материалов.

Читать далее

+17

ph_piter 17 янв в 17:57

Книга «System Design. Машинное обучение. Подготовка к сложному интервью»

10 мин

11K

Алгоритмы*Блог компании Издательский дом «Питер»Профессиональная литература*Машинное обучение*Интервью

Привет, Хаброжители!

Собеседования по проектированию систем машинного обучения — самые сложные. Если нужно подготовиться к такому, книга создана специально для вас.

Также она поможет всем, кто интересуется проектированием систем МО, будь то новички или опытные инженеры.

Что внутри?

О чем на самом деле спрашивают на собеседовании по System Design в МО и почему (инсайдерская информация!).
7 основных шагов для решения любой задачи МО, предлагаемой на собеседовании.
10 вопросов из реальных собеседований по System Design в МО с подробным разбором ответов.
211 диаграмм, которые наглядно объясняют, как работают различные системы.

Читать дальше →

+17

kashokhin 14 янв в 14:31

Mamba. От начала до конца

Средний

5 мин

24K

Машинное обучение*Искусственный интеллект

FAQ

Из песочницы

Во времена повсеместного заполонения трансформерами, которые пожирали в себя все больше и больше кремниевых чипов; когда казалось, что лучше уже не будет и за каждый новый токен нужно платить в квадрате от предыдущих, в эту холодную зимнюю пору появилась она - Мамба.

Читать далее

+27

hipnosis 20 дек 2023 в 19:09

Как прогнозировать время выполнения задач

Сложный

20 мин

35K

Блог компании T-BankУправление проектами*Исследования и прогнозы в IT*

Аналитика

Лучший Техноавтор 2023

Привет! Меня зовут Павел Ахметчанов, я руководитель направления улучшения процессов разработки. В статье расскажу про часто используемые методики оценок задач и есть ли в них ошибки. Посмотрим, как правильно ставить вопросы при оценке. Узнаем, что собой представляет время решения задач, а это далеко не очевидная вещь. Попробуем изменить свое мышление и получим рецепт для определения времени решения задач.

Если спросить любого начинающего исследователя этой темы «А зачем нам оценка?», он скажет, что постоянно задают вопрос «Когда вы выполните эту задачу?», на который и надо ответить с помощью этой оценки. А что, если сам вопрос задан неверно?

Читать далее

+66

stalkermustang 18 дек 2023 в 17:28

GPT-like модель «впервые сделала научное открытие»: что, как, и куда дальше?

Средний

21 мин

99K

Математика*Блог компании Open Data ScienceИскусственный интеллектБудущее здесьNatural Language Processing*

Обзор

14го декабря в одном из самых авторитетных общенаучных журналов Nature была опубликована статья с, кажется, сенсационным заголовком: «ИИ-модели Google DeepMind превосходят математиков в решении нерешённых проблем». А в блогпосте дочки гугла и вовсе не постеснялся указать, что это — первые находки Больших Языковых Моделей (LLM) в открытых математических проблемах. Неужели правда? Или кликбейт — и это в Nature? А может мы и вправду достигли техносингулярности, где машины двигают прогресс? Что ж, давайте во всём разбираться!

Ну давай разберёмся →

+174

maratyv 16 дек 2023 в 21:24

АБ тесты и подводные камни при их автоматизации

Средний

14 мин

7K

Python*Big Data*Аналитика мобильных приложений*Статистика в IT

Из песочницы

Задача оценки нововведений в онлайн и мобильных приложениях возникает повсеместно. Один из наиболее надёжных и популярных способов решения этой задачи - двойной слепой рандомизированный эксперимент, также известный как АБ-тест.

На тему АБ-тестирования доступны как статьи на Хабре, так и целые книги (неполный список литературы в конце). В основе АБ-теста лежит следующая идея - случайно разделить пользователей на две или более группы, в одной из которых исследуемая функциональность выключена, а в других - включена. Затем можно сравнить метрики и сделать выводы.

Читать далее

+8

SharplEr 30 ноя 2023 в 17:54

Производительность базового поиска в Ozon как культурный феномен

Средний

22 мин

23K

Высокая производительность*Поисковые технологии*Программирование*Java*Блог компании Ozon Tech

✏️ Технотекст 2023

В этой статье я расскажу вам о том, как мы в Ozon оптимизируем базовый поиск: как у нас выстроены процессы, как найти бутылочное горлышко, конкретные рекомендации по написанию горячего кода, реальные примеры значимых оптимизаций и что делать, когда все низко висящие фрукты уже сорваны, а хочется ещё.

Читать далее

+71

Spiralhead 5 дек 2023 в 10:01

Как мы научили заводчан строить красивые инженерные отчеты из Jupyter Notebook на Python

14 мин

29K

Python*Программирование*Визуализация данных*Блог компании ГК ЛАНИТПодготовка технической документации*

Была у нас тут история, когда легкий перфекционизм помог привести в порядок конструкторскую документацию и регулярно экономить инженерам кучу дней на прохождение бюрократических процедур. В ее основе – создание системы управления расчетными данными и переход от трудночитаемых и трудноинтегрируемых отчетов Mathcad к гибкой связке Jupyter Notebook с Python и Teamcenter. Но основной рассказ будет про то, как преобразовывать и экспортировать математические формулы, таблицы и другие элементы из Jupyter в красивый и удобный вид.

Читать далее

+96

alex_golubev13 4 дек 2023 в 09:51

Кто такие LLM-агенты и что они умеют?

Средний

24 мин

27K

Машинное обучение*Блог компании Open Data ScienceИскусственный интеллект

Обзор

В последнее время большие языковые модели (Large Language Models, LLM) стали невероятно популярными — кажется, их обсуждают везде, от школьных коридоров до Сената США. Сфера LLM растёт бурными темпами, привлекая внимание не только специалистов в области машинного обучения, но и обычных пользователей. Кто-то высказывает массу опасений насчет их дальнейшего развития, а кто-то и вовсе предлагает бомбить дата-центры — и даже в Белом Доме обсуждают будущее моделей. Но неужели текстом можно кому-то навредить? А что если такая модель приобрела бы агентность, смогла создать себе физическую оболочку и полностью ей управлять? Ну, это какая-то фантастика из (не)далёкого будущего, а про агентов нашего времени я расскажу в этой статье. И не переживайте — знание машинного обучения вам не понадобится!

Читать далее

+23

Shannon 28 ноя 2023 в 12:14

Локальные нейросети. Аналог ChatGPT-3.5 на домашнем ПК: OpenChat 7B превосходящая 70B, DeepSeek для кода уровня ChatGPT

8 мин

83K

Машинное обучение*Искусственный интеллект

Есть много локальных аналогов ChatGPT, но им не хватает качества, даже 65B модели не могут конкурировать хотя бы с ChatGPT-3.5. И здесь я хочу рассказать про 2 открытые модели, которые всё-таки могут составить такую конкуренцию.

Речь пойдет о OpenChat 7B и DeepSeek Coder. Обе модели за счет размера быстры, можно запускать на CPU, можно запускать локально, можно частично ускорять на GPU (перенося часть слоев на GPU, на сколько хватит видеопамяти) и для такого типа моделей есть графический удобный интерфейс.

И бонусом затронем новую модель для качественного подробного описания фото.

UPD: Добавлена информация для запуска на Windows с ускорением на AMD.

Читать далее

+103

napit_ok 20 ноя 2023 в 13:41

Clickhouse, Grafana и 3000 графиков. Как построить систему быстрых дашбордов

17 мин

30K

Высокая производительность*Анализ и проектирование систем*Визуализация данных*Хранение данных*Блог компании Ozon Tech

Туториал

Лучший Техноавтор 2023

Меня зовут Валя Борисов, и я — аналитик в команде Ozon. Задача нашей команды — создавать инструменты для мониторинга и анализа скорости.

Наши усилия направлены на то, чтобы в реальном времени следить за тем, как быстро работают наши сервисы и платформа. Благодаря инструментам, которые мы создаём и поддерживаем, команды разработки получают представление о том, как пользователи видят работу нашего сайта или приложения. Мы помогаем выявлять причины деградации скорости и определять узкие места в инфраструктуре.

Наши дашборды играют ключевую роль в предоставлении информации о скорости работы платформы. Вместе с командой аналитиков я занимаюсь созданием и поддержкой этой системы в Grafana. Мы стремимся делать ее не только информативной, но и быстрой, стабильной и удобной для всех пользователей. В этой статье я хочу поделиться методами и приемами, к которым мы пришли в процессе работы.

Читать далее

+41

Sber 3 ноя 2023 в 14:56

Разработка рекомендательных систем: три открытых библиотеки от Сбера

Простой

4 мин

4.2K

Open source*Алгоритмы*Блог компании СберМашинное обучение*

Обзор

Делимся своими открытыми библиотеками для разработки рекомендательных систем. Что? Да! Рассказываем подробнее. Всем известно, что Сбер это уже не просто банк, а огромная технологическая компания, которая включает в себя и сервисы компаний-партнёров: электронную коммерцию, индустрию развлечений и даже медицину. Количество пользователей достигло 108 млн, и для каждого из них мы создаём персональные рекомендации, которые помогают не потеряться в разнообразии предложений и выбрать лучшее.

Читать далее

+9

mvideo 3 ноя 2023 в 19:00

Прогнозирование временных рядов с помощью библиотеки Skforecast

Средний

7 мин

7.1K

Python*Анализ и проектирование систем*Читальный залБлог компании М.Видео-ЭльдорадоData Engineering*

Кейс

В открытом доступе существует огромное число библиотек для построения моделей машинного обучения в Python. Самые популярные — scikit-learn, XGBoost, LightGBM, Catboost, PyTorch. Каждая из них позволяет построить регрессионную модель для прогнозирования на временных рядах, но для этого требуется преобразование данных и создание новых фичей (feature engineering).

Кроме того, временные ряды требуют своих подходов в оценивании моделей машинного обучения, так как стандартная кросс-валидация не подходит для временных данных. В этой статье мы (я + я) рассмотрим нюансы прогнозирования на практике и с помощью библиотеки skforecast.

Читать дальше →

+20

totsamymatveev 31 окт 2023 в 12:24

Когда одной ARIMA мало. Прогнозирование временных рядов нейросетями

Средний

12 мин

9.2K

Python*Блог компании МегаФонBig Data*Машинное обучение*Искусственный интеллект

Туториал

Привет, Хабр! Меня зовут Никита, я работаю в Мегафоне аналитиком больших данных. В этой статье я хочу поговорить про временные ряды, а если конкретнее, про использование нейросетей для их прогнозирования.

В статье мы не только разберем две актуальные архитектуры для прогнозирования, но и применим их на реальных данных. В дополнение к статье вас ждет код, с помощью которого вы легко сможете запустить сетки и применить их для решения своих задач!

Читать далее

+7

p_a_arty 20 окт 2023 в 12:50

Приглашаем на Ozon Tech Community ML&DS Meetup

2 мин

1.1K

Машинное обучение*КонференцииБлог компании Ozon TechData Engineering*

Всем привет, меня зовут Артём, я руководитель команды «Эффективность рекламы». Мы пока не предлагаем генеративные модели для пользователей, но мы делаем другие крутые вещи, связанные с ML&DS. И хотим о них рассказать.

Приглашаю на Ozon Tech Community ML&DS Meetup, где вас ждут сразу 4 темы от экспертов блока по продукту и технологиям «Поиск, Рекомендации и Реклама». На встрече мы рассмотрим, что такое поисковые подсказки в Ozon, как были внедрены нейросети в рекомендации, зачем нужен автобиддер в рекламе и как он влияет на эффективность, а также поговорим про ML-инфраструктуру и её отдельных компонентах.

Читать далее

+7

XHuviX 24 мар 2022 в 12:16

Что лучше: Spark Structured Streaming или полное прекращение работы прода?

9 мин

9.2K

Python*Big Data*Машинное обучение*Блог компании Ozon TechData Engineering*

Туториал

Правильное построение ETL-процессов (преобразования данных) — сложная задача, а при большом объёме обрабатываемых данных неизбежно возникают проблемы с ресурсами. Поэтому нам требуется выискивать новые архитектурные решения, способные обеспечить стабильность расчётов и доступность данных, а при необходимости и масштабируемость — с минимальными усилиями.

Когда я пришел в Ozon, мне пришлось столкнуться с огромным количеством ETL-джоб. Прежде чем применить модель машинного обучения, сырые данные проходят множество этапов обработки. А само применение модели (то, ради чего существует команда) занимает всего 5% времени.

Читать далее

+14

p_a_arty 20 окт 2023 в 13:02

Как мы запустили автобиддер для управления рекламными кампаниями в Ozon?

Средний

13 мин

4.9K

Поисковые технологии*Анализ и проектирование систем*Математика*Машинное обучение*Блог компании Ozon Tech

Кейс

Привет! Меня зовут Артём, я руковожу командой эффективности рекламы в Ozon. Наша задача состоит не только в том, чтобы реклама приносила деньги компании, заказы рекламодателям и была релевантной для пользователей, но и в том, чтобы сделать запуск рекламных кампаний удобным и эффективным для рекламодателей.

В статье я расскажу о том:

• как мы пришли к идее автоматического управления ставками в рекламных кампаниях на платформе;

• какие алгоритмы оптимизации и машинного обучения нам помогли;

• как построена архитектура автобиддера;

• как выкатить новый продукт в прод и измерять эффективность.

Читать далее

+36

2

3 4 ...