Технологии искусственного интеллекта охватили все сферы бизнеса, от крупных корпораций до ритейла. Согласно прогнозам сервиса маркетинговых исследований Research&Markets, за три года расходы на ИИ в B2C-секторе вырастут до 5 млрд $, а через 15 лет вложения дадут рост прибыли на 60 %. В этой статье расскажем об ИИ-технологиях, которые уже реализованы и показали эффективность. А значит, их можно применять в новых сферах.
Пользователь
Автоматизация управления ML-экспериментами с помощью СI/CD
ML‑эксперименты, по своей природе, полны неопределённости и сюрпризов. Небольшие изменения могут вести к огромным улучшениям, но иногда даже самые хитрые уловки не дают результатов.
В любом случае — успешная работа в сфере машинного обучения держится на систематическом применении итеративного подхода к экспериментам и на исследовании моделей. Именно здесь ML‑специалисты часто сталкиваются с беспорядком. Учитывая то, как много путей они могут избрать, им тяжело бывает удержать в поле зрения то, что они уже попробовали, и то, как это отразилось на эффективности работы моделей. Более того — ML‑эксперименты могут требовать много времени. С ними сопряжён риск пустой траты денег на повторные запуски тех экспериментов, результаты которых уже известны.
С помощью трекера экспериментов, вроде neptune.ai, можно скрупулёзно логировать сведения об экспериментах и сравнивать результаты разных попыток. Это позволяет выяснять то, какие настройки гиперпараметров и наборы данных вносят положительный вклад в эффективность работы моделей.
Но запись метаданных — это лишь половина секрета успешного ML‑моделирования. Нужно ещё иметь возможность проведения экспериментов таким образом, который позволяет быстро получать нужные результаты. Многие команды дата‑сайентистов, в основе рабочих процессов которых лежит система Git, сочли CI/CD‑платформы идеальным решением.
В этой статье мы исследуем вышеописанный подход к управления ML‑экспериментами и поговорим о том, в каких ситуациях его применение оправдано. Мы уделим основное внимание платформе GitHub Actions — системе, интегрированной в GitHub. Но освещённые здесь идеи применимы и к другим CI/CD‑фреймворкам. TL;DR под катом.
Путь к успеху для ИИ-стартапа
Запуск стартапа — это всегда куча вызовов и неопределенностей. В интернете полно советов по бизнесу, но редко кто рассказывает о запуске стартапа глазами CTO. Важно итеративно проверять гипотезы, подстраивая под них технологические решения. Для этого необходима четкая стратегия, о которой вы узнаете в этой статье.
Как мы перенесли архив данных из Teradata в GreenPlum с помощью Hadoop и PXF
Привет, Хабр! Мы продолжаем серию статей о проведённой миграции аналитического хранилища данных с платформы Teradata на GreenPlum. В предыдущей статье мы рассказали о нашем опыте и результатах автоматизированного переписывания SQL-скриптов из диалекта Teradata в диалект GreenPlum с помощью реализованного сервиса миграции кода. В этой статье мы расскажем вам о полученном нами опыте и результатах переноса архива данных объёмом более 400 Тб из Teradata в GreenPlum, а также о трудностях и решениях, связанных с этим процессом.
Синергия маркетинга и продаж в цифровых продуктах
В современном цифровом мире, где потребительские предпочтения меняются с невероятной скоростью, компании сталкиваются с необходимостью переосмысления традиционных подходов к маркетингу и продажам. В условиях высокой конкуренции и возрастающих ожиданий клиентов, одними из ключевых факторов успеха становятся синергия между маркетингом и продажами, а также использование передовых технологий для интеграции и анализа данных. Искусственный интеллект (AI) стал мощным инструментом, который позволяет компаниям собирать и анализировать огромные объемы данных о клиентах, открывая новые возможности для персонализации и таргетинга. Но для того, чтобы в полной мере воспользоваться этими возможностями, необходимо обеспечить тесное взаимодействие между маркетингом и продажами, где обе функции обмениваются данными и стратегиями для достижения общих целей. Такая синергия позволяет компаниям не только эффективно привлекать и удерживать клиентов, но и повышать качество разработки цифровых продуктов.
В этой статье мы рассмотрим, как интеграция клиентских данных, собранных с помощью AI, может способствовать улучшению разработки продуктов и стимулированию роста доходов. Мы обсудим ключевые аспекты успешного взаимодействия маркетинга и продаж, вызовы, которые могут возникнуть на этом пути, и инструменты, которые помогут их преодолеть. Также я поделюсь реальными примерами, показывающими, как эти подходы уже работают на практике, включая мой опыт работы в ChainML, где использование AI сыграло важную роль в создании успешной стратегии взаимодействия маркетинга и продаж.
Быстрая Data Quality проверка на базе алгоритма adversarial validation
Привет, Хабр! Всем привет, меня зовут Максим Шаланкин, я Data Science Team Lead в команде Финтеха Big Data МТС. Из этой статьи вы узнаете, как оценивать качество данных при помощи алгоритма adversarial validation с использованием spark user defined function. В частности, я расскажу, почему такой подход хорошо масштабируется и может быть успешно применен к различным типам данных, становясь универсальным инструментом для встраивания в ваши продуктовые процессы. Все подробности — под катом.
А/В эксперименты. Ускорение вычислений с помощью бакетизации
В данной статье мы рассмотрим, как бакетизация может существенно ускорить вычисления и представим график зависимости отношения времени на расчеты p-value без бакетизации к времени на расчеты с бакетизацией.
Внедрение AI: особенности, сложности, на что обратить внимание
На связи команда «ДатаЛаб» ГК «Автомакон». Создаём рекомендательные системы, антифрод-системы, DWH-платформы и многое другое. Давно на «ты» с искусственным интеллектом, еще до того, как это стало мейнстримом.
Решили поднять волнующую многих специалистов и руководителей компаний тему — что мешает внедрению AI в бизнес-процессы. Рассмотрим вопрос с разных сторон: технических нюансов, сложностей и этики.
Анализ мощности статистических критериев с использованием бакетизации
В данной статье рассматривается влияние бакетизации на мощность статистических критериев в условиях различных распределений данных и при разном объеме выборки. Особое внимание уделено зависимости мощности критерия от количества бакетов и размера выборки. Исследование предоставляет важные выводы для проектирования и анализа A/B тестирования и других форм экспериментальных исследований.
LLM-чатбот в основе консьерж-сервиса
Когда мы с командой брались за создание MVP нашего консьерж-сервиса для букинга отелей, казалось, что это область, в которой давно не осталось нерешенных, и при этом значимых проблем, суть лишь в том, чтобы сделать сам процесс гибче и удобнее. Но на практике, разумеется, все оказалось несколько сложнее.
Использование стандартного набора инструментов в сочетании с новыми коммерческими API открыло перед нами не только новые горизонты, но и обеспечило массу подводных камней, вполне традиционных для такого рода технологических стартапов. О том, как мы с ними справлялись, мы и решили написать эту небольшую статью. Надеемся, что наши уроки помогут вам избежать наших ошибок и ускорить разработку вашего прототипа.
22 метрики для маркетплейса и что с ними делать — американский опыт глазами российского Менеджера продукта
Я Илья Пухов, Старший менеджер продукта в маркетплейсе Детского мира, до этого PM в Авито и основатель маркетплейса Гильдия Квестов. Статья основана на воркшопе по метрикам маркетплейсов CPO Outdoorsy и ветерана индустрии Колина Гардинера (1). Я дополнил материал основываясь на моем профессиональном опыте, и знанях из лекций значимых авторов в этой области. Например Елены Серегиной из Яндекса и Ильи Красинского. Постарался заполнить пробелы и создать полноценное руководство. Кое-где с комментариями из российской практики.
Нужен ли продакт в ML-команде? Мнение изнутри
Пять лет назад из обычного продакт-менеджмента я перешла в команду с дата-сайентистами. И весь процесс моей работы сильно изменился.
Раньше после определения потребностей пользователя я приходила к команде разработки с готовой задачей и дизайн-макетами. А после разработки забирала готовый продукт, чтобы отдать его в A/B-тест.
В ML все работает иначе. Команда включается уже на этапе исследования, погружается в бизнес-цели и техническую постановку задачи. Именно исследования занимают львиную долю времени дата-сайентистов, и только после начинается разработка.
Ну, или не начинается. Или разработка начинается, но совсем не той идеи, которая была вначале.
Я — Саша Пургина, руковожу развитием продуктов на основе данных в Lamoda Tech. В этой статье я расскажу на примере Lamoda, почему разработка ML-продуктов — это сложность и риск. И приведу примеры ошибок, когда хороший продакт в команде может увеличить шансы на успех, имея определенные знания и навыки.
Серебряной пули не ждите, но пара интересных мыслей должна найтись!
10 терминов ИИ, которые все должны знать (по версии мелкомягких)
ИИ безусловно вокруг нас, это ключ к диджитализации мира, Microsoft собрал 10 ключевых терминов ИИ, предлагаю вашему вниманию дословный перевод и инфографику.
Обзор дискуссий о «понимании» большими языковыми моделями (LLM)
Это перевод статьи от 10 февраля 2023 года Melanie Mitchell и David C. Krakauer, в которой разбираются основные аргументы и позиции относительно того, могут ли современные LLM "понимать" в человеческом или каком-либо ином смысле...
Мнения исследователей разделились почти поровну (!), а на какой стороне вы? Примите участие в опросе...
Разговор с директором по ИИ «Яндекс Рекламы» Алексеем Штоколовым о применении ИИ, AI‑тренерах и рутинных задачах
В конце ноября 2023 года информационная служба Хабра сходила на #Reconfa — конференцию «Яндекс Рекламы». Неформат для Хабра, но в этот раз на конференции обсуждалось применение ИИ и нейросетей, поэтому я решил сходить, посмотреть. Об этом есть отдельный материал. Там же мне удалось поймать директора по искусственному интеллекту (ИИ) «Яндекс Рекламы» Алексея Штоколова. Я задал ему несколько вопросов про ИИ и использование его в рекламе. Плавно разговор перетёк в обсуждение профессии AI‑тренера и возможности автоматизации рутинных задач. Приятного чтения!
P2P-коммуникации, свой программатик и Big Data: что мобильный оператор может противопоставить кризису на рынке рекламы
Рекламный рынок прямо сейчас испытывает довольно тяжёлые времена, что заставляет его перестраиваться. Где-то выключили таргетинг по группам пользователей, где-то рекламу и монетизацию вообще, какие-то сервисы просто нельзя оплатить. И трансформация уже началась — мы в билайне вместе с группой ОТМ тщательно следим за процессом, и в этом посте хотим рассказать, как механики стали перераспределяться в рекламном сплите, а также о возможностях отечественной программатик-платформы ОТМ
Рекламодатели начали активно искать новые инструменты и смещать свой фокус на те механики, которые раньше в целом и так использовали, но сильно меньше по сравнению с привычными форматами. Решения, базирующиеся на использовании больших данных, могут помочь компаниям расширить своё присутствие на рынке, донести информацию до целевых пользователей и собрать необходимые аудиторные сегменты.
А Big Data-механики можно использовать в тесной связке с программатик-рекламой и другими инструментами. Именно в этом направлении билайн и взаимодействует с ОТМ.
Краткий обзор техник векторизации в NLP
Как переводчик-редактор, я интересуюсь темой NLP и автоматизации рутины бюро переводов. Изучая вопрос того, как смысл слов превращается в векторы, наткнулся на эту обзорную статью. Статья мне показалась изложенной доступно, поэтому я перевел ее для удобства других коллег. Работоспособность большей части кода проверял, вроде работает (см. Jupiter Notebook). Надеюсь, будет полезно.
===
Технологии NLP — Natural Language Processing, обработки естественного языка — позволяют компьютерам обрабатывать человеческий язык, понимать его значение и контекст, а также связанные с ним эмоциональную окраску и намерения, и далее, использовать эти данные для создания чего-то нового.
Как сделать слова понятными для компьютеров? Используется векторизация. Рассмотрим несколько техник такой векторизации.
Анализируем 15 млн чеков за 3 секунды: как мы прошли путь от калькулятора акций до CDP-платформы
Рассказываем историю о том, как калькулятор скидок в составе кассового ПО стал CDP-платформой с аналитическим модулем, управляемым с минимальным участием разработчиков.
Продуктовые команды: строим правильно
Привет, Хабр!
Мы хотим поделиться подходом к формированию успешной продуктовой команды. В построении и развитии продуктовой команды есть свои законы, о которых можно почитать здесь. Но знание теорем бесполезно без навыков их применения в реальном мире. Поэтому сфокусируемся на практических кейсах.
Наш опыт показывает, что равными факторами являются укомплектованность команды как в функциональном плане, так и с точки зрения интеллектуальных и социальных качеств. Статья будет полезна тем, кто занимается построением или оптимизацией работы кросс-функциональных команд.
Разработка IT-решений
В компаниях встречаются два подхода к организации команд разработки: функциональные команды и кросс-функциональные команды.
В первом случае предполагается, что образуются команды с одинаковым набором экспертиз: команда backend-разработчиков, команда frontend-разработчиков, команда data science и т. д. Во втором случае команды формируются из людей с различными компетенциями для достижения некоторой бизнес-цели. Бизнес-целью может являться как создание и развитие продукта, так и выполнение определенного проекта.
Легенды гласят, что кросс-функциональные команды появились в далеких 1950-х годах.
«Kubernetes как часть data platform»
Привет, Хабр! Меня зовут Денис, в компании oneFactor я занимаю позицию архитектора, и одна из моих обязанностей — это развитие технического стека компании. В этой статье я расскажу про нашу data platform’у (далее просто DP или платформа) и про мотивацию внедрения в неё Kubernetes. Также подсвечу трудности, с которыми мы столкнулись в рамках пилота. И расскажу про набор активностей, которые не вошли в пилот, но будут выполнены во время миграции. Дополнительно представлю короткий обзор текущей интеграции между Spark и Kubernetes. Стоит отметить, что вопросы, связанные с хранилищем, здесь обсуждаться не будут.
Информация
- В рейтинге
- Не участвует
- Зарегистрирован
- Активность