Pull to refresh
0
0
Send message

ruMTEB: новый бенчмарк для русскоязычных эмбеддеров

Level of difficultyMedium
Reading time11 min
Views5.8K

Салют, Хабр! На связи команды AGI NLP и нейронных сетей Виртуального ассистента Салют. В SberDevices наши команды занимаются созданием бенчмарков, а также обучением моделей для векторных представлений текстов или эмбеддеров. В этой статье расскажем про наш новый русскоязычный бенчмарк для эмбеддеров текста — ruMTEB.

Читать далее
Total votes 29: ↑27 and ↓2+35
Comments6

Настройся на RAGAS и настрой RAGAS под себя

Level of difficultyHard
Reading time12 min
Views2.4K

Не секрет, что RAG (Retrieval-Augmented Generation) сейчас является распространённой техникой использования Больших Языковых Моделей (LLM) в вопросно-ответных системах. Ну а где есть ML-модели, там есть и оценка качества. О том, как оценивать RAG-модели и автоматизировать этот процесс под свою задачу, вы прочитаете в данной статье.

Читать далее
Total votes 11: ↑11 and ↓0+22
Comments1

Hadoop в любой непонятной ситуации. Как выжить кластеру в большой ML команде

Level of difficultyMedium
Reading time9 min
Views4.5K

Привет, Habr !

Я работаю инженером по машинному обучению в Мегафоне. Занимаюсь аналитикой данных и являюсь частью команды разработки MLOps платформы. Задача нашей команды состоит в том, чтобы выстраивать и оптимизировать процессы разработки и продуктивизации моделей машинного обучения, предоставлять функционал для основных этапов (сбор данных, MQ/DQ, продуктивизация).

Сегодня поговорим о том, какие сложности могут возникать при работе с кластером Hadoop и какие есть методы для их решения.

Видеозапись по мотивам статьи можно посмотреть здесь.

Эта статья будет интересна аналитикам и инженерам, которые работают с BigData и регулярно сталкиваются с необходимостью продуктивизировать модели на Hadoop.

Читать далее
Total votes 4: ↑3 and ↓1+2
Comments0

Все, что вам нужно знать об Airflow DAGs, ч.3 — Проектирование DAG

Reading time9 min
Views15K

Поскольку Airflow — это на 100% код, знание основ Python - это все, что нужно, чтобы начать писать DAG. Однако написание эффективных, безопасных и масштабируемых DAG требует учета некоторых моментов, специфичных для Airflow. В этом разделе мы рассмотрим некоторые передовые методы разработки DAG, которые максимально используют возможности Airflow.

В целом, большинство лучших практик, которые мы здесь рассматриваем, относятся к одной из двух категорий:

Читать далее
Total votes 3: ↑0 and ↓3-3
Comments4

Все, что вам нужно знать об Airflow DAGs, ч.2 — Операторы и Датчики

Reading time15 min
Views32K

Операторы являются основными строительными блоками DAG Airflow. Это классы, которые содержат логику выполнения единичной работы.

Вы можете использовать операторы в Airflow, создав их экземпляры в задачах. Задача определяет работу, выполняемую оператором в контексте DAG.

Чтобы просмотреть и выполнить поиск по всем доступным операторам в Airflow, посетите Astronomer Registry. Ниже приведены примеры операторов, которые часто используются в проектах Airflow.

Читать далее
Total votes 1: ↑1 and ↓0+1
Comments0

Все, что вам нужно знать об Airflow DAGs, ч.1 — Основы и расписания

Reading time20 min
Views81K

Полное руководство по созданию DAG в Apache Airflow DAG, позволяющих создать конвейер данных из разных источников, запускаемый в определенные периоды времени с заданной логикой. Первая часть. Источник: DAGs: The Definitive Guide от astronomer.io

Добро пожаловать в полное руководство по Apache Airflow DAG, представленное командой Astronomer. Эта электронная книга охватывает все, что вам нужно знать для работы с DAG, от строительных блоков, из которых они состоят, до рекомендаций по их написанию, динамической генерации, тестированию, отладке и многому другому. Это руководство, написанное практикующими для практикующих.

Читать далее
Total votes 1: ↑1 and ↓0+1
Comments0

Information

Rating
Does not participate
Registered
Activity