Управляемые сервисы на базе YTsaurus и Apache Spark, новые возможности DataLens и Yandex Cloud AI Studio — о чём говорили на Data&ML2Business
Собрали самые интересные анонсы с Data&ML2Business, ежегодной конференции Yandex Cloud о практическом применении технологий. Вот что прозвучало на главном докладе 28 мая.
Трек Data
Ранний доступ к Yandex Managed Service for YTsaurus. Платформа Яндекса для хранения и обработки больших данных YTsaurus уже два года в опенсорсе, а с этого дня доступ к ней открывается ещё в двух форматах: в облаке и в инфраструктуре заказчика (on‑premise).

Для тестирования работы в этих форматах необходимо подать заявку.
Доступ к сервису Yandex Managed Service for Spark. Новый управляемый сервис на базе опенсорс-решения поможет с загрузкой и обработкой данных, а также задачами машинного обучения в облаке. Протестировать его в режиме Preview можно здесь.
Кроме этого, в публичный доступ вышел сервис управления распределённым аналитическим массивно‑параллельным движком обработки больших данных Trino в облачной инфраструктуре.
Обновления Yandex DataLens. Что появилось в сервисе BI‑аналитики:
DataLens Gallery — публичная витрина готовых примеров дашбордов. Теперь любой пользователь может открыть галерею, выбрать нужную отрасль или предметную область и изучить готовые дашборды и модели данных, а также стать автором галереи. При согласии автора дашборд из галереи можно развернуть у себя в качестве примера или стартового дашборда.
DataLens Editor — редактор для кастомизации графиков и таблиц с помощью JavaScript. Пользователи смогут создавать продвинутые визуализации и удобно интегрировать данные из нескольких источников (включая внешние API).
Собственная программа сертификации Yandex DataLens Certified Analyst. С её помощью специалисты могут официально подтвердить свои навыки работы с DataLens. На экзамене проверяются знания и навыки работы с чартами и датасетами, вычисляемыми полями и параметрами, внешними источниками данных, построения дашбордов и выдачи доступов.
Также на конференции рассказали про OLAP-движок для YDB. Теперь СУБД подходит для самых высоконагруженных сценариев. В последней версии YDB появился неточный векторный поиск, позволяющий использовать YDB для специализированных задач, связанных с ИИ.
Трек ML
Обновления RAG‑пайплайна в AI Assistant API. Доступный на платформе Yandex Cloud AI Studio инструмент для создания умных ассистентов дополнился новым графическим UI — теперь создать виртуального помощника можно не только через API или SDK. Возможности поиска данных по базам знаний также расширились: доступны поддержка новых типов данных (таблицы и pdf‑файлы), дообучение эмбедингов, обогащение чанков метаданными, получение метаданных ответа, а также использование дообученной модели. Также на платформе появился рефразер — отдельная модель, которая может перефразировать запросы пользователя.
Доступ к Yandex Cloud AI Studio on‑premise. AI‑платформа Yandex Cloud внесена в реестр отечественного ПО, что позволяет интегрировать решения как в облаке, так и в своей инфраструктуре.
Эксперты обсудили и уже состоявшиеся запуски:
Инструменты работы с OpenAI Compatible API в облаке. API для языковых моделей в Yandex Cloud AI Studio совместим с OpenAI API. Благодаря этому модели YandexGPT проще интегрировать с популярными решениями для работы с ML, например, AutoGPT или LangChain. В совместимом с OpenAI API поддерживаются Function Calling, работа с эмбеддингами и Structured Output.
Смысловые теги Yandex SpeechSense — инструмент умного тегирования и поиска для анализа диалогов в колл‑центрах, доступный отдельно по клиенту и оператору.
Доступ к VLM и LLM в режиме Batch Processing и co‑pilot сервис для операторов Yandex Neurosupport — о которых мы рассказывали на Хабре.
На конференции более 20 спикеров представили 15 докладов по направлениям Data и ML. Подключайтесь к трансляции на странице мероприятия или смотрите в записи, чтобы познакомиться с опытом внедрения технологий.