В целом развитие науки о данных у нас в стране идёт в рамках общемировых трендов. Конечно, здесь можно найти свою специфику. Например, мы живём в условиях некоторого дефицита вычислительных мощностей. Пока поставки в Россию и Китай наиболее продвинутых GPU запрещены. Поэтому для строительства мощных тензорных кластеров нужна особая внешнеэкономическая магия. С другой стороны, у нас в «активе» советская математическая школа, развитая ИТ-индустрия и современная экосистема с информационно-технологической инфраструктурой. А это подразумевает развитую культуру ИТ-разработки, наличие профильных кадров, больших и хорошо структурированных массивов данных.
Вместо тысячи слов: как картинки помогают в текстовом Поиске?
Всем привет! Меня зовут Дима. Я работаю в Поиске Okko и в этой статье хочу рассказать, насколько картиночные модели полезны для задачи Поиска и для чего мы используем их в наших пайплайнах.
Данный материал может быть полезен тем, кто только начинает разрабатывать аналогичные системы, и, возможно, сомневается в полезности кроссмодальных факторов в текстовом поиске.
Garak: инструмент Red-Team для поиска уязвимостей в LLM
«ChatGPT раскрывает личные данные реальных людей!», «Атака на ChatGPT по сторонним каналам!», «Чат-бот ChatGPT стал причиной утечки секретных данных!», «Хакеры стали использовать ChatGPT в схемах фишинга!». — Эти новостные заголовки раскрывают нам тёмную сторону больших языковых моделей. Да, они генерируют за нас контент и анализируют данные, но помимо удобства, приносят новые виды атак и уязвимостей, с которыми надо уметь бороться.
Меня зовут Никита Беляевский, я исследую аспекты безопасности LLM решений в лаборатории AI Security в Raft и хочу поделиться нюансами настройки и использования инструмента для выявления угроз в системах на основе LLM.
Mojo: убийца Python и будущее Ai?
Всем привет! Меня зовут Вадим, я Data Scientist в компании Raft, и сегодня мы погрузимся в Mojo. Я уже делал обзор данного языка программирования и рассмотрел его преимущества, примеры использования, а также провел сравнение с Python.
Теперь давайте посмотрим, как обучить простую сверточную нейронную сеть, и разберём один из методов машинного обучения — линейную регрессию. В качестве примеров задач возьмем стандартные соревнования машинного обучения: предсказание стоимости жилья и классификацию рукописных цифр MNIST. Для проведения экспериментов на Python используем фреймворк машинного обучения PyTorch. А на Mojo — фреймворк машинного обучения Basalt.
Безопасность для небезопасников
Анастасия Важинская — инженер по информационной безопасности, а не фронтендер, но её доклад стал самым важным для главного зала конференции FrontendConf 2024. Почему так и как меняется фронтенд-разработка и программа конференции? Что драйвит докладчиков в этом году? И какие боли терзают? Поговорим с докладчицей и узнаем всё из первых рук.
Replit Agent создает программы за вас или кодинг без IDE
Многие слышали про AutoGPT и GPT Engineer — агентные системы, которые позволяют генерировать код по промпту от пользователя. Меня зовут Евгений Кокуйкин. Я руководитель AI продуктов компании Raft. Сегодня расскажу про Replit Agent — AI Copilot для написания кода без знаний в программировании. Без шуток! Раньше у меня на такие прототипы уходили часы кодинга и отладки. А сейчас я сгенерировал код приложения через агент — быстрее, чем писал эту статью. Так что теперь можно участвовать в хакатоне, не зная Python.
Replit — это онлайн-IDE, где с помощью AI можно быстро создать прототип приложения и задеплоить его прямо в облаке. Недавно вышла экспериментальная фича Replit Agent, которая стоит 25 баксов. Правда, для оплаты потребуется зарубежная карта, но это уже каждый сам решает, стоит заморачиваться или нет. Эта фича позволяет начать генерацию проекта одним промптом. Я так вдохновился постом Степана Гершуни, что тестировал кодинг-агента в Replit, а потом не спал всю ночь, записывая впечатления. Так появился этот обзор.
Как делать бизнес в Open Source
Интервью Эмели Драль — кофаундера и технического директора Evidently AI. У её open source библиотеки для оценки, тестирования и мониторинга качества данных и моделей машинного обучения уже более 22 миллионов скачиваний. Расспросим её о пути в карьере, передаче знаний, необходимых скиллах и будущем отрасли.
Рецепт идеальной разметки в Computer Vision
За два года команда RnD CV из SberDevices выложила в открытый доступ три датасета для задач компьютерного зрения: HaGRID, EasyPortrait и Slovo. Чтобы достичь максимальной точности обработки данных, полученных с краудсорсинговых платформ, мы применили методы агрегации, которые позже объединили в фреймворк.
Привет, Хабр! На связи Карина Кванчиани и Александр Капитанов из SberDevices. В этой статье мы расскажем о фреймворке агрегации разметки данных, который использует наша команда и коллеги из других подразделений. AggregateMe помогает привести несколько разметок к одной и повысить её качество в случае, если исполнители где-то ошиблись. Скоро фреймворк появится в открытом доступе, а здесь расскажем, как он работает.
Как небольшой команде переехать на ClickHouse: на какие грабли мы наступили и о каких фишках не знали
Привет, Хабр!
Меня зовут Петр. Я работаю инженером по данным в Okko и обожаю ClickHouse.
Примерно в середине прошлого года мы начали переезжать с PostgreSQL на ClickHouse. Одной из главных причин переезда была низкая производительность: среднее время аналитического запроса составляло около минуты. Сейчас, после переезда, среднее время запроса в аналитическом кластере — около 2 с. И это не предел.
Я расскажу, как мы пришли к текущему состоянию хранилища данных, какие ошибки совершили, какие шишки набили, и о каких фишках кликхауса предпочли бы знать заранее.
Статья в основном для тех, кто только начинает свой путь работы с кликхаусом: мы посмотрим, как делать не надо, и как можно сделать лучше.
В этой статье не будет объяснений почему для переезда мы выбрали именно этот инструмент. Не будет и глубокой теории о его внутреннем устройстве. Отметим лишь: в правильных руках ClickHouse — одна из самых быстрых колоночных СУБД для OLAP запросов.
Новый подход для классификации текста в чат-ботах
Всё чаще в реализации проектов встречается потребность в классификации входящего текста для дальнейшей обработки. До недавнего бума нейросетей задачи по классификации текста были достаточно трудоемкими, дорогостоящими и требовали глубоких знаний NLP. А готовые решения не давали желаемой точности ответов. К счастью, сейчас практически моментально можно внедрить множество решений. Представьте, автодилер ежедневно получает сотни сообщений от клиентов. Как быстро и точно определить, что хочет клиент? С помощью классификации текста.
Как организовать процесс А/В тестирования на коленке
Привет, Хабр!
Меня зовут Максим Шевченко и последние два года я занимаюсь развитием платформы экспериментов в Okko, одном из ведущих онлайн-кинотеатров в России. Наша команда разрабатывает инструменты, которые позволяют продуктовым командам самостоятельно проводить А/В тесты и анализировать их результаты. Мы отвечаем за весь цикл экспериментов – от помощи в дизайне и выдаче пользователям разного опыта до предоставления рекомендаций по принятию решений.
Когда речь заходит об А/В-тестах, первыми в голову приходят статистические методы: различные параметрические или непараметрические критерии и многое другое. Но если взглянуть шире, становится понятно, что статистика – лишь часть экспериментов. Довольно важная часть, но не единственная. В контролируемых онлайн-экспериментах также важны сплитование трафика, удобное управление изменениями пользовательского опыта, обработка данных, дашборды, система мониторинга и многое другое.
В этой статье я поделюсь опытом и результатами организации процесса экспериментов в компании, где нет собственной платформы для экспериментов или она только начинает развиваться. Если в вашей компании есть собственная платформа экспериментов и вы собаку съели на A/B-тестах, я вряд ли смогу вас удивить. Всех остальных интересующихся темой милости прошу под кат.
Ускорение и облегчение моделей для поддержания диалога виртуальных ассистентов Салют
Привет, Хабр! Меня зовут Александр Абрамов и я ML Lead продукта в SberDevices. Эта статья — про обучение core-моделей retrieval-based диалоговых систем, поговорим про хинты для ускорения обучения и сходимости, также затрону тему общей схемы inference и оптимизации её компонентов. Речь пойдёт о ML с позиции пайплайнов и продакшена виртуального ассистента Салют.
Первыми смотрите лучшие доклады TechLead Conf 2024 в Санкт-Петербурге
Делимся лучшими по мнению зрителей докладами с TechLead Conf 2024 в Санкт-Петербурге, прошедшему в рамках TeamLead Conf++ 2024. Насколько это объективно, решайте сами. Премьера!
Как придумать, приготовить и решиться на публичное выступление
Если вы хотите сделать публичное выступление на конференции, но все никак не решаетесь или не знаете как — я вам помогу. Я расскажу, как выбрать тему, как подготовить доклад и выглядеть уверенным перед аудиторией. Если материал окажется для вас полезным, у меня есть канал в Telegram — подпишитесь.
Я, кстати, до сих пор нервничаю, когда выхожу на сцену. Пять минут до любого выступления — одни из худших в моей жизни. Пересыхает в горле, текст напрочь вылетает из головы, а в голову приходит мысль, зачем оно мне все надо? Чем ближе момент выхода на сцену, тем больше я прихожу к выводу, что ненавижу публичные выступления.
А потом я заставляю себя шагнуть на сцену и говорю заученное “всем привет, меня зовут Олег Федоткин”. Примерно после этих слов я попадаю в поток и прихожу в себя только после фразы “спасибо за внимание, буду рад ответить на ваши вопросы”.
Пять минут после выступления — одни из лучших в моей жизни. Легкая эйфория, живые эмоции от реакции публики и вопросов. Я обожаю публичные выступления.
Но когда я предлагаю выступать своим сотрудникам или знакомым, в девяти из десяти случаев коллеги отказываются. Причин для отказа две:
Инженерия устойчивости — основной инструмент выживания вашей организации
Привет! Меня зовут Сергей Реусин и последние пять лет я занимаюсь эксплуатацией production-систем с непрерывной практикой инцидент-менеджмента. Каждый день, сталкиваясь с аномалиями и проблемами, невольно спрашиваешь себя: «Почему это происходит? А главное — как с этим дальше жить?». Три нелегких года работы в Купере ( ex СберМаркет), где мне доверили строить культуру инцидент-менеджмента, помогли мне утвердиться во мнении и подходах, которые действительно помогают справляться с подобными вызовами. О них и поговорим!
Чтобы сложить цельную картину о создании устойчивых систем и организации, мы пройдем по шагам:
1. Определим, ради чего вся эта «доступность» и «стабильность» нужна
2. Попробуем устаканить терминологию, чтобы говорить на одном языке
3. Посмотрим на понятие системы с позиции устойчивости
4. Обратимся к историческому опыту
5. Изучим возможные паттерны отказов систем и способы их митигации
6. Визуализируем модель восприятия аномалий
7. Познакомимся с ключевыми личностями в подходах Resilience Engineering
История оптимизации Python сервиса: пара простых системных улучшений
Привет, Хабр! В двух предыдущих статьях здесь и тут мы рассказывали историю создания одного из компонентов платформы экспериментов в компании Okko — сервиса сплитования трафика. В тех статьях говорилось о множестве изменений и улучшений, которые претерпел Python-код, чтобы работать достаточно быстро. Но как бы качественно не был написан код, все усилия могут сойти на нет, если он будет запущен в неправильной среде. В этой статье продолжим рассказ об оптимизациях и улучшениях, но сейчас речь будет идти не столько об особенностях предметной области и решаемой бизнес-задачи, сколько о том, как мы архитектурно организовали работу сервиса для получения минимального времени ответа.
Быстрая обработка данных в data lake с помощью SQL
Кому пришла в голову идея отправлять SQL запросы в data lake? Оказывается, это позволяет компаниям более гибко и эффективно анализировать свои данные за счёт уменьшения потребности в ETL и снижения нагрузки на корпоративное хранилище. Рассмотрим, какие популярные SQL-движки умеют это делать и как им это удаётся.
Меня зовут Владимир Озеров, я руковожу компанией Querify Labs. Мы уже порядка 10 лет занимаемся распределённым SQL, делаем всевозможные SQL-движки, в частности CedrusData — коммерческий движок на основе опенсорс проекта Trino. Сегодня поговорим про то, каким образом устроен ряд SQL-движков, которые обрабатывают данные от data lake.
Очень непонятно и жутко интересно: IT-задачи на заводах
По образованию я инженер разгонных блоков и космических аппаратов, и погружение в производство началось еще в институте. Меня учили разрабатывать ракеты и спутники. А дальше оказалось, что в России это крайне малооплачиваемая отрасль. В итоге хобби админство в институте, стало работой, но знания полученные в ходе обучения очень помогают в текущих задачах. В производстве у меня было много проектов. Я реализовывал системы по техосмотрам и ремонтам в энергетике, участвовал в проектах на Уралхиммаше и на Дальневосточных распредсетях и много где ещё. Был даже опыт управления командой на рынке оптовых продаж электроэнергии России. А потом друзья позвали присоединиться к команде цифровизации в СИБУР.
Работа с аренами: почти избавляемся от GC
Меня зовут Максим Горозий. Я тимлид в Т-Банке, работаю над нашей образовательной платформой, которая служит для разных направлений бизнеса. В ИТ больше 10 лет и успел поработать в двух GameDev-компаниях, где управление памятью занимало весомое время в оптимизации производительности кода. Люблю строить системы и взаимосвязи между ними, а также EdTech и преподавание, а еще больше — работать над инструментами обучения. Хотя начинал с C, я идеологический фанат Go, DDD и Agile.
«Оно тормозит» — классическая цитата разработчиков. Расскажу, как разобраться в причинах и научиться управлять памятью, медитируя над профайлингом, чтобы все работало быстро.
Как компилировать json или история оптимизации python сервиса
В прошлой статье мы начали историю создания одного из компонентов платформы экспериментов в компании Okko — сервис сплитования трафика.
Там были описаны небольшие, но эффективные оптимизации Python-кода, которые могут быть полезны в практически любом сервисе на этом языке.
В статье мы продолжим рассказ об оптимизациях и улучшениях, однако здесь речь пойдет про детальные и последовательные изменения в самом узком месте сервиса. Приготовьтесь к более высокому уровню Python-магии.