Articles / Bookmarks / Profile of sixxio / Habr

Никита Сафонов @sixxio

User

Profile Publications Comments 30Bookmarks 15

nfrvnikita Jul 30 at 17:14

MLSecOps: почему, зачем и кому это нужно?

13 min

1.3K

Information Security*Инфосистемы Джет corporate blogMachine learning*

Всем привет! Меня зовут Никита, я работаю в центре машинного обучения «Инфосистемы Джет». Сейчас я учусь в своей второй магистратуре в ВШЭ ФКН на программе «Современные компьютерные науки» и в Школе анализа данных (ШАД). Сегодня я хочу рассказать о сравнительно новой концепции, которая становится все более актуальной и использование которой совершенно точно необходимо в больших промышленных ML-проектах, — MLSecOps.

Узри MLSecOps!

maksim_vatkin Jul 12 at 14:43

Вызовы для DevOps в сфере поддержки ML-проектов

Easy

11 min

IT Infrastructure*IT Standards*DevOps*Artificial IntelligenceСинимекс corporate blog

Review

Привет!
Коротко о себе:

Мой опыт в разработке ПО насчитывает порядка 18 лет, и 6 из них пришлись на работу в качестве Data Scientist. За это время я прошел путь от научного работника, аналитика данных, дата-сайентиста до Chief Data Scientist в банке. Сейчас я работаю в Синимекс, мы занимаемся разработкой ИТ-систем для бизнеса.

В этой статье я бы хотел обозначить и обратить внимание сообщества на проблемы, а также побудить коллег по Data Science инженерии подключиться к инициативе развития MLOps, чтобы совместными усилиями улучшать IT- ландшафт.

+10

makeross May 26 at 15:14

Векторные БД vs Точность — часть 2

Easy

5 min

1.7K

Artificial IntelligenceNatural Language Processing*

Case

В первой части из тестов стало понятно, что в векторном поиске с терминами что-то не так. И точность достаточно низкая для корректной работы RAG (retrieval augmentation generation). Давайте попробуем гибридный поиск и посмотрим, что из этого получится.

badcasedaily1 Aug 22 2023 at 11:42

Извлечение признаков из текстовых данных с использованием TF-IDF

10 min

24K

Python*System Analysis and Design*OTUS corporate blog

Изучение текстовых данных является одной из фундаментальных задач в области анализа данных и машинного обучения. Однако тексты представляют собой сложные и многомерные структуры, которые не могут быть напрямую обработаны алгоритмами машинного обучения. В этом контексте извлечение признаков — это процесс преобразования текстовых данных в числовые векторы, которые могут быть использованы для обучения моделей и анализа. Этот шаг играет ключевую роль в предварительной обработке данных перед применением алгоритмов.

Term Frequency-Inverse Document Frequency (TF-IDF) — это один из наиболее распространенных и мощных методов для извлечения признаков из текстовых данных. TF-IDF вычисляет важность каждого слова в документе относительно количества его употреблений в данном документе и во всей коллекции текстов. Этот метод позволяет выделить ключевые слова и понять, какие слова имеют больший вес для определенного документа в контексте всей коллекции.

+11

AlanRobotics Feb 5 at 20:34

Как ускорить LLM-генерацию текста в 20 раз на больших наборах данных

7 min

7.7K

Machine learning*Artificial IntelligenceNatural Language Processing*MTS AI corporate blog

Всем привет, я Алан, разработчик-исследователь в MTS AI. В команде фундаментальных исследований мы занимаемся исследованием LLM, реализацией DPO и валидацией наших собственных языковых моделей. В рамках этих задач у нас возникла потребность в генерации большого количества данных с помощью LLM. Такая генерация обычно занимает много времени. Однако за последний год, с ростом популярности LLM, стали появляться различные инструменты для развертывания таких моделей. Одной из самых эффективных библиотек для инференса языковых моделей является библиотека vLLM. В статье показывается, как с помощью асинхронных запросов и встроенных особенностей vLLM можно увеличить скорость генерации примерно в 20 раз. Приятного чтения!

+17

SantrY Apr 9 at 12:18

90+ дашбордов для OSINT и глобального мониторинга

Easy

13 min

24K

Information Security*Geoinformation services*Data visualization*SoftwareБастион corporate blog

Наблюдение за тем, какие изменения происходят на планете в масштабах стран и континентов — настоящий источник вдохновения для OSINT-аналитиков. Специалисты Бастион поделились актуальным списком интерактивных дашбордов, которые они держат в закладках, плюс я добавил парочку от себя.

Даже если вы никак не связаны с ИБ, зато часами залипали в контурные карты глобальных стратегий или восхищались глобусом в центре управления X-COM, эта подборка инструментов наверняка вам понравится.

+41

aavezel Sep 7 2023 at 13:47

Собеседование в руках маньяков

Easy

7 min

63K

Personnel Management*IT careerНорд Клан corporate blog

Opinion

Добрый день меня зовут Александр и я токсичный душнила с двадцатилетним стажем в айти, готовый откусить вам кадык, как только вы расслабьтесь. Мои характеристики делают меня хорошим техническим собеседующим, поэтому добро пожаловать на моё провальное собеседование. Запомните, вы его никогда не пройдете. А знаете почему?

Что не так с собеседованиями

+60

117

dmlogv Jul 27 2020 at 11:00

Apache Airflow: делаем ETL проще

25 min

163K

Python*Big Data*Data storage*Data Engineering*

Tutorial

Привет, я Дмитрий Логвиненко — Data Engineer отдела аналитики группы компаний «Везёт».

Я расскажу вам о замечательном инструменте для разработки ETL-процессов — Apache Airflow. Но Airflow настолько универсален и многогранен, что вам стоит присмотреться к нему даже если вы не занимаетесь потоками данных, а имеете потребность периодически запускать какие-либо процессы и следить за их выполнением.

И да, я буду не только рассказывать, но и показывать: в программе много кода, скриншотов и рекомендаций.

Что обычно видишь, когда гуглишь слово Airflow / Wikimedia Commons

Читать дальше →

+11

General_RJ-45 Jun 25 2023 at 21:22

Mini-ml-stand для бедных

Easy

17 min

5.3K

Data Mining*Machine learning*DevOps*Kubernetes*Data Engineering*

Tutorial

Всем привет! Снова на связи General RJ45 с новым прекрасным решением, но на сей раз по теме ML и аналитики.

На моем счету уже два законченных ML проекта и за это время я достаточно много поработал с аналитиками и ML инженерами, да и вообще над созданием ML и аналитических решений и могу сказать что у меня сформировалось своё представление о данных решения и я вижу какие проблемы возникают в данных процессах и что нужно разработчикам для их более эффективной работы, как пример это прозрачность всего процесса чтобы они могли видеть весь процесс от начала до конца и контролировать его.

В рамках данной статьи хочу рассказать как можно максимально просто поднять ML стенд на котором можно будет вести полноценную разработку и ETL процессов, и различных обучений моделей и их переобучений.

Стек того что мы поднимем в рамках этой статьи, также будут и другие инструменты как Nginx, Postgresql но мы их учитываем как часть компонентов ниже:

Развернем свой стенд с мл и etl?

+14