Articles / Profile of khmelkoff / Habr

Игорь Хмельков@khmelkoff

Data Scientist

Rating

Subscribers

ProfileArticles9PostsNewsComments47

khmelkoff Mar 27 at 06:41

MS GraphRAG, Ollama и немного киберпанка

Easy

12 min

4.6K

Artificial IntelligenceMachine learning * Data Mining *

Opinion

Здравствуйте. Несколько лет глубоко погружён в тему корпоративных RAG-систем. В последнее время, как от коллег, так и от заказчика часто слышу, что векторный поиск это слабое место и вчерашний день, и что нас спасут только графовые системы. Нашел несколько постов и видео на эту тему. Захотелось попробовать. В статье делюсь своими впечатлениями, рефлексирую и рассказываю как воспроизвести эксперименты.

Почему Ollama? Выделение вычислительных ресурсов на RAG в проекте - отдельная больная тема. Мне нужно было понять нижнюю планку. Если коротко, кое-как работает даже на 4b моделях.

Причём здесь киберпанк? Очень нравится этот жанр, а ещё я люблю использовать для проверки RAG/LLM штук знакомые тексты. Для экспериментов с Microsoft GraphRAG я выбрал рассказ "Johnny Mnemonic" Уильяма Гибсона, для начала на английском.

khmelkoff Mar 26 2021 at 09:53

LIT – Инспектор для вашего NLP. Обзор, установка, тест

6 min

3.3K

Natural Language Processing * Artificial IntelligenceMachine learning * Python *

Tutorial

Инспектор и даже где-то "толкователь", LIT или Language Interpretability Tool — мощная платформа с открытым исходным кодом для визуализации и интерпретации NLP-моделей. Платформа была представлена на EMNLP 2020 специалистами Google Research в ноябре 2020 года. LIT еще в статусе разработки, поэтому разработчики ничего не гарантируют, в том числе работу на платформе windows. Но у меня получилось, делюсь опытом.

khmelkoff Mar 16 2021 at 10:22

Как сделать трансформер чат-бот на Trax?

9 min

4.1K

Python * Machine learning * Artificial IntelligenceNatural Language Processing *

Tutorial

Экспериментировать с библиотекой Trax и архитектурой трансформер оказалось крайне увлекательно. Предыдущая статья была про саммаризатор. В этой хочу рассказать о том как я учил трансформер общаться на русском языке.

Сравнительно простого чат-бота можно построить на базе языковой модели, которая умеет прогнозировать следующее слово по предыдущим, и которую несложно сделать, используя Трансформер-декодер по аналогии с GPT. В этом случае диалог формируется как связный неструктурированный текст. Чтобы превратить этот текст в чат, нужно вмешиваться в процесс генерации, добавляя реплики пользователя. Но обо всё по порядку.

khmelkoff Feb 22 2021 at 07:01

Краткость — сестра таланта: Как сделать Transformer/Summarizer на Trax

10 min

3.4K

Natural Language Processing * Artificial IntelligenceMachine learning * Python *

Tutorial

В новой курсеровской специализации «NLP» от deeplearning.ai в качестве библиотеки глубокого обучения используется Trax. В последнем курсе подробно разбирается механизм внимания и его использование в архитектуре Transformer, в том числе в таких «новеллах» как BERT и T5. Имея немного свободного времени, специализацию можно пройти за несколько недель, что я собственно и сделал, соблазнившись возможностью построить собственный трансформер с нуля. Очень хотелось сделать модель, которая может работать с текстами на русском языке.

Для эксперимента я выбрал саммаризатор, эта конструкция получает на вход статью и генерирует короткий текст с описанием сути. Summary может быть и просто заголовком. Попробую рассказать обо всём в деталях.

khmelkoff Feb 2 2016 at 10:36

Контроль над браслетом в ритме BlueZ

9 min

37K

Python * Reverse engineering * IOT

В исследовательском проекте мне потребовался прототип медицинского браслета. Устройство должно было периодически измерять пульс, предупреждая об этом пациента, и отправлять результаты вместе с уровнем заряда батареи в облачный сервис. Таким устройством вполне мог стать и фитнес-браслет со стационарным ретранслятором вместо смартфона. Поэтому, прежде чем попытаться собрать прототип своими руками, я решил поэкспериментировать с чем-нибудь готовым. Так у меня появился новый Xiaomi mi band 1S Pulse (обзор на Geektimes) с оптическим датчиком частоты сердечного ритма.

Читать дальше →

+13

khmelkoff Sep 21 2015 at 10:24

Препарируем t-SNE

10 min

96K

Machine learning * Data visualization * Algorithms * R *

Tutorial

Работая над статьей «Глубокое обучение на R...», я несколько раз встречал упоминание t-SNE — загадочной техники нелинейного снижения размерности и визуализации многомерных переменных (например, здесь), был заинтригован и решил разобраться во всем в деталях. t-SNE это t-distributed stochastic neighbor embedding. Русский вариант с «внедрением соседей» в некоторой мере звучит нелепо, поэтому дальше буду использовать английский акроним.

Читать дальше →

+10

khmelkoff May 29 2015 at 07:04

Глубокое обучение на R, тренируем word2vec

10 min

24K

Machine learning * R * Data Mining *

Word2vec является практически единственным алгоритмом deep learning, который сравнительно легко можно запустить на обычном ПК (а не на видеокартах) и который строит распределенное представление слов за приемлемое время, по крайней мере так считают на Kaggle. Прочитав здесь про то, какие фокусы можно делать с тренированной моделью, я понял, что такую штуку просто обязан попробовать. Проблема только одна, я преимущественно работаю на языке R, а вот официальную реализацию word2vec под R мне найти не удалось, думаю её просто нет.

Читать дальше →

+13

khmelkoff May 7 2015 at 10:16

Распознавание физической активности пользователей с примерами на R

8 min

9.3K

R * Machine learning *

Tutorial

Задача распознавания физической активности пользователей (Human activity Recognition или HAR) попадалась мне раньше только в качестве учебных заданий. Открыв для себя возможности Caret R Package, удобной обертки для более 100 алгоритмов машинного обучения, я решил попробовать его и для HAR. В UCI Machine Learning Repository есть несколько наборов данных для таких экспериментов. Так как тема с гантелями для меня не очень близка, я выбрал распознавание активности пользователей смартфонов.

Читать дальше →

+12

khmelkoff Apr 7 2015 at 09:12

Мешок слов и сентимент-анализ на R

5 min

24K

Data Mining * R * Machine learning *

From sandbox

Эта статья подготовлена по мотивам (первой части) учебного задания Bag of Words Kaggle, но это не перевод. Оригинальное задание сделано на Python. Я же хотел оценить возможности языка R для обработки текстов на естественном языке и заодно попробовать реализацию Random Forest в обертке R-пакета caret.

Смысл задания – построить «машину», которая будет определенным образом обрабатывать обзоры фильмов на английском языке и определять тональность обзора, относя его к одному из двух классов: негативные/позитивные. В качестве обучающей выборки в задании используется набор данных с двадцатью пятью тысячами ревю из IMDB, размеченных неизвестными добровольцами.

Читать дальше →

+10