Articles / Profile of TSjB / Habr

Богдан Теунаев@TSjB

Data scientist

Subscribers

ProfileArticles5PostsNewsComments8

TSjB Jul 16 2024 at 13:36

Карачаево-балкарский переводчик

Easy

4 min

4.2K

Semantics * Machine learning * Natural Language Processing *

Это небольшая статья, но, чтобы её написать, нужно было очень много проделать. Тут кратко описано про язык, про сбор нами данных и про обучение моделей. Это скорее не инструкция, как делать, а способ заявить о проделанном.

Про народ и язык

Раз в названии написано «переводчик», значит речь идёт о языке. На нём говорят карачаево‑балкарцы (официально народ искусственно разделён на «карачаевцев» и «балкарцев») — кавказцы, проживающие к северу, востоку и западу от горы Эльбрус в основном в Республиках Карачаево‑Черкессия и Кабардино‑Балкария.

+13

TSjB May 30 2024 at 11:53

Повышенный спрос в такси или как работает сурдж: от данных до моделей

Easy

3 min

5.1K

Geoinformation services * R * Machine learning * Transport

Case

Мы в компании MyTaxi (агрегатор такси) стремимся удовлетворить клиента и водителя. Для первых одна из важных потребностей - быстрая подача машины, а для других - увеличение количества заказов (или уменьшение времени простоя) и, следовательно, заработка. Для нас это означает малое количество отмен и всё большее число пользователей захотят использовать наш сервис.

Важный фактор, который на это влияет - цена. Она обычно складывается из стоимости подачи, километража, времени поездки и… сурджа.

TSjB Apr 7 2024 at 14:47

Алгоритм расчёта расстояния между строками

Medium

3 min

7.8K

R * Algorithms * Search engines *

Case

По работе стояла задача оптимизации поиска по адресам (улицы, дома и объекты). Главный критерий - нахождение адреса, если написано с ошибками или не дописан он в полной мере. Bert’ы, косинусные расстояния эмбеддингов и т.д. не подходили, так как они заточены под смысловой поиск, а в адресах смысла нет. TF-IDF c лемматизацией тоже не очень подходил для этой задачи, результаты были плохие.

Для реализации начал использовать расстояние Дамерау-Левенштейна, и в последствие, развил это до собственного алгоритма, который находит расстояние между двумя строками.

Цель данного поста описание только алгоритма.

+16

TSjB Jan 18 2024 at 18:32

Семантический поиск и генерация текста на R. Часть 2

Medium

5 min

1.4K

Natural Language Processing * Machine learning * R * Semantics * Search engines *

В первой части говорили про использование поиска и генерации ответа с помощью языковых моделей. В этой части рассмотрим память и агентов.

TSjB Jan 12 2024 at 15:41

Семантический поиск и генерация текста на R. Часть 1

Medium

10 min

Natural Language Processing * R * Machine learning * Search engines * Semantics *

From sandbox

Для этой задачи использую LLM (Large Language Models - например, chatGPT или opensouce модели) для внутренних задач (а-ля поиск или вопрос-ответную систему по необходимым данным).

Я пишу на языке R и также увлекаюсь NLP (надеюсь, я не один такой). Но есть сложности из-за того, что основной язык для LLM - это python. Соответственно, на R мало примеров и документации, поэтому приходится больше времени тратить, чтобы “переводить” с питона, но с другой стороны прокачиваюсь от этого.

Чтобы не городить свою инфраструктуру, есть уже готовые решения, чтобы быстро и удобно подключить и использовать. Это LangChain и LlamaIndex. Я обычно использую LangChain (дальше он и будет использоваться). Не могу сказать, что лучше, просто так повелось, что использую первое. Они написаны на питоне, но с помощью библиотеки reticulate всё работает и на R.

Карачаево-балкарский переводчик

Повышенный спрос в такси или как работает сурдж: от данных до моделей

Алгоритм расчёта расстояния между строками

Семантический поиск и генерация текста на R. Часть 2

Семантический поиск и генерация текста на R. Часть 1

Information

Specialization