Статьи / Профиль TSjB / Хабр

Богдан Теунаев@TSjB

Data scientist

Подписчики

ПрофильСтатьи5ПостыНовостиКомментарии8

TSjB 16 июл 2024 в 13:36

Карачаево-балкарский переводчик

Простой

4 мин

4.1K

Семантические сети * Машинное обучение * Natural Language Processing *

Это небольшая статья, но, чтобы её написать, нужно было очень много проделать. Тут кратко описано про язык, про сбор нами данных и про обучение моделей. Это скорее не инструкция, как делать, а способ заявить о проделанном.

Про народ и язык

Раз в названии написано «переводчик», значит речь идёт о языке. На нём говорят карачаево‑балкарцы (официально народ искусственно разделён на «карачаевцев» и «балкарцев») — кавказцы, проживающие к северу, востоку и западу от горы Эльбрус в основном в Республиках Карачаево‑Черкессия и Кабардино‑Балкария.

+13

TSjB 30 мая 2024 в 11:53

Повышенный спрос в такси или как работает сурдж: от данных до моделей

Простой

3 мин

5.1K

Геоинформационные сервисы * R * Машинное обучение * Транспорт

Кейс

Мы в компании MyTaxi (агрегатор такси) стремимся удовлетворить клиента и водителя. Для первых одна из важных потребностей - быстрая подача машины, а для других - увеличение количества заказов (или уменьшение времени простоя) и, следовательно, заработка. Для нас это означает малое количество отмен и всё большее число пользователей захотят использовать наш сервис.

Важный фактор, который на это влияет - цена. Она обычно складывается из стоимости подачи, километража, времени поездки и… сурджа.

TSjB 7 апр 2024 в 14:47

Алгоритм расчёта расстояния между строками

Средний

3 мин

7.8K

R * Алгоритмы * Поисковые технологии *

Кейс

По работе стояла задача оптимизации поиска по адресам (улицы, дома и объекты). Главный критерий - нахождение адреса, если написано с ошибками или не дописан он в полной мере. Bert’ы, косинусные расстояния эмбеддингов и т.д. не подходили, так как они заточены под смысловой поиск, а в адресах смысла нет. TF-IDF c лемматизацией тоже не очень подходил для этой задачи, результаты были плохие.

Для реализации начал использовать расстояние Дамерау-Левенштейна, и в последствие, развил это до собственного алгоритма, который находит расстояние между двумя строками.

Цель данного поста описание только алгоритма.

+16

TSjB 18 янв 2024 в 18:32

Семантический поиск и генерация текста на R. Часть 2

Средний

5 мин

1.4K

Natural Language Processing * Машинное обучение * R * Семантические сети * Поисковые технологии *

В первой части говорили про использование поиска и генерации ответа с помощью языковых моделей. В этой части рассмотрим память и агентов.

TSjB 12 янв 2024 в 15:41

Семантический поиск и генерация текста на R. Часть 1

Средний

10 мин

Natural Language Processing * R * Машинное обучение * Поисковые технологии * Семантические сети *

Из песочницы

Для этой задачи использую LLM (Large Language Models - например, chatGPT или opensouce модели) для внутренних задач (а-ля поиск или вопрос-ответную систему по необходимым данным).

Я пишу на языке R и также увлекаюсь NLP (надеюсь, я не один такой). Но есть сложности из-за того, что основной язык для LLM - это python. Соответственно, на R мало примеров и документации, поэтому приходится больше времени тратить, чтобы “переводить” с питона, но с другой стороны прокачиваюсь от этого.

Чтобы не городить свою инфраструктуру, есть уже готовые решения, чтобы быстро и удобно подключить и использовать. Это LangChain и LlamaIndex. Я обычно использую LangChain (дальше он и будет использоваться). Не могу сказать, что лучше, просто так повелось, что использую первое. Они написаны на питоне, но с помощью библиотеки reticulate всё работает и на R.

Карачаево-балкарский переводчик

Повышенный спрос в такси или как работает сурдж: от данных до моделей

Алгоритм расчёта расстояния между строками

Семантический поиск и генерация текста на R. Часть 2

Семантический поиск и генерация текста на R. Часть 1

Информация

Специализация