Pull to refresh
8
0
Send message

Её величество Плоская таблица

Level of difficultyEasy
Reading time8 min
Views9.1K

Слева красиво! Но ничего не понятно. Куча объектов с непонятными связями. Каша, какая-то.

Справа техническая красота :) Всё разложено по полочкам, всё находится под контролем. Никакие детали не могут ускользнуть от нашего внимания.

Переход к плоской таблице и понимание её архитектуры напоминает переход слева-направо. Из зоны тумана, в зону ясности. В статье мы поговорим об этом подробнее. Также увидим какие инструменты нам помогают в этом.

Читать далее
Total votes 12: ↑12 and ↓0+12
Comments9

Cross-Encoder для улучшения RAG на русском

Level of difficultyMedium
Reading time15 min
Views4.2K

Одно из самых прикладных применений языковых моделей (LLM) - это ответы на вопросы по документу/тексту/договорам. Языковая модель имеет сильную общую логику, а релевантные знания получаются из word, pdf, txt и других источников.

Обычно релевантные тексты раскиданы в разных местах, их много и они плохо структурированы. Одна из проблем на пути построения хорошего RAG - нахождение релевантных частей текста под заданный пользователем вопрос.

Еще В. Маяковский писал: "Изводишь единого слова ради, тысячи тонн словесной руды." Примерно это же самое делают би-энкодеры и кросс-энкодеры в рамках RAG, ищут самые важные и полезные слова в бесконечных тоннах текста.

В статье мы посмотрим на способы нахождения релевантных текстов, увидим проблемы, которые в связи с этим возникают. Попытаемся их решить.

Главное - мы натренируем свой кросс-энкодер на русском языке, что служит важным шагом на пути улучшения качества Retrieval Augmented Generation (RAG). Тренировка будет проходит новейшим передовым способом. Схематично он изображен на меме справа)

Читать далее
Total votes 14: ↑14 and ↓0+14
Comments9

Её величество Иерархия. Классификация и способы хранение в MS Excel

Level of difficultyEasy
Reading time9 min
Views8.4K

Иерархия, как структура данных, встречается очень часто.

справочники в 1С:Бухгалтерия предприятия и кубовых OLAP системах (типа IBM Cognos TM1) часто имеют иерархическое строение

иерархия папок и файлов в Windows

отношения наставничества между коллегами (когда может быть только один наставник и много наставляемых)

объектная модель VBA (построена на базе иерархии, хотя могут быть особые моменты)

В финансах иерархия – это один из самых частых объектов, наряду с плоскими и матричными таблицами. Откройте практически любой файл Excel и там будет иерархия в том или ином виде.

Тем не менее, иерархия – это достаточно сложный объект, который имеет неочевидную классификацию. Кроме того, часто мы храним иерархию в плоской таблице (в Excel, в базе данных). А это, вообще говоря, не естественная среда обитания для иерархий. Все это еще более затрудняет и запутывает работу с ними.

В статье разберем ключевые термины и классификацию иерархий, что позволит эффективно работать с ними. Ответим на ряд нетривиальных вопросов: «Все ли иерархии одинаковые?», «Отсутствие детей - это достаточный признак листа?» 😊

Читать далее
Total votes 11: ↑11 and ↓0+11
Comments10

Information

Rating
Does not participate
Registered
Activity

Specialization

Business Analyst, Data Analyst
Senior
Python
Neural networks
Data Analysis