Статьи / Профиль Grigory

@Grigory_T

Пользователь

ПрофильСтатьи9ПостыНовостиКомментарии38

@Grigory_T 2 июл в 17:56

Статус: в неточном поиске (fuzzy match)

Средний

8 мин

1.8K

Поисковая оптимизация * Поисковые технологии * Python * Высоконагруженные системы *

Туториал

Задача нахождения неточных дубликатов текстовых строк - удивительно часто встречается на практике.

Нахождение неточных дубликатов позволяет лучше понять структуру списка, повысить его качество (удаление дубликатов), провести техническую кластеризацию (выделить группы похожих). Всё это видно на графе выше.

Но приключения начинаются, когда список становится размером несколько миллионов строк. В статье разберем что с этим можно сделать.

@Grigory_T 12 мая в 18:58

Программирование на уровне идей

Средний

7 мин

5.7K

Развитие стартапаСтатистика в ITPython * Учебный процесс в ITПрототипирование *

Кейс

Знакома ли вам ситуация, когда хочется проверить какую-то идею, иногда просто из любопытства. А времени на это нет. Да и код не хочется писать.

У меня это бывает часто. Вообще на проверку всех моих гипотез нужно минимум человека 3-4. И вот, они появились! Правда это 3-4 нейросети, ну ок, пойдет)

Сегодня каждому предоставляется такая возможность...

+12

@Grigory_T 7 апр в 17:21

Как использовать нейросети эффективно (персональная эффективность)

Простой

71 мин

6.2K

Искусственный интеллектБудущее здесьМашинное обучение * Программирование *

Мнение

«Консилиум нейросетей (математиков и программистов) думает, что же имел ввиду пользователь в своём промте» — по крайней мере, я это так представляю :-)

Сейчас без нейросетей никуда. В статье рассмотрим вопросы личной эффективности и как в этом помогают нейросети. Затронем тему современного промт инжиниринга.

Статью писал без помощи нейросетей. Изложил своё мнение.

+12

@Grigory_T 16 дек 2024 в 19:50

Функциональные зависимости в таблице (удобный форк FDTool для python3)

Средний

7 мин

668

Open source * Python * Data Mining * Data Engineering *

FAQ

Все мы часто работаем с табличными данными. С первого взгляда таблица - это просто. Строчки, колонки, шапка. Но когда долго работаешь с ними, понимаешь, что архитектура таблицы - довольно сложная тема. Однако именно понимание архитектуры позволяет эффективно работать со сложными большими таблицами.

В статье поговорим про functional dependencies и про python библиотеку работы с ними - FDTool.

@Grigory_T 14 окт 2024 в 05:52

Её величество Сортировка

Средний

23 мин

2.4K

Алгоритмы * Python * Математика *

FAQ

Можно ли сортировать несортируемое? Почему декоратор в питоне называется "total_ordering"? Как отсортировать тексты по смыслу? Надо ли сохраняться, перед использованием "compare function"?

Сортировка используется настолько часто, что мы порой забываем об этом фундаментальном алгоритме.

В статье сделан обзор различных тем, которые могут встретиться в контексте разного рода сортировок.

@Grigory_T 14 июл 2024 в 17:44

Его величество Граф

Простой

10 мин

Python * Алгоритмы *

Обзор

Графы для меня особенная тема, в них есть нечто таинственное и мощное.

В университете и в школе мы не проходили теорию графов. На работе никогда не произносили это слово. Но графы везде. И можно значительно упростить себе жизнь, если научиться видеть их и использовать многочисленные наработки по визуализации и алгоритмам.

Я не буду рассказывать основы графов, они есть в Википедии.

Цель статьи — поделиться с вами некоторыми случаями из моей практики, когда графы становились естественной частью какой‑то задачи. Иногда без них задачу решить было невозможно. Иногда через них решение получалось более изящное. А иногда просто тяга к перфекционизму, графы это круто же).

Ну что, поехали, будет интересно!

+17

@Grigory_T 15 мар 2024 в 09:27

Её величество Плоская таблица

Простой

8 мин

18K

DIY или Сделай самХранение данных * Python * Open source *

FAQ

Слева красиво! Но ничего не понятно. Куча объектов с непонятными связями. Каша, какая-то.

Справа техническая красота :) Всё разложено по полочкам, всё находится под контролем. Никакие детали не могут ускользнуть от нашего внимания.

Переход к плоской таблице и понимание её архитектуры напоминает переход слева-направо. Из зоны тумана, в зону ясности. В статье мы поговорим об этом подробнее. Также увидим какие инструменты нам помогают в этом.

+12

@Grigory_T 2 мар 2024 в 17:18

Cross-Encoder для улучшения RAG на русском

Средний

15 мин

20K

Машинное обучение * Искусственный интеллектDIY или Сделай самPython *

Туториал

Одно из самых прикладных применений языковых моделей (LLM) - это ответы на вопросы по документу/тексту/договорам. Языковая модель имеет сильную общую логику, а релевантные знания получаются из word, pdf, txt и других источников.

Обычно релевантные тексты раскиданы в разных местах, их много и они плохо структурированы. Одна из проблем на пути построения хорошего RAG - нахождение релевантных частей текста под заданный пользователем вопрос.

Еще В. Маяковский писал: "Изводишь единого слова ради, тысячи тонн словесной руды." Примерно это же самое делают би-энкодеры и кросс-энкодеры в рамках RAG, ищут самые важные и полезные слова в бесконечных тоннах текста.

В статье мы посмотрим на способы нахождения релевантных текстов, увидим проблемы, которые в связи с этим возникают. Попытаемся их решить.

Главное - мы натренируем свой кросс-энкодер на русском языке, что служит важным шагом на пути улучшения качества Retrieval Augmented Generation (RAG). Тренировка будет проходит новейшим передовым способом. Схематично он изображен на меме справа)

+14

@Grigory_T 13 мая 2023 в 14:23

Её величество Иерархия. Классификация и способы хранение в MS Excel

Простой

9 мин

15K

Хранение данных * Data Engineering * Big Data *

Туториал

Cезон big data

Из песочницы

Иерархия, как структура данных, встречается очень часто.

• справочники в 1С:Бухгалтерия предприятия и кубовых OLAP системах (типа IBM Cognos TM1) часто имеют иерархическое строение

• иерархия папок и файлов в Windows

• отношения наставничества между коллегами (когда может быть только один наставник и много наставляемых)

• объектная модель VBA (построена на базе иерархии, хотя могут быть особые моменты)

В финансах иерархия – это один из самых частых объектов, наряду с плоскими и матричными таблицами. Откройте практически любой файл Excel и там будет иерархия в том или ином виде.

Тем не менее, иерархия – это достаточно сложный объект, который имеет неочевидную классификацию. Кроме того, часто мы храним иерархию в плоской таблице (в Excel, в базе данных). А это, вообще говоря, не естественная среда обитания для иерархий. Все это еще более затрудняет и запутывает работу с ними.

В статье разберем ключевые термины и классификацию иерархий, что позволит эффективно работать с ними. Ответим на ряд нетривиальных вопросов: «Все ли иерархии одинаковые?», «Отсутствие детей - это достаточный признак листа?» ?

+11

Статус: в неточном поиске (fuzzy match)

Программирование на уровне идей

Как использовать нейросети эффективно (персональная эффективность)

Функциональные зависимости в таблице (удобный форк FDTool для python3)

Её величество Сортировка

Его величество Граф

Её величество Плоская таблица

Cross-Encoder для улучшения RAG на русском

Её величество Иерархия. Классификация и способы хранение в MS Excel

Информация

Специализация