Обновить
2
Алексей@Mister_Zero

Data Scientist

11
Подписчики
Отправить сообщение

Спасибо за высокую оценку.

Процесс разбиения на чанки автоматизирован и выполняется обычно одним из двух способов:

1. Либо разбиение на чанки одинаковой длины с overlap (об этом написано в статье, главное подобрать наиболее адекватные размеры чанков под ваши данные)

2. Либо разбиение семантически, тогда у вас должна быть настройка вашего чанкинга (то каким образом он будет производить разбиение). Например по двойному слеш n, тогда будет разбиение по абзацам. Либо по специальному символу, который вы внедрите в свои данные. Способов много.

В моем проекте сейчас реализован только 1 способ, но в ближайшее время добавится и второй. Так что следите за проектом🙂

Как-то слишком много хейта. Я не могу сказать, что он не оправдан, но все же оптимизации жизненных процессов как по мне всегда круто, это и есть прогресс. Как переход к станкам и тракторам, как разделение труда и другие оптимизации, которые нас привели к тому, что мы сейчас есть. Я еще не знакомился с другими подобными решениями, кроме браузерных и CLI, но это звучит как новый уровень. Возможно инфраструктура google может выполнять многие описанные в статье функции, по типу работы с календарем или совершением заказов (не знаю точно, но слышал о подобном), но другие платформы еще на меньшее способны. Да и от google я уверен, что около половины функций не сможет, описанных в статье. Здесь и более глубокая настройка, и работа не только с браузером, но и с другими приложениями. Есть только проблемы в безопасности о которых так яро говорят в комментариях и для меня лично в цене, но первая проблема кажется решается за один вечер настройкой прав доступа.

Спасибо за лестный отзыв, да, продолжение будет!

Соглашусь с замечанием. В данной фразе имелась вся система, я писал это для упрощения и обобщения, но по факту написал в данном месте некорректно. Спасибо за замечание.

Информация

В рейтинге
Не участвует
Откуда
Москва и Московская обл., Россия
Зарегистрирован
Активность

Специализация

ML разработчик
Средний
От 250 000 ₽
Git
PostgreSQL
SQL
Python
Docker
FastAPI
Apache Spark
ETL
Apache Hadoop
Apache Airflow