Процесс разбиения на чанки автоматизирован и выполняется обычно одним из двух способов:
1. Либо разбиение на чанки одинаковой длины с overlap (об этом написано в статье, главное подобрать наиболее адекватные размеры чанков под ваши данные)
2. Либо разбиение семантически, тогда у вас должна быть настройка вашего чанкинга (то каким образом он будет производить разбиение). Например по двойному слеш n, тогда будет разбиение по абзацам. Либо по специальному символу, который вы внедрите в свои данные. Способов много.
В моем проекте сейчас реализован только 1 способ, но в ближайшее время добавится и второй. Так что следите за проектом🙂
Как-то слишком много хейта. Я не могу сказать, что он не оправдан, но все же оптимизации жизненных процессов как по мне всегда круто, это и есть прогресс. Как переход к станкам и тракторам, как разделение труда и другие оптимизации, которые нас привели к тому, что мы сейчас есть. Я еще не знакомился с другими подобными решениями, кроме браузерных и CLI, но это звучит как новый уровень. Возможно инфраструктура google может выполнять многие описанные в статье функции, по типу работы с календарем или совершением заказов (не знаю точно, но слышал о подобном), но другие платформы еще на меньшее способны. Да и от google я уверен, что около половины функций не сможет, описанных в статье. Здесь и более глубокая настройка, и работа не только с браузером, но и с другими приложениями. Есть только проблемы в безопасности о которых так яро говорят в комментариях и для меня лично в цене, но первая проблема кажется решается за один вечер настройкой прав доступа.
Соглашусь с замечанием. В данной фразе имелась вся система, я писал это для упрощения и обобщения, но по факту написал в данном месте некорректно. Спасибо за замечание.
Спасибо за высокую оценку.
Процесс разбиения на чанки автоматизирован и выполняется обычно одним из двух способов:
1. Либо разбиение на чанки одинаковой длины с overlap (об этом написано в статье, главное подобрать наиболее адекватные размеры чанков под ваши данные)
2. Либо разбиение семантически, тогда у вас должна быть настройка вашего чанкинга (то каким образом он будет производить разбиение). Например по двойному слеш n, тогда будет разбиение по абзацам. Либо по специальному символу, который вы внедрите в свои данные. Способов много.
В моем проекте сейчас реализован только 1 способ, но в ближайшее время добавится и второй. Так что следите за проектом🙂
Как-то слишком много хейта. Я не могу сказать, что он не оправдан, но все же оптимизации жизненных процессов как по мне всегда круто, это и есть прогресс. Как переход к станкам и тракторам, как разделение труда и другие оптимизации, которые нас привели к тому, что мы сейчас есть. Я еще не знакомился с другими подобными решениями, кроме браузерных и CLI, но это звучит как новый уровень. Возможно инфраструктура google может выполнять многие описанные в статье функции, по типу работы с календарем или совершением заказов (не знаю точно, но слышал о подобном), но другие платформы еще на меньшее способны. Да и от google я уверен, что около половины функций не сможет, описанных в статье. Здесь и более глубокая настройка, и работа не только с браузером, но и с другими приложениями. Есть только проблемы в безопасности о которых так яро говорят в комментариях и для меня лично в цене, но первая проблема кажется решается за один вечер настройкой прав доступа.
Спасибо за лестный отзыв, да, продолжение будет!
Соглашусь с замечанием. В данной фразе имелась вся система, я писал это для упрощения и обобщения, но по факту написал в данном месте некорректно. Спасибо за замечание.