Pull to refresh

Comments 16

Без обид, но мне кажется даже жуткий xml в xlsx лучше читается

|><|

А зачем эти угловые скобки? Вертикальные палки и так отделяют ячейки

>>>SCRIPT

Почему именно три угловые скобки? А что если к скрипту понадобятся атрибуты? Язык, версия и т.п.


Может проще прямо на JS описывать таблицы любой сложности?

жуткий xml в xlsx

Как вы читаете бинарный xlsx?

А зачем эти угловые скобки?
Почему именно три угловые скобки?

Ответ простой - Я так решил.

А что если к скрипту понадобятся атрибуты

В статье написано.

даже жуткий xml

потом поделитесь счетом, сколько ушло денег на скрамливание XML в LLM. При чем тут LLM написано в статье.

Может проще прямо на JS описывать таблицы любой сложности?

Нет. И даже в HTML нет.

Как вы читаете бинарный xlsx?

XLSX - это обычный zip-архив, внутри папки, XML-ки, картинки и прочий контент. Табличные данные хранятся в XML.

И вы прям в текстовом редакторе его открываете и читаете? Или нужно сначала ряд операций провести?
Можно пример Вашего более читаемого xml в xlsx? Вот ту же таблицу из моего примера.

жуткий xml в xlsx лучше читается

Ещё бы в нём строковые значения за каким-то лешим не были вынесены в отдельный файл, в котором их надо подсматривать по индексам из основного файла листа, - вот тогда читался бы он нормально :)

поэтому - жуткий ))

Видимо, для уменьшения размера. Хранятся только уникальные строки, для повторяющихся все ссылки будут одинаковыми и указывать на эту единственную строку.

Видимо, примерно такая логика. Только скорее не для уменьшения размера самого XLSX-файла (в котором XML всё равно в ZIP пакуются, где все дубли замечательно сожмутся), а для уменьшения использования памяти Excel'ем при его обработке.

Задачу читабельного текстового представления достаточно сложных таблиц неплохо решает AsciiDoc. В нём из коробки нет форматов данных и формул, но есть механизм расширений, который, насколько я понимаю, позволит это добавить. При этом можно было бы использовать уже существующие инструменты для конвертации из Excel, преобразования в кучу форматов и пр.

AsciiDoc хорошая штука, но она прям для описания всего, что накладывает ограничения.
Плюс, он какой то очень вариативный. У меня мозг ломатется когда вот это

[cols="3"]          
|===
|A1 |B1
|C1         
|A2 
|B2 |C2         
|A3 |B3 |C3         
|===

отрисуется в 3 строки по 3 столбца, а заголовок отделяется пустой строкой.
Плюс из-за того что он заточен именно на описание, там сложности с макросами. А Я всё таки хочу получить все нужные данные, в т.ч. скрипты.
К тому же Я в любом случае буду развивать свой формат и клепать для него решения. А пользователи получат выбор чем пользоваться.
Опять таки, Я много лет пользовался CSV и MD и как то обходился 😊

А конвертация вопрос пары дней. У меня уже есть парсер, который дает нужное представление, а из представления сериализовать его во все доступные форматы проблема нескольких строчек кода.

У меня мозг ломатется когда вот это

И вы прям в текстовом редакторе его открываете и читаете? Или нужно сначала ряд операций провести?

Вы затронули LLM в статье, но из личного опыта могу сказать, что csv для моделей почему-то сложно 🤷🏻‍♂️ строки путают данные перемешивают и т.п. В тоже время json почти любая модель понимает от 7b и довольно внятно данными из json оперирует. А как Вы планируете «научить» LLM в свой формат?

Как вариант, автоматически вставлять в начале каждого файла текстовое описание - промпт для llm.

Касательно "научить" - в идеале файнтюнить, обучая использовать функции как инструменты, если речь про локальные LLM и мощности позволяют.
Но с очень большими моделями типа ChatGPT хватает и промтинга. Правил не много, можно их дополнительно сгруппировать, перевести на английский и скормить в начале.
Касательно понимания - зависит от задачи. В большинстве случаев не нужно скармливать все данные в LLM, тем более для больших данных этого сделать и не получится. Но можно скормить структуру и попросить например на новом листе высчитать все необходимые вещи через формулы, потом ответ просто в текст докинуть и сохранить.

А как планируете раскрутить этот формат во всепланетном масштабе? Как минимум, нужна критическая масса статей на ключевых ит-сайтах. Функция для pandas, postgres и других фреймворков для работы с данными...

Раскручивать во всепанетарном масштабе своими силами не планирую.
Буду использовать в реальных проектах и исследованиях, подсвечивая сам формат. Если людям зайдёт и накопится хотя бы некоторое количество примеров использования, то можно будет подумать об официальной регистрации стандарта.
В идеале хочу запустить аналог Google Sheets, только который ещё и работает в моем формате, а если много людей будет пользоваться, то и распространение будет органическим.

Sign up to leave a comment.

Articles