Comments 16
Без обид, но мне кажется даже жуткий xml в xlsx лучше читается
|><|
А зачем эти угловые скобки? Вертикальные палки и так отделяют ячейки
>>>SCRIPT
Почему именно три угловые скобки? А что если к скрипту понадобятся атрибуты? Язык, версия и т.п.
Может проще прямо на JS описывать таблицы любой сложности?
жуткий xml в xlsx
Как вы читаете бинарный xlsx?
А зачем эти угловые скобки?
Почему именно три угловые скобки?
Ответ простой - Я так решил.
А что если к скрипту понадобятся атрибуты
В статье написано.
даже жуткий xml
потом поделитесь счетом, сколько ушло денег на скрамливание XML в LLM. При чем тут LLM написано в статье.
Может проще прямо на JS описывать таблицы любой сложности?
Нет. И даже в HTML нет.
Как вы читаете бинарный xlsx?
XLSX - это обычный zip-архив, внутри папки, XML-ки, картинки и прочий контент. Табличные данные хранятся в XML.
жуткий xml в xlsx лучше читается
Ещё бы в нём строковые значения за каким-то лешим не были вынесены в отдельный файл, в котором их надо подсматривать по индексам из основного файла листа, - вот тогда читался бы он нормально :)
поэтому - жуткий ))
Видимо, для уменьшения размера. Хранятся только уникальные строки, для повторяющихся все ссылки будут одинаковыми и указывать на эту единственную строку.
Задачу читабельного текстового представления достаточно сложных таблиц неплохо решает AsciiDoc. В нём из коробки нет форматов данных и формул, но есть механизм расширений, который, насколько я понимаю, позволит это добавить. При этом можно было бы использовать уже существующие инструменты для конвертации из Excel, преобразования в кучу форматов и пр.
AsciiDoc хорошая штука, но она прям для описания всего, что накладывает ограничения.
Плюс, он какой то очень вариативный. У меня мозг ломатется когда вот это
[cols="3"]
|===
|A1 |B1
|C1
|A2
|B2 |C2
|A3 |B3 |C3
|===
отрисуется в 3 строки по 3 столбца, а заголовок отделяется пустой строкой.
Плюс из-за того что он заточен именно на описание, там сложности с макросами. А Я всё таки хочу получить все нужные данные, в т.ч. скрипты.
К тому же Я в любом случае буду развивать свой формат и клепать для него решения. А пользователи получат выбор чем пользоваться.
Опять таки, Я много лет пользовался CSV и MD и как то обходился 😊
А конвертация вопрос пары дней. У меня уже есть парсер, который дает нужное представление, а из представления сериализовать его во все доступные форматы проблема нескольких строчек кода.
Вы затронули LLM в статье, но из личного опыта могу сказать, что csv для моделей почему-то сложно 🤷🏻♂️ строки путают данные перемешивают и т.п. В тоже время json почти любая модель понимает от 7b и довольно внятно данными из json оперирует. А как Вы планируете «научить» LLM в свой формат?
Как вариант, автоматически вставлять в начале каждого файла текстовое описание - промпт для llm.
Касательно "научить" - в идеале файнтюнить, обучая использовать функции как инструменты, если речь про локальные LLM и мощности позволяют.
Но с очень большими моделями типа ChatGPT хватает и промтинга. Правил не много, можно их дополнительно сгруппировать, перевести на английский и скормить в начале.
Касательно понимания - зависит от задачи. В большинстве случаев не нужно скармливать все данные в LLM, тем более для больших данных этого сделать и не получится. Но можно скормить структуру и попросить например на новом листе высчитать все необходимые вещи через формулы, потом ответ просто в текст докинуть и сохранить.
А как планируете раскрутить этот формат во всепланетном масштабе? Как минимум, нужна критическая масса статей на ключевых ит-сайтах. Функция для pandas, postgres и других фреймворков для работы с данными...
Раскручивать во всепанетарном масштабе своими силами не планирую.
Буду использовать в реальных проектах и исследованиях, подсвечивая сам формат. Если людям зайдёт и накопится хотя бы некоторое количество примеров использования, то можно будет подумать об официальной регистрации стандарта.
В идеале хочу запустить аналог Google Sheets, только который ещё и работает в моем формате, а если много людей будет пользоваться, то и распространение будет органическим.
PTTJS — формат текстового хранения комплексных таблиц