И вы прям в текстовом редакторе его открываете и читаете? Или нужно сначала ряд операций провести?
Можно пример Вашего более читаемого xml в xlsx? Вот ту же таблицу из моего примера.

aborouhin May 11 at 21:33

жуткий xml в xlsx лучше читается

Ещё бы в нём строковые значения за каким-то лешим не были вынесены в отдельный файл, в котором их надо подсматривать по индексам из основного файла листа, - вот тогда читался бы он нормально :)

ncix yesterday at 09:38

поэтому - жуткий ))

svi0105 18 hours ago

Видимо, для уменьшения размера. Хранятся только уникальные строки, для повторяющихся все ссылки будут одинаковыми и указывать на эту единственную строку.

aborouhin 8 hours ago

Видимо, примерно такая логика. Только скорее не для уменьшения размера самого XLSX-файла (в котором XML всё равно в ZIP пакуются, где все дубли замечательно сожмутся), а для уменьшения использования памяти Excel'ем при его обработке.

aborouhin May 11 at 21:31

Задачу читабельного текстового представления достаточно сложных таблиц неплохо решает AsciiDoc. В нём из коробки нет форматов данных и формул, но есть механизм расширений, который, насколько я понимаю, позволит это добавить. При этом можно было бы использовать уже существующие инструменты для конвертации из Excel, преобразования в кучу форматов и пр.

kolkoni May 11 at 22:22

AsciiDoc хорошая штука, но она прям для описания всего, что накладывает ограничения.
Плюс, он какой то очень вариативный. У меня мозг ломатется когда вот это

[cols="3"]          
|===
|A1 |B1
|C1         
|A2 
|B2 |C2         
|A3 |B3 |C3         
|===

отрисуется в 3 строки по 3 столбца, а заголовок отделяется пустой строкой.
Плюс из-за того что он заточен именно на описание, там сложности с макросами. А Я всё таки хочу получить все нужные данные, в т.ч. скрипты.
К тому же Я в любом случае буду развивать свой формат и клепать для него решения. А пользователи получат выбор чем пользоваться.
Опять таки, Я много лет пользовался CSV и MD и как то обходился 😊

А конвертация вопрос пары дней. У меня уже есть парсер, который дает нужное представление, а из представления сериализовать его во все доступные форматы проблема нескольких строчек кода.

teknik2008 yesterday at 08:58

У меня мозг ломатется когда вот это

И вы прям в текстовом редакторе его открываете и читаете? Или нужно сначала ряд операций провести?

LittleMeN yesterday at 07:00

Вы затронули LLM в статье, но из личного опыта могу сказать, что csv для моделей почему-то сложно 🤷🏻‍♂️ строки путают данные перемешивают и т.п. В тоже время json почти любая модель понимает от 7b и довольно внятно данными из json оперирует. А как Вы планируете «научить» LLM в свой формат?

avshkol yesterday at 11:05

Как вариант, автоматически вставлять в начале каждого файла текстовое описание - промпт для llm.

kolkoni yesterday at 11:06

Касательно "научить" - в идеале файнтюнить, обучая использовать функции как инструменты, если речь про локальные LLM и мощности позволяют.
Но с очень большими моделями типа ChatGPT хватает и промтинга. Правил не много, можно их дополнительно сгруппировать, перевести на английский и скормить в начале.
Касательно понимания - зависит от задачи. В большинстве случаев не нужно скармливать все данные в LLM, тем более для больших данных этого сделать и не получится. Но можно скормить структуру и попросить например на новом листе высчитать все необходимые вещи через формулы, потом ответ просто в текст докинуть и сохранить.

avshkol yesterday at 11:11

А как планируете раскрутить этот формат во всепланетном масштабе? Как минимум, нужна критическая масса статей на ключевых ит-сайтах. Функция для pandas, postgres и других фреймворков для работы с данными...

kolkoni yesterday at 12:45

Раскручивать во всепанетарном масштабе своими силами не планирую.
Буду использовать в реальных проектах и исследованиях, подсвечивая сам формат. Если людям зайдёт и накопится хотя бы некоторое количество примеров использования, то можно будет подумать об официальной регистрации стандарта.
В идеале хочу запустить аналог Google Sheets, только который ещё и работает в моем формате, а если много людей будет пользоваться, то и распространение будет органическим.