denis-19 18 дек 2024 в 15:49

Microsoft выпустила MarkItDown — открытый инструмент на Python для преобразования файлов и офисных документов в Markdown

1 мин

11K

Open source*Windows*Управление разработкой*Системное администрирование*Python*

+16

Комментарии 8

QtRoS 18 дек 2024 в 20:42

В репозитории подозрительно мало кода. Это вызвало любопытство, пробежался глазами по реализации. Оказалось, что либа чуть более чем полностью состоит из набора хаков и довольно прямолинейных способов распарсить разные форматы файлов. Несколько рандомных строчек, за которые зацепился глаз:

alt_text = shape._element._nvXxPr.cNvPr.attrib.get("descr", "")
qs["u"][0][2:].strip() + "=="
except ValueError: # It's not clear if this ever gets thrown
Todo

Кажется, что раньше Microsoft делал либы покачественнее...

kompilainenn2 18 дек 2024 в 20:56

Как Гвидо их научил, так и лепят =)

4external 18 дек 2024 в 22:25

Вроде всё просто

class DocxConverter(HtmlConverter): """ Converts DOCX files to Markdown. Style information (e.g.m headings) and tables are preserved where possible. """ ... result = mammoth.convert_to_html(docx_file, style_map=style_map)А для ковертации Excel используют import pandas as pd

QtRoS 19 дек 2024 в 05:11

Именно, до неприличия просто. Майкрософт парсит свои форматы файлов опенсорсными либами и костылями с прямым доступом к структуре - мне странно такое видеть в официальной библиотеке компании.

bilayan 18 дек 2024 в 23:09

Они просто выложили свою обертку, в которой в однотипные команды обернули уже существующие библиотеки. По сути ничего нового и радоваться нечему, просто выдёргивание текстовой информации из файлов чтоб потом скормить нейросетке.

KizhiFox 19 дек 2024 в 10:56

Так а зачем переусложнять? 90% документов базового пользователя покроет, а для того, чтобы оставшиеся сложные кейсы добить, и ста лет не хватит

Amours 19 дек 2024 в 02:00

Visio не завезли?

shoorick 19 дек 2024 в 07:10

А зачем оно? Есть же pandoc

Зарегистрируйтесь на Хабре, чтобы оставить комментарий