Возможно, причина в том, что LaTeX изначально создавался не под HTML, а как самостоятельный язык, поэтому делать его официальным было бы странно, и, наверное, проблемно технически.
MathMl специально был предложен как тег <math> для HTML и буквально является его частью в HTML5. Для человека он нечитабелен, но для эффективной работы HTML, возможно, является лучше: не содержит в себе ничего «лишнего».
Как написали выше, TeX-скрипт можно автоматически конвертировать в MathML и не мучиться - очень удобно.
На моей практике LaTeX всё ещё остаётся популярным инструментом как в работе, так и для своих заметок.
Мне пригождалось использовать синтаксис LaTeX для написания формул: в презентациях, юпитер тетрадках, курсовой/дипломной/статье в журнале, на постере, на схемах и в markdown файлах для README в гите.
Что, как мне кажется, говорит о его широкой применимости, ведь довольно много платформ поддерживают синтаксис LaTeX.
Забавно, но в LaTeX действительно можно написать формулы некрасиво – он гибкий и любой отступ/размер или шрифт в нём можно настроить под себя – или, как в этом случае, против себя.
Добрый день! Спасибо за обратную связь. В данном случае чуть сложнее, чем Вы описали.. В датасете одна строка – один объект (статья), НО в каждом из этих объектов вложен список других объектов, представляющих собой отделяемые от статей сущности (авторы, ключевые слова, etc).
Если бы было достаточно работать со записями статей без агрегатов по тем же авторам – согласен, можно было бы обойтись корректировкой и валидацией, после чего загружать в БД. Но работа со связанными сущностями в этом конкретном случае потребовалась, и пришлось придумывать решение.
Вывод в CSV можно легко переделать в связку с pandas.to_sql() + psycopg/sqlalchemy – этот момент я оставляю на усмотрение читателя.
Добрый день! В моем случае, JSON было необходимо почистить от подстроки «NumberInt», которая была сохранена в JSON вне формата и ломала его. Т.к. статья про извлечение реляционных датасетов из построчного – посчитал нужным опустить описание корректировки и валидации, впредь учту.
За подсказку про импорт средствами PostgreSQL спасибо.
Так как JSON не плоский, в полях-внешних ключах (авторы, ключевые слова, etc) будут содержатся списки JSON-сущностей, которые средствами SQL придётся раскрывать также, как и здесь на Python – если необходимо использовать эти связи и строить агрегаты. Или встроенными средствами можно раскрыть эти связи из одного JSON сразу в несколько таблиц? Буду рад, если подскажете.
В основном договор заключается на месяц или год, у разных ТЦ по разному. Арендная плата состоит из двух частей, постоянной и переменной части. Постоянная зависит от площади арендуемого помещения, проходимости этого помещения ( рядом с эскалатором всегда дороже, чем в дальней части ТЦ). Переменная зависит от выручки арендатора, числа помещений и т.п. Данные по выручке предоставляются арендатором по договору. Посещения берутся по датчикам проходимости на входе. По поводу честности - это рыночная конкуренция, не нравится - пусть уходят. Но для этого и существует коэффициент ocr, чем он ниже, тем выгоднее арендатору.
И по поводу квартиры, если вы с ее помощью зарабатываете, то да, надо повысить.
Отвечу на ваш пример про кредит. Нельзя однозначно построить экспертную систему для решения этой проблемы, так как есть скрытые факторы, о которых вы и говорили. Банки всегда валидируют свои модели, и если бы экспертная система, основанная только на алгоритмах давала бы лучше показатели, то продолжали использовать её, но на данный момент инструменты с применением нейронных сетей показывают себя лучше. Следовательно XAI необходим, чтобы мы видели на что модели опираются при выводе результата и смогли проверить, не являются ли факторами на самом деле ложными, т.е. выбросами из данных и не относятся к реальным процессам
Добрый день!
Спасибо вам за совет.
Добрый день!
Я не работала в Markdown документах на VSC.
Тут либо настройки приложения смотреть и/ или установить нужное расширение.
Попробуйте ещё окружение equation, в обычном .tex файле оно работает с $$, но в Jupyter-ноутбуке работает и без них.
Проблем с использованием $$ пока не встречала.
Для вхождения в LaTeX, думаю, лучше привыкать $$ (потому что одинарные так и так останутся), чтобы легче запомнить.
А вот уже далее углубляться в нюансы.
Спасибо за ваш комментарий.
Добрый день!
Хороший вопрос.
Возможно, причина в том, что LaTeX изначально создавался не под HTML, а как самостоятельный язык, поэтому делать его официальным было бы странно, и, наверное, проблемно технически.
MathMl специально был предложен как тег <math> для HTML и буквально является его частью в HTML5. Для человека он нечитабелен, но для эффективной работы HTML, возможно, является лучше: не содержит в себе ничего «лишнего».
Как написали выше, TeX-скрипт можно автоматически конвертировать в MathML и не мучиться - очень удобно.
Добрый день!
Согласны с вами. Спасибо за интерес к публикации.
Добрый день!
На моей практике LaTeX всё ещё остаётся популярным инструментом как в работе, так и для своих заметок.
Мне пригождалось использовать синтаксис LaTeX для написания формул: в презентациях, юпитер тетрадках, курсовой/дипломной/статье в журнале, на постере, на схемах и в markdown файлах для README в гите.
Что, как мне кажется, говорит о его широкой применимости, ведь довольно много платформ поддерживают синтаксис LaTeX.
Спасибо за ваш комментарий!
Добрый день!
Для наглядности использовали картинки из Colab Notebook, ссылка на который приведена в посте.
Спасибо за ваш комментарий, я это учту.
Добрый день! Спасибо за ваш комментарий.
Забавно, но в LaTeX действительно можно написать формулы некрасиво – он гибкий и любой отступ/размер или шрифт в нём можно настроить под себя – или, как в этом случае, против себя.
Добрый день!
Спасибо, что делитесь полезными материалами.
Добрый день! Спасибо за обратную связь. В данном случае чуть сложнее, чем Вы описали.. В датасете одна строка – один объект (статья), НО в каждом из этих объектов вложен список других объектов, представляющих собой отделяемые от статей сущности (авторы, ключевые слова, etc).
Если бы было достаточно работать со записями статей без агрегатов по тем же авторам – согласен, можно было бы обойтись корректировкой и валидацией, после чего загружать в БД. Но работа со связанными сущностями в этом конкретном случае потребовалась, и пришлось придумывать решение.
Вывод в CSV можно легко переделать в связку с pandas.to_sql() + psycopg/sqlalchemy – этот момент я оставляю на усмотрение читателя.
Добрый день! В моем случае, JSON было необходимо почистить от подстроки «NumberInt», которая была сохранена в JSON вне формата и ломала его. Т.к. статья про извлечение реляционных датасетов из построчного – посчитал нужным опустить описание корректировки и валидации, впредь учту.
За подсказку про импорт средствами PostgreSQL спасибо.
Так как JSON не плоский, в полях-внешних ключах (авторы, ключевые слова, etc) будут содержатся списки JSON-сущностей, которые средствами SQL придётся раскрывать также, как и здесь на Python – если необходимо использовать эти связи и строить агрегаты. Или встроенными средствами можно раскрыть эти связи из одного JSON сразу в несколько таблиц? Буду рад, если подскажете.
Добрый день! Спасибо за ваш комментарий.
В процессе решения задачи тестировал различные модели, в том числе линейные, в которых использовал кодирование и не убрал из итогового варианта поста.
P.S.: Отличное замечание, так как one-hot кодирование в случае с Сatboost может негативно
повлиять на время обучения и результат.
Добрый день!
Итоговый скор и место в лидерборде рассчитывается по метрике accuracy.
Работа, которую я проделал, была направлена на улучшение этой метрики путем предобработки данных и подбора гиперпараметров на валидационной выборке.
Добрый день!
В основном договор заключается на месяц или год, у разных ТЦ по разному. Арендная плата состоит из двух частей, постоянной и переменной части. Постоянная зависит от площади арендуемого помещения, проходимости этого помещения ( рядом с эскалатором всегда дороже, чем в дальней части ТЦ). Переменная зависит от выручки арендатора, числа помещений и т.п. Данные по выручке предоставляются арендатором по договору. Посещения берутся по датчикам проходимости на входе. По поводу честности - это рыночная конкуренция, не нравится - пусть уходят. Но для этого и существует коэффициент ocr, чем он ниже, тем выгоднее арендатору.
И по поводу квартиры, если вы с ее помощью зарабатываете, то да, надо повысить.
Добрый день, большое спасибо за проявленный интерес! Пайплайны действительно лучше подходят для подобных задач.
Добрый день!
Спасибо за комментарий! В дальнейшем будем учитывать этот момент при подборе гиперпараметров для ML моделей.
Отвечу на ваш пример про кредит. Нельзя однозначно построить экспертную систему для решения этой проблемы, так как есть скрытые факторы, о которых вы и говорили. Банки всегда валидируют свои модели, и если бы экспертная система, основанная только на алгоритмах давала бы лучше показатели, то продолжали использовать её, но на данный момент инструменты с применением нейронных сетей показывают себя лучше. Следовательно XAI необходим, чтобы мы видели на что модели опираются при выводе результата и смогли проверить, не являются ли факторами на самом деле ложными, т.е. выбросами из данных и не относятся к реальным процессам
Честно говоря, про возможность сжатия json\csv отдельно узнал уже после написания статьи в связи с чем при тестировании сжатие не использовалось.
Про сетап, вычитывал 5 колонок из 61 с подсчетом кол-ва строк.
Конфиг выбирал таким образом, чтобы он в среднем соответствовал используемым конфигам в работе:
spark.executor.instances = 4
spark.executor.core = 3
spark.driver.inctances = 1
spark.driver.memory = 4g
spark.executor.memory = 8g
overhead ~ 25% от показателя memory на driver`е и executor`е
Количество файлов на данный момент не возможно получить, поскольку данные таблички уже удалены за ненадобностью
По этой же причине не смогу вам ответить по кумулятивному потреблению памяти и процессора на тест.
Объем на диске рассчитывался без учета фактора репликации, т.е. он соответствует фактору репликации 1, если я конечно правильно понял ваш вопрос.
Вообще да, это достаточно спорный минус в общем.
Опечатался, прошу прощение. Смысл в том, что каждый создаваемый spark`ом файл состоит из строк формата:
{“json_col”: value, ….}
{“json_col”: value, ….}
….
Спасибо за дополнительную информацию.