Comments / Profile of NewTechAudit / Habr

Возможно, причина в том, что LaTeX изначально создавался не под HTML, а как самостоятельный язык, поэтому делать его официальным было бы странно, и, наверное, проблемно технически.

MathMl специально был предложен как тег <math> для HTML и буквально является его частью в HTML5. Для человека он нечитабелен, но для эффективной работы HTML, возможно, является лучше: не содержит в себе ничего «лишнего».

Как написали выше, TeX-скрипт можно автоматически конвертировать в MathML и не мучиться - очень удобно.

Look

Как красиво писать формулы c LaTeX?

NewTechAudit Mar 21 2023 at 09:00

Добрый день!

Согласны с вами. Спасибо за интерес к публикации.

Look

Как красиво писать формулы c LaTeX?

NewTechAudit Mar 21 2023 at 06:35

Добрый день!

На моей практике LaTeX всё ещё остаётся популярным инструментом как в работе, так и для своих заметок.

Мне пригождалось использовать синтаксис LaTeX для написания формул: в презентациях, юпитер тетрадках, курсовой/дипломной/статье в журнале, на постере, на схемах и в markdown файлах для README в гите.

Что, как мне кажется, говорит о его широкой применимости, ведь довольно много платформ поддерживают синтаксис LaTeX.

Спасибо за ваш комментарий!

Look

Как красиво писать формулы c LaTeX?

NewTechAudit Mar 21 2023 at 06:32

Добрый день!

Для наглядности использовали картинки из Colab Notebook, ссылка на который приведена в посте.

Спасибо за ваш комментарий, я это учту.

Look

Как красиво писать формулы c LaTeX?

NewTechAudit Mar 21 2023 at 06:29

Добрый день! Спасибо за ваш комментарий.

Забавно, но в LaTeX действительно можно написать формулы некрасиво – он гибкий и любой отступ/размер или шрифт в нём можно настроить под себя – или, как в этом случае, против себя.

Look

Как красиво писать формулы c LaTeX?

NewTechAudit Mar 20 2023 at 11:50

Добрый день!

Спасибо, что делитесь полезными материалами.

Look

Что, где, откуда: извлекаем реляционный датасет из JSON

NewTechAudit Mar 13 2023 at 07:29

Добрый день! Спасибо за обратную связь. В данном случае чуть сложнее, чем Вы описали.. В датасете одна строка – один объект (статья), НО в каждом из этих объектов вложен список других объектов, представляющих собой отделяемые от статей сущности (авторы, ключевые слова, etc).

Если бы было достаточно работать со записями статей без агрегатов по тем же авторам – согласен, можно было бы обойтись корректировкой и валидацией, после чего загружать в БД. Но работа со связанными сущностями в этом конкретном случае потребовалась, и пришлось придумывать решение.

Вывод в CSV можно легко переделать в связку с pandas.to_sql() + psycopg/sqlalchemy – этот момент я оставляю на усмотрение читателя.

Look

Что, где, откуда: извлекаем реляционный датасет из JSON

NewTechAudit Mar 13 2023 at 07:27

Добрый день! В моем случае, JSON было необходимо почистить от подстроки «NumberInt», которая была сохранена в JSON вне формата и ломала его. Т.к. статья про извлечение реляционных датасетов из построчного – посчитал нужным опустить описание корректировки и валидации, впредь учту.

За подсказку про импорт средствами PostgreSQL спасибо.

Так как JSON не плоский, в полях-внешних ключах (авторы, ключевые слова, etc) будут содержатся списки JSON-сущностей, которые средствами SQL придётся раскрывать также, как и здесь на Python – если необходимо использовать эти связи и строить агрегаты. Или встроенными средствами можно раскрыть эти связи из одного JSON сразу в несколько таблиц? Буду рад, если подскажете.

Look

Как улучшить точность ML-модели используя разведочный анализ

NewTechAudit Mar 7 2023 at 08:54

Добрый день! Спасибо за ваш комментарий.

В процессе решения задачи тестировал различные модели, в том числе линейные, в которых использовал кодирование и не убрал из итогового варианта поста.

P.S.: Отличное замечание, так как one-hot кодирование в случае с Сatboost может негативно
повлиять на время обучения и результат.

Look

Как улучшить точность ML-модели используя разведочный анализ

NewTechAudit Feb 28 2023 at 07:23

Добрый день!

Итоговый скор и место в лидерборде рассчитывается по метрике accuracy.

Работа, которую я проделал, была направлена на улучшение этой метрики путем предобработки данных и подбора гиперпараметров на валидационной выборке.

Look

Технологии помогают бизнесу: как предсказать «побег» арендаторов из торговых центров при помощи ML-модели

NewTechAudit Feb 16 2023 at 10:46

Добрый день!

В основном договор заключается на месяц или год, у разных ТЦ по разному. Арендная плата состоит из двух частей, постоянной и переменной части. Постоянная зависит от площади арендуемого помещения, проходимости этого помещения ( рядом с эскалатором всегда дороже, чем в дальней части ТЦ). Переменная зависит от выручки арендатора, числа помещений и т.п. Данные по выручке предоставляются арендатором по договору. Посещения берутся по датчикам проходимости на входе. По поводу честности - это рыночная конкуренция, не нравится - пусть уходят. Но для этого и существует коэффициент ocr, чем он ниже, тем выгоднее арендатору.

И по поводу квартиры, если вы с ее помощью зарабатываете, то да, надо повысить.

Look

Решение бизнес-задачи с помощью многофакторного кластерного анализа и здравого смысла

NewTechAudit Feb 9 2023 at 07:17

Добрый день, большое спасибо за проявленный интерес! Пайплайны действительно лучше подходят для подобных задач.

Look

Строим свое будущее: как выбрать квартиру, опираясь на методы регрессионного анализа?

NewTechAudit Feb 1 2023 at 11:11

Добрый день!

Спасибо за комментарий! В дальнейшем будем учитывать этот момент при подборе гиперпараметров для ML моделей.

Look

Визуализация весов в машинном обучении на примере алгоритма Random Forest и Decision Tree

NewTechAudit Jan 27 2023 at 05:27

Отвечу на ваш пример про кредит. Нельзя однозначно построить экспертную систему для решения этой проблемы, так как есть скрытые факторы, о которых вы и говорили. Банки всегда валидируют свои модели, и если бы экспертная система, основанная только на алгоритмах давала бы лучше показатели, то продолжали использовать её, но на данный момент инструменты с применением нейронных сетей показывают себя лучше. Следовательно XAI необходим, чтобы мы видели на что модели опираются при выводе результата и смогли проверить, не являются ли факторами на самом деле ложными, т.е. выбросами из данных и не относятся к реальным процессам

Look

Выбираем формат хранения данных в экосистеме Hadoop

NewTechAudit Jan 25 2023 at 09:50

Честно говоря, про возможность сжатия json\csv отдельно узнал уже после написания статьи в связи с чем при тестировании сжатие не использовалось.

Про сетап, вычитывал 5 колонок из 61 с подсчетом кол-ва строк.

Конфиг выбирал таким образом, чтобы он в среднем соответствовал используемым конфигам в работе:

spark.executor.instances = 4

spark.executor.core = 3

spark.driver.inctances = 1

spark.driver.memory = 4g

spark.executor.memory = 8g

overhead ~ 25% от показателя memory на driver`е и executor`е