Comments / Profile of fediq / Habr

Федор Лаврентьев @fediq

Data Engineering Divine

ProfileArticles6PostsNewsComments117

Нужно ли бояться несбалансированности классов?

fediq Feb 15 2018 at 10:59

Мы говорим о совсем разных вещах, увы.

Look

Нужно ли бояться несбалансированности классов?

fediq Feb 14 2018 at 20:54

В прикладном датасаенсе правильная постановка задачи значит много больше, чем сравнительный тест неправильной постановки. Это тоже голая философия.

Look

Делаем лог-систему для Minecraft

fediq Jan 31 2018 at 13:02

В стеке ElasticSearch это всё из коробки будет. Свои велосипеды, напротив, это почти всегда неполноценное решение. Не надо так, учитесь переиспользовать опыт предков.

Look

Делаем лог-систему для Minecraft

fediq Jan 31 2018 at 05:25

Чего только не делают люди, лишь бы не читать best practice...

Однопоточное приложение не в состоянии нагрузить больше одного потока нормально написанного логгера.

Поэтому: асинхронный аппендер logback, все параметры блока в MDC, там бинарный сериализатор — и в logstash. Всё, минимум кода, один конфиг.

Оттуда можно или в файлы писать, если месье так нравится, или, что более юзабельно, в ElasticSearch. Опять никакого кода, один лишь конфиг. Если logstash вынести на соседнюю машину, можно ещё и ресурсы главного хоста сэкономить.

Look

Как я сделал AI для выявления фейковых новостей с точностью в 95% и чуть не рехнулся

fediq Jan 26 2018 at 12:30

Интересно, как автор понял, что он сам в состоянии отделить настоящие новости от фейковых и сформировать обучающую выборку? Можно ли использовать его дар, чтобы методом перебора понять, кто же все-таки сбил малайзийский Боинг?

+13

Look

«День знаний» для ИИ: опубликован ТОП30 самых впечатляющих проектов по машинному обучению за прошедший год (v.2018)

fediq Jan 19 2018 at 18:45

Где DeepFakes?!

Look

Как мы переписали архитектуру Яндекс.Погоды и сделали глобальный прогноз на картах

fediq Nov 30 2017 at 10:15

А как вы измеряете качество своего прогноза и собираете эталоны для обучения? Проводите ли сравнение с другими метеослужбами?

Look

Почему SQL одерживает верх над NoSQL, и к чему это приведет в будущем

fediq Oct 18 2017 at 21:04

Для SQL РСУБД само собой подразумевается наличие ACID. С этим у NoSQL все очень плохо, поддержку ACID заявляют только мифический Google Spanner, глюкавый OrientDB и ныне почивший FoundationDB. Языковая обертка совсем не спасает — SQL в NoSQL используют почти исключительно для OLAP.

В другую сторону, для NoSQL часто подразумевается почти линейная масштабируемость и shared-nothing. С этим у классических РСУБД все очень плохо — транзакционный движок это нерасширяемый SPOF, мастер-мастер репликация это безнадежно, универсальное шардирование не совместимо с контролем строгости внешних ключей и т.п.

Look

Почему SQL одерживает верх над NoSQL, и к чему это приведет в будущем

fediq Oct 18 2017 at 10:08

Забавно, что как сетевики пытаются съехать с IPv4 на IPv6, так и программисты тяготеют к созданию локальных коммьюнити. Выглядит так, будто "narrow waist" это вынужденная мера, от которой при необходимости попытаются избавиться.

Надо ли адаптировать SQL как "narrow waist" в данных, когда там и так справляются многообразием технологий и языков? Получается, вопрос весьма дискуссионный.

Look

Почему SQL одерживает верх над NoSQL, и к чему это приведет в будущем

fediq Oct 18 2017 at 10:04

"Narrow waist" не надо переводить как "узкое место". "Узкое место" в техническом сленге носит ярко выраженный негативный оттенок, ближайший аналог в английском это "bottleneck". Узкое место — это плохо, его надо или ликвидировать, или обойти.

Автор же имел ввиду скорее позитивное явление, что IP выступает как общее связующее звено для разнообразнейших транспортно-прикладных протоколов и способов организации передачи данных. Это просто закономерный исторический факт, как и то, что все программисты говорят друг с другом на английском.

Look

Bigdata стек глазами воинствующего ораклойда

fediq Sep 4 2017 at 19:15

Выглядит так, будто вы посмотрели на Hadoop v0.20 в 2009ом, после этого впали в кому с кошмарами из маркетингового мусора, а теперь проснулись и озираетесь по сторонам "О-о-о, айфоны!.. О-о-о, спарк!.. О-о-о, паркет...".

Look

Призрак локомотива или биржевой рынок через призму корреляций

fediq Jul 28 2017 at 13:01

Отсутствие проверки значимости делает ваши выводы голословными.

Проваленная проверка будет означать, что наблюдаемый вами эффект — не более, чем статистический шум. Тогда все выводы пойдут в ведро, а следующую статью можно будет не писать.

Look

Призрак локомотива или биржевой рынок через призму корреляций

fediq Jul 28 2017 at 11:21

Попробуйте оценить уровень значимости корреляций.
Так как вы попарно сравниваете 90+ таймлайнов, то надо провести коррекцию на множественное тестирование, например, поправкой Бонферрони.

После этого вполне может оказаться, что ни одной значимой корреляции не осталось.

Look

Анализируем карьеру игроков NHL с помощью Survival Regression и Python

fediq Jul 18 2017 at 14:36

Функция выживаемости должна быть невозрастающей.

Почему график функции для Степана достигает минимума на 23 сезонах, а дальше возрастает?

График

Look

Электронная демократия или как собрать и обработать данные по голосованию (и явке) за реновацию в Москве

fediq Jul 18 2017 at 10:45

Такие зубчатые артефакты часто бывают на распределениях дробей. Грубо говоря, получить 50% можно в любом доме с четным числом квартир (1/2, 10/20, 50/100, ...), а 85% только в домах, где число квартир кратно 20 (17/20, 51/60, ...).

Look

Платформа Node.js обойдёт Java в течение года

fediq Jul 11 2017 at 07:21

В статье есть ссылка: http://blog.builtinnode.com/post/from-java-to-node-the-netflix-story
Они перевели фронтенд на node.js в процессе переделки верстки на SPA. И это, в общем-то, логично.
Под фронтендом я имею ввиду сервера переднего звена, которые генерируют верстку и принимают запросы от пользователя. Переписывать бекенд (нижележащие звенья, всякие микросервисы) на node.js они, конечно, не будут.

Вдруг посетила идея, что, возможно, хайп вызван тем, что в маленьких проектах часто всего одно звено, и его и зовут бекендом. И если разработчики, которые раньше не видели многозвенных приложений, видят модный доклад про переделку верстки на node.js, они могут воспринять это как миграцию всего приложения. И вот тут начинаются статьи на тему того, что Java умирает.

Look

Платформа Node.js обойдёт Java в течение года

fediq Jul 9 2017 at 11:52

Много легаси кода это не "занял нишу". Это "пока не до конца выпилили".

Доля новых скриптов на Perl неукоснительно падает и сейчас плещется в районе нуля, по сравнению с лидерством на рынке в начале нулевых.

Расцвет COBOL и Ada я не застал, но сейчас все рассказы про них начинаются с фразы "МНОГО легаси кода".

Look

Платформа Node.js обойдёт Java в течение года

fediq Jul 8 2017 at 20:25

COBOL? Ada? Perl?

Look

Платформа Node.js обойдёт Java в течение года

fediq Jul 8 2017 at 20:22

А может, это просто баг? А нода ни при чем?

Look

Вероятностный и информационный анализ результатов измерений на Python

fediq Jul 1 2017 at 12:39

Диаграммы полностью идентичны, ...

Диаграммы не идентичны. Обратите внимание на бины в районе 1.0. Видно, что функция hist() размещает в единице правую границу бина, ваша же функция размещает его центр. Из-за этого на вашем графике появляется лишний бин, а высота предшествующего ему бина оказывается ниже на один пункт.

Look

1 2 3

5 6