Comments / Profile of CrazyElf / Habr

How to become an author

User

Profile Publications Comments 816Bookmarks 10

Шесть навыков, которые выведут вашу карьеру в Data Science на новый уровень

CrazyElf Aug 26 2019 at 19:22

Ну, computer science — это слишком общее название, ни о чём. Со временем и data science станет таким же, в нём будет много разных специализаций. Но пока ощущается недостаток дата сайентистов, работодатели будут грести всех кто есть и заставлять их делать всё подряд.

Шесть навыков, которые выведут вашу карьеру в Data Science на новый уровень

CrazyElf Aug 26 2019 at 19:07

Ну, в оригинале написано «I am a data scientist with over 15 years’ experience working in the data industry.», просто она работала дата сайентистом тогда, когда эта профессия так ещё не называлась. %)

[ВОЗМОЖНО] СОРМ расшифровывает HTTPS трафик к Mail.ru и ICQ

CrazyElf Aug 26 2019 at 18:30

Пикчер бох! ) Извините )

Шесть навыков, которые выведут вашу карьеру в Data Science на новый уровень

CrazyElf Aug 26 2019 at 18:21

Охотно верю, что все работодатели хотят аналитиков с высоким коммуникативным уровнем, но где ж их столько взять? :)

15 книг по машинному обучению для начинающих

CrazyElf Aug 25 2019 at 15:00

Забавно, что хаб «Машинное обучение» при этом и не указан :)

Интерпретируемая модель машинного обучения. Часть 1

CrazyElf Aug 25 2019 at 09:34

«Интерпретируемая модель» сейчас очень много где термин встречается, обсуждается. «Эксплицитная модель» — это просто не переведённый английский термин, первый раз от вас такой вариант слышу вообще.

Интерпретируемая модель машинного обучения. Часть 1

CrazyElf Aug 23 2019 at 20:17

Вообще-то теория и практика идут как бы рука об руку. Теория развивается, что-то предсказывает, практика это проверяет, чтобы понять, права теория, или надо дальше думать. Потом наоборот — практика находит какие-то факты, которые ещё не объяснены теорией — и теория придумывает, как это объяснить. Это итеративный процесс, где одно невозможно без другого.

Интерпретируемая модель машинного обучения. Часть 1

CrazyElf Aug 23 2019 at 19:43

Ну это просто пример. Такие библиотеки обычно умеют работать с самыми разными моделями, воспринимая их как чёрный ящик.

Интерпретируемая модель машинного обучения. Часть 1

CrazyElf Aug 23 2019 at 19:40

Теория струн — это отдельный вырожденный случай. Вещь в себе. Да, она хорошо могла бы объяснить какие-то вещи, которые не могут объяснить другие теории, проблема только в том, что она не может дать никаких предсказаний, которые мы могли бы проверить. В общем, это куда-то в сторону философии. Всё-таки бОльшая часть науки идёт в ногу с практикой — нормальная научная теория должна быть проверяемой на практике, иначе какой в ней вообще смысл (кроме философских рассуждений на досуге)?

Интерпретируемая модель машинного обучения. Часть 1

CrazyElf Aug 23 2019 at 14:43

Давайте уж и про SHAP values тогда. )

Заблуждения начинающих C# разработчиков. Пытаемся ответить на стандартные вопросы

CrazyElf Aug 13 2019 at 19:56

Господи, вот хоть бы раз за мою долгую карьеру мне как-то пригодилось знание про поколения GC. Кроме как на собеседованиях — вообще ни разу не нужно было. И ещё туча таких же вопросов чисто собеседовательных.
В реальной жизни самое важное это вообще умение декомпозировать задачи, про которое ни на одном собеседовании не спросили и не спросят, потому что оно «не про язык программирования».

Cython: более чем 30-кратное ускорение Python-кода

CrazyElf Aug 11 2019 at 22:27

Будет видна, конечно. А к чему ваш вопрос, интересно?

Cython: более чем 30-кратное ускорение Python-кода

CrazyElf Aug 8 2019 at 15:02

Бешено плюсую Numba для численных вычислений в цикле и особенно в цикле в цикле.
Она даже больше чем Cython ускоряет в каких-то случаях, потому что может параллельно выполнять код и другие трюки использовать.

Cython: более чем 30-кратное ускорение Python-кода

CrazyElf Aug 8 2019 at 14:58

Для факториала таки лучше выше упомянутая Numba )

Питон и кубики

CrazyElf Aug 2 2019 at 23:13

Мартингейл штука прикольная, проблема только в том, что выигрыш невелик, а проиграть в случае неудачного расклада можно сразу всё. В итоге выходит то же на то же на длинной перспективе и без лимита денег. В казино то с этим вообще элементарно борятся (хоть и рандом, но лучше поберечься), ограничивая размер ставки снизу и сверху. Доступных шагов удвоения получается очень мало и стратегия кончается быстро и печально.

Таинственный противник: нечеткие заимствования

CrazyElf Jul 31 2019 at 13:24

Странно, пока показывает без исправления эту цитату в тексте.

Новый метод кластерного анализа

CrazyElf Jul 31 2019 at 12:00

Теоретически такое может быть. Но обычно когда пишут библиотеки для обработки именно очень больших данных, то их пишут именно с прицелом на большие данные, там используется несколько другая математика и вычисления делаются приблизительные. Поэтому результат работы такой библиотеки скорее всего будет всё-равно отличаться, ну и цель разработки библиотеки будет тогда заявлена совсем другая.
Сейчас появилось довольно много специальных библиотек для вычисления метрик похожести для больших данных (например NMSLIB), это отдельная интересная тема.

8 советов начинающим программистам или ретроспектива моей карьеры

CrazyElf Jul 30 2019 at 21:03

Ну, это какая-то неправильная декомпозиция. Либо баг совсем уж в ДНК программы. Разные файлы и разные степени абстракции должны собой представлять. Неужто баг на разных уровнях порылся?

8 советов начинающим программистам или ретроспектива моей карьеры

CrazyElf Jul 30 2019 at 21:00

А предъявить письма или что там с ежедневными изменениями требований почему нельзя было? Хотя если процессы в компании фундаментально поставлены фигово, то обычно с этим нельзя ничего сделать, только уволиться.

Новый метод кластерного анализа

CrazyElf Jul 30 2019 at 13:19

Не бывает универсально лучших методов кластеризации (по крайней мере сейчас картина такова), иначе их не было бы столько разных вариантов в том же sklearn-е, лучший бы всех заборол, а про остальные бы забыли. ML очень динамичная область, тут всё быстро. Сегодня в регрессии/классификации рулит Ranfom Forest, а завтра уже XGBoost. Но для кластеризации такой «монополизации рынка» мы пока не видим. Для каких-то наборов данных лучше одни методы работают, для каких-то другие. Поэтому, как уже указывали выше, надо сравнивать с другими алгоритмами кластеризации на пачке разных данных, как это опять же сделано в sklearn. Кстати, если визуализировать результаты на одних и тех же данных, сразу будет заодно чисто визуально видно — не является ли предлагаемый метод копией какого-то другого метода, уже реализованного в sklearn. Если он будет давать в точности те же результаты, что и какой-то другой метод, то выводы можно сделать довольно легко.

1 2 ...

40