Pull to refresh
1
0.2
Send message
Ну, computer science — это слишком общее название, ни о чём. Со временем и data science станет таким же, в нём будет много разных специализаций. Но пока ощущается недостаток дата сайентистов, работодатели будут грести всех кто есть и заставлять их делать всё подряд.
Ну, в оригинале написано «I am a data scientist with over 15 years’ experience working in the data industry.», просто она работала дата сайентистом тогда, когда эта профессия так ещё не называлась. %)
Охотно верю, что все работодатели хотят аналитиков с высоким коммуникативным уровнем, но где ж их столько взять? :)
Забавно, что хаб «Машинное обучение» при этом и не указан :)
«Интерпретируемая модель» сейчас очень много где термин встречается, обсуждается. «Эксплицитная модель» — это просто не переведённый английский термин, первый раз от вас такой вариант слышу вообще.
Вообще-то теория и практика идут как бы рука об руку. Теория развивается, что-то предсказывает, практика это проверяет, чтобы понять, права теория, или надо дальше думать. Потом наоборот — практика находит какие-то факты, которые ещё не объяснены теорией — и теория придумывает, как это объяснить. Это итеративный процесс, где одно невозможно без другого.
Ну это просто пример. Такие библиотеки обычно умеют работать с самыми разными моделями, воспринимая их как чёрный ящик.
Теория струн — это отдельный вырожденный случай. Вещь в себе. Да, она хорошо могла бы объяснить какие-то вещи, которые не могут объяснить другие теории, проблема только в том, что она не может дать никаких предсказаний, которые мы могли бы проверить. В общем, это куда-то в сторону философии. Всё-таки бОльшая часть науки идёт в ногу с практикой — нормальная научная теория должна быть проверяемой на практике, иначе какой в ней вообще смысл (кроме философских рассуждений на досуге)?
Давайте уж и про SHAP values тогда. )
Господи, вот хоть бы раз за мою долгую карьеру мне как-то пригодилось знание про поколения GC. Кроме как на собеседованиях — вообще ни разу не нужно было. И ещё туча таких же вопросов чисто собеседовательных.
В реальной жизни самое важное это вообще умение декомпозировать задачи, про которое ни на одном собеседовании не спросили и не спросят, потому что оно «не про язык программирования».
Будет видна, конечно. А к чему ваш вопрос, интересно?
Бешено плюсую Numba для численных вычислений в цикле и особенно в цикле в цикле.
Она даже больше чем Cython ускоряет в каких-то случаях, потому что может параллельно выполнять код и другие трюки использовать.
Для факториала таки лучше выше упомянутая Numba )

Мартингейл штука прикольная, проблема только в том, что выигрыш невелик, а проиграть в случае неудачного расклада можно сразу всё. В итоге выходит то же на то же на длинной перспективе и без лимита денег. В казино то с этим вообще элементарно борятся (хоть и рандом, но лучше поберечься), ограничивая размер ставки снизу и сверху. Доступных шагов удвоения получается очень мало и стратегия кончается быстро и печально.

Странно, пока показывает без исправления эту цитату в тексте.
Теоретически такое может быть. Но обычно когда пишут библиотеки для обработки именно очень больших данных, то их пишут именно с прицелом на большие данные, там используется несколько другая математика и вычисления делаются приблизительные. Поэтому результат работы такой библиотеки скорее всего будет всё-равно отличаться, ну и цель разработки библиотеки будет тогда заявлена совсем другая.
Сейчас появилось довольно много специальных библиотек для вычисления метрик похожести для больших данных (например NMSLIB), это отдельная интересная тема.
Ну, это какая-то неправильная декомпозиция. Либо баг совсем уж в ДНК программы. Разные файлы и разные степени абстракции должны собой представлять. Неужто баг на разных уровнях порылся?
А предъявить письма или что там с ежедневными изменениями требований почему нельзя было? Хотя если процессы в компании фундаментально поставлены фигово, то обычно с этим нельзя ничего сделать, только уволиться.
Не бывает универсально лучших методов кластеризации (по крайней мере сейчас картина такова), иначе их не было бы столько разных вариантов в том же sklearn-е, лучший бы всех заборол, а про остальные бы забыли. ML очень динамичная область, тут всё быстро. Сегодня в регрессии/классификации рулит Ranfom Forest, а завтра уже XGBoost. Но для кластеризации такой «монополизации рынка» мы пока не видим. Для каких-то наборов данных лучше одни методы работают, для каких-то другие. Поэтому, как уже указывали выше, надо сравнивать с другими алгоритмами кластеризации на пачке разных данных, как это опять же сделано в sklearn. Кстати, если визуализировать результаты на одних и тех же данных, сразу будет заодно чисто визуально видно — не является ли предлагаемый метод копией какого-то другого метода, уже реализованного в sklearn. Если он будет давать в точности те же результаты, что и какой-то другой метод, то выводы можно сделать довольно легко.

Information

Rating
2,561-st
Registered
Activity