Articles / Bookmarks / Profile of krivotester / Habr

@krivotester

CTO в «Карта Офиса»

ProfileArticles16PostsNewsComments499

makasin4ik Apr 3 2019 at 12:21

Правда про парсинг сайтов, или «все интернет-магазины делают это»

11 min

121K

Web analytics*Internet marketing*Content-marketing*E-commerce management*

В этой статье я постараюсь наиболее просто рассказать о парсинге сайтов и его основных нюансах. Моя компания занимается парсингом сайтов уже более трёх лет и ежедневно мы парсим около 300 сайтов. Я обычно открыто пишу об этом в соц.сетях (плюс мы много чего из итогов парсинга крупнейших магазинов России выкладываем бесплатно — публично), что вызывает бурные обсуждения и неодобрение со стороны пользователей. Забавно после прочтения комментариев заглядывать к себе в личку и читать сообщения с предложениями о сотрудничестве от тех же людей, кто только что осуждал нас в комментариях под постом :) Вся статья будет в формате наиболее часто задаваемых вопросов и честных ответов (материал маркетинговый, не технический).

Читать дальше →

+94

411

1appleapple0 Dec 24 2018 at 20:28

Я у мамы алготрейдер: ищем бесплатные фреймворки для тестирования гипотез и запуска в боевом режиме (Python)

9 min

17K

Finance in ITAlgorithms*Python*Data Mining*DIY

Допустим, вы имели какое-то отношение к фондовому рынку раньше. Или, не имея такового, увлеклись горячей (но в последние месяцы уже заметно похолодевшей....) темой криптовалют. Также предположим, что вы пошли еще дальше и решили, что «ручное управление» полетами уже неэффективно и надо бы автоматизировать свои светлые идеи и превратить мартышкин труд в нечто более технологичное. Ровно на этом моменте начинаются вопросы, которые я хотел бы обсудить в статье, а именно: есть ли готовое решение для бэктестинга торговых идей (бесплатное желательно), где взять исторические данные (в идеале бесплатно), а также что с этим всем потом делать, т.е. какие существуют решения для боевого запуска автоматизированных торговых систем, успешно проверенных на бэктесте? Примечание первое и второе: статья написана для Python-based библиотек и систем, как дела с доступностью для других языков судить не могу; в приоритете — зарубежные рынки и/или криптовалюты, относительно применимости к фондовому рынку РФ судить также не берусь.

Читать дальше →

a-pichugin Mar 6 2018 at 09:59

Обзор нового алгоритма уменьшения размерности UMAP. Действительно ли он лучше и быстрее, чем t-SNE?

6 min

28K

New Professions Lab corporate blogMachine learning*Data visualization*Data Mining*Big Data*

Привет, Хабр! Задача снижения размерности является одной из важнейших в анализе данных и может возникнуть в двух следующих случаях. Во-первых, в целях визуализации: перед тем, как работать с многомерными данными, исследователю может быть полезно посмотреть на их структуру, уменьшив размерность и спроецировав их на двумерную или трехмерную плоскость. Во-вторых, понижение размерности полезно для предобработки признаков в моделях машинного обучения, поскольку зачастую неудобно обучать алгоритмы на сотне признаков, среди которых может быть множество зашумленных и/или линейно зависимых, от них нам, конечно, хотелось бы избавиться. Наконец, уменьшение размерности пространства значительно ускоряет обучение моделей, а все мы знаем, что время — это наш самый ценный ресурс.

UMAP (Uniform Manifold Approximation and Projection) — это новый алгоритм уменьшения размерности, библиотека с реализацией которого вышла совсем недавно. Авторы алгоритма считают, что UMAP способен бросить вызов современным моделям снижения размерности, в частности, t-SNE, который на сегодняшний день является наиболее популярным. По результатам их исследований, у UMAP нет ограничений на размерность исходного пространства признаков, которое необходимо уменьшить, он намного быстрее и более вычислительно эффективен, чем t-SNE, а также лучше справляется с задачей переноса глобальной структуры данных в новое, уменьшенное пространство.

В данной статье мы постараемся разобрать, что из себя представляет UMAP, как настраивать алгоритм, и, наконец, проверим, действительно ли он имеет преимущества перед t-SNE.

Читать дальше →

+20

sim0nsays Jun 15 2018 at 06:50

Курс о Deep Learning на пальцах

2 min

176K

RoboticsImage processing*Machine learning*Artificial Intelligence

Я все еще не до конца понял, как так получилось, но в прошлом году я слово за слово подписался прочитать курс по Deep Learning и вот, на удивление, прочитал. Обещал — выкладываю!

Курс не претендует на полноту, скорее это способ поиграться руками с основными областями, где deep learning устоялся как практический инструмент, и получить достаточную базу, чтобы свободно читать и понимать современные статьи.

Материалы курса были опробованы на студентах кафедры АФТИ Новосибирского Государственного Университета, поэтому есть шанс, что по ним действительно можно чему-то научиться.

Читать дальше →

+117

Lexxo Jun 27 2016 at 13:06

Как работает метод главных компонент (PCA) на простом примере

10 min

301K

Python*Algorithms*Machine learning*

From sandbox

В этой статье я бы хотел рассказать о том, как именно работает метод анализа главных компонент (PCA – principal component analysis) с точки зрения интуиции, стоящей за ее математическим аппаратом. Максимально просто, но подробно.

Читать дальше →

+17

masterkit Nov 26 2015 at 07:53

Три пятерки для электронщика

3 min

17K

МАСТЕР КИТ corporate blogDIYElectronics for beginners

Компания Мастер Кит, выпускающая серию обучающих наборов для начинающих под общим названием «Азбука электронщика», конечно же, не могла обойти вниманием такой известный компонент, как «легендарный» интегральный таймер NE555. И, если в первом наборе «Основы схемотехники», рассматриваются 15 простейших схем с применением основных электронных компонентов (резисторов, конденсаторов, транзисторов, диодов), то в наборе, который мы назвали «Классика схемотехники», приведены 20 схем с применением таймера NE555.

Читать дальше →

+15