Обновить
1
0
Aidarov Kirill@windweb

QA / Data Scientist / Economist / Skipper

Отправить сообщение

Открытый курс машинного обучения. Тема 2: Визуализация данных c Python

Время на прочтение15 мин
Охват и читатели466K

Второе занятие посвящено визуализации данных в Python. Сначала мы посмотрим на основные методы библиотек Seaborn и Plotly, затем поанализируем знакомый нам по первой статье набор данных по оттоку клиентов телеком-оператора и подглядим в n-мерное пространство с помощью алгоритма t-SNE. Есть и видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017).


UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.


Сейчас статья уже будет существенно длиннее. Готовы? Поехали!

Читать дальше →

Нечеткий поиск в словаре с универсальным автоматом Левенштейна. Часть 1

Время на прочтение9 мин
Охват и читатели110K


Нечеткий поиск строк является весьма дорогостоящей в смысле вычислительных ресурсов задачей, особенно если вам необходима высокая точность получаемых результатов. В статье описан алгоритм нечеткого поиска в словаре, который обеспечивает высокую скорость поиска при сохранении 100% точности и сравнительно низком потреблении памяти. Именно автомат Левенштейна позволил разработчикам Lucene повысить скорость нечеткого поиска на два порядка
Читать дальше →

Руководство по использованию pandas для анализа больших наборов данных

Время на прочтение16 мин
Охват и читатели179K
При использовании библиотеки pandas для анализа маленьких наборов данных, размер которых не превышает 100 мегабайт, производительность редко становится проблемой. Но когда речь идёт об исследовании наборов данных, размеры которых могут достигать нескольких гигабайт, проблемы с производительностью могут приводить к значительному увеличению длительности анализа данных и даже могут становиться причиной невозможности проведения анализа из-за нехватки памяти.

В то время как инструменты наподобие Spark могут эффективно обрабатывать большие наборы данных (от сотен гигабайт до нескольких терабайт), для того чтобы полноценно пользоваться их возможностями обычно нужно достаточно мощное и дорогое аппаратное обеспечение. И, в сравнении с pandas, они не отличаются богатыми наборами средств для качественного проведения очистки, исследования и анализа данных. Для наборов данных средних размеров лучше всего попытаться более эффективно использовать pandas, а не переходить на другие инструменты.



В материале, перевод которого мы публикуем сегодня, мы поговорим об особенностях работы с памятью при использовании pandas, и о том, как, просто подбирая подходящие типы данных, хранящихся в столбцах табличных структур данных DataFrame, снизить потребление памяти почти на 90%.
Читать дальше →

Как устроены технические стажировки Авито

Время на прочтение12 мин
Охват и читатели27K

Несколько раз в год мы набираем стажёров в технический департамент Авито. Они работают от шести месяцев до года и решают боевые задачи. По итогам большинство стажёров переходят в штат.


Нас зовут Станислав Юрков и Ирина Мулёва, мы набираем стажёров и помогаем им в процессе обучения. В статье мы расскажем, как устроены технические стажировки и ответим на частые вопросы кандидатов.


Читать дальше →

Обзор книги «Теоретический минимум по Computer Science. Всё, что нужно программисту и разработчику»

Время на прочтение6 мин
Охват и читатели46K

Прочитав название книги, многие из вас, наверное, скажут: «Ну вот, ещё одна книга для чайников. Опять нам будут рассказывать о том, что такое двоичная система исчисления и какие бывают циклы». Отчасти вы будете правы: в книге рассказывается о простых и базовых понятиях и принципах, которые должен знать каждый программист. Только вот «теоретический минимум», изложенный в книге, включает в себя множество интересных и полезных вещей, о которых мало пишут в подобной литературе начального уровня. Задайте себе вопрос: действительно ли вы так хорошо знаете основы того, что называется Computer Science?

Читать далее

Обзор книги Аллена Б. Дауни «Think Python. Основы Python»

Время на прочтение5 мин
Охват и читатели20K

Написать хороший учебник по Python сложно. Пожалуй, сложнее, чем по любому другому языку программирования. Как ни странно, из-за того, что Python — универсальный, распространённый и очень простой язык. Но Аллену Дауни, профессору компьютерных наук, это, похоже, удалось.

В книге найдётся интересное упражнение для изучения любого аспекта языка Python. Если вы изучаете обязательный в таких случаях модуль turtle, то будете рисовать с помощью черепашки не просто какие-то скучные прямоугольники, а буквы алфавита и спираль Архимеда. А ещё — почему бы нам не нарисовать один из самых знаменитых фракталов — кривую Коха? Если вы знакомитесь с понятием функции, то вместо скучных вычислений попробуйте найти решение уравнения Великой теоремы Ферма.

Читать далее

SQL запросы быстро. Часть 1

Время на прочтение5 мин
Охват и читатели1.9M
Подписаться в telegram: t.me/korocheproduct

Введение


Язык SQL очень прочно влился в жизнь бизнес-аналитиков и требования к кандидатам благодаря простоте, удобству и распространенности. Из собственного опыта могу сказать, что наиболее часто SQL используется для формирования выгрузок, витрин (с последующим построением отчетов на основе этих витрин) и администрирования баз данных. И поскольку повседневная работа аналитика неизбежно связана с выгрузками данных и витринами, навык написания SQL запросов может стать фактором, из-за которого кандидат или получит преимущество, или будет отсеян. Печальная новость в том, что не каждый может рассчитывать получить его на студенческой скамье. Хорошая новость в том, что в изучении SQL нет ничего сложного, это быстро, а синтаксис запросов прост и понятен. Особенно это касается тех, кому уже доводилось сталкиваться с более сложными языками.

Обучение SQL запросам я разделил на три части. Эта часть посвящена базовому синтаксису, который используется в 80-90% случаев. Следующие две части будут посвящены подзапросам, Join'ам и специальным операторам. Цель гайдов: быстро и на практике отработать синтаксис SQL, чтобы добавить его к арсеналу навыков.

Практика


Введение в синтаксис будет рассмотрено на примере открытой базы данных, предназначенной специально для практики SQL. Чтобы твое обучение прошло максимально эффективно, открой ссылку ниже в новой вкладке и сразу запускай приведенные примеры, это позволит тебе лучше закрепить материал и самостоятельно поработать с синтаксисом.
Читать дальше →

Создание кастомного плагина для October CMS

Время на прочтение11 мин
Охват и читатели10K
Мы продолжаем рассматривать October CMS и её особенности. Мы в LOVATA уже 6 лет работаем с этой системой и за это время убедились в том, что её растущая популярность абсолютно заслуженная.

Сегодня мы подготовили перевод еще одной статьи, на этот раз авторства Andriy Haydash. Данная статья посвящена созданию кастомной функциональности через плагины. Предыдущую статью, посвященную сравнению October CMS и WordPress, вы можете найти здесь.


Читать дальше →

Детальное сравнение WordPress и October CMS

Время на прочтение28 мин
Охват и читатели38K
Меня зовут Павел Ловцевич, я сооснователь и CTO веб-студии LOVATA. Одной из основных платформ, на которой мы разрабатываем проекты для наших заказчиков, является October CMS, с которой мы работаем уже почти 6 лет.

Эта CMS несколько опередила свое время и не сразу снискала заслуженную популярность. Однако в последние пару лет она переживает своего рода ренессанс, свидетельством чему является множество упоминаний о ней в англоязычной среде разработчиков.

С целью поддержать эту волну данным переводом я начинаю серию статей об этой прекрасной CMS.


Читать дальше →

Preload, prefetch и другие теги

Время на прочтение9 мин
Охват и читатели163K
Есть много способов повышения веб-производительности. Один из них — предзагрузка контента, который понадобится позже. Префетчинг CSS, предварительный рендеринг полной страницы или резолвинг доменного имени. Делаем всё заранее, а потом мгновенно отображаем результат! Звучит круто.

Ещё круче, что это очень просто реализовано. Пять тегов <link rel> дают браузеру команду на предварительные действия:

<link rel="prefetch" href="/style.css" as="style" />
<link rel="preload" href="/style.css" as="style" />

<link rel="preconnect" href="https://example.com" />
<link rel="dns-prefetch" href="https://example.com" />

<link rel="prerender" href="https://example.com/about.html" />
Читать дальше →

Опыт инвестиций в акции

Время на прочтение4 мин
Охват и читатели85K
Всем привет. Опрос в моем прошлом посте показал, что людям хотелось бы почитать о моем опыте инвестиций. На данный момент мой ИИС открыт 1 год и 3 месяца назад. Инвестировал я 500 000 рублей за это время.
Читать дальше →

Как снизить расходы на рекламу в Яндекс.Директе и Google Ads: 9 лайфхаков

Время на прочтение13 мин
Охват и читатели33K
Как снизить расходы на рекламу в Яндекс.Директе и Google Ads: 9 лайфхаков

Для того чтобы платить меньше за контекстную рекламу (или получать больше конверсий при неизменном бюджете — как вам больше нравится), не обязательно владеть некими «секретами». Несложные действия в сочетании с правильными инструментами дают экономию.


Разбираем на примерах, что можно сделать, чтобы не переплачивать за рекламу.

Читать дальше

Извините, но все ваши базы принадлежат Google. Презентация Google на Game Development Conference 2019, проект Stadia

Время на прочтение5 мин
Охват и читатели56K

Вчера вечером, 19 марта, Google провели собственную презентацию в рамках Game Developers Conference. Суть происходящего — новый видеостриминговый сервис, позволяющий играть с любого устройства без необходимости иметь мощный компьютер или консоль, и специальный геймпад для него.



Если этого мало, то Google представляет новую игровую студию, которой управляет Джейд Рэймонд, бывший исполнительный продюсер Ubisoft Montreal и управляющий директор Ubisoft Toronto.

Быстрый обзор презентации со скриншотами — под катом. Подробная текстовая расшифровка, возможно будет чуть позже.

Обратите внимание, что под катом будет множество изображений в разрешении 1920x1080, создающих неплохой такой трафик. Олсо, я предупреждал.

Читать дальше →

Подробный обзор Affinity Designer (Mac OS). Часть 1. Инструменты

Время на прочтение7 мин
Охват и читатели57K
Уже некоторое время дизайнеры пользуются новой программой для векторной графики и иллюстраций — Affinity Designer. Это подробный обзор для любителей попробовать новое в работе.

Разработчики позиционируют свою программу как профессиональную. Этим обзором я хочу выяснить, потянет ли на самом деле Designer на такой статус.

intro

Читать дальше →

Лучшие плагины для Sublime Text

Время на прочтение5 мин
Охват и читатели651K

WebInspector


Мощный инструмент для дебаггинга JavaScript, полноценный инспектор кода для Sublime. Фичи: установка брейкпоинтов прямо в редакторе, показ интерактивной консоли с кликабельными объектами, остановка с показом стек трейса и управление шагами дебаггера. Все это работает на ура! А еще есть Fireplay от Mozilla, который позволяет подключаться к Firefox Developer tools и максимально простой дебаггер JSHint.



Читать дальше →

Общаемся с влиятельными журналистами PRавильно: 10 секретов, которые повысят вероятность публикации вашей статьи

Время на прочтение4 мин
Охват и читатели2.7K

Подавляющая часть материалов, претендующих на публикацию, которые по электронной почте получает типичный влиятельный журналист из крупного издательства (далее по тексту просто журналист), – написаны не «для людей», а для продвижения чего-либо. В соотношении 5:1. Вдобавок, поскольку авторы этих материалов не удосуживаются предварительно ознакомиться со спецификой того издательства, куда направляют свой материал, а шлют письма по шаблону всем подряд, без личностного подхода, – журналисты очень сильно раздражаются. Раздражаются настолько сильно, что переводят свои спам-фильтры в очень чувствительный режим, – и т.о. ограждают себя от горе-пиарщиков.


Журнал «Harvard Business Review» провёл эксклюзивный опрос 500+ ведущих цифровых издателей, с целью – понять, каким образом подавать материал, чтобы он был интересен издательству, а не воспринимался как назойливый спам, который издатели называют пиар-чумой.


Читать дальше →

Reddit: инструкция по применению

Время на прочтение8 мин
Охват и читатели76K

Reddit.com, так называемый социально-новостной сайт, объединяющий в себе характеристики социальной сети и новостного портала, последние несколько лет стал привлекать к себе внимание SEO специалистов со всего мира благодаря своей головокружительной посещаемости и полной доступности. У русскоязычных пользователей нет причин оставаться в стороне, так что приглашаю всех желающих на небольшой мастер-класс по максимально эффективному использованию этой площадки для продвижения.
Читать дальше →

Продвижение на Reddit. Как получить трафик?

Время на прочтение8 мин
Охват и читатели53K
Reddit.com – это американская социальная сеть, которая может стать отличным источником трафика из США. Для того чтобы понять, каким образом это можно осуществить, стоит разобраться в особенностях платформы.

Читать дальше →

Круглый стол с представителями инвестиционных компаний

Время на прочтение1 мин
Охват и читатели750
В рамках первой профессиональной конференции веб-разработчиков ”Российские Интернет Технологии 2007” мы планируем провести экспертную оценку и презентацию наиболее интересных проектов в области веб-технологий разработанных ее участниками.

Предварительный отбор и экспертная оценка проектов, программным комитетом, будет проходить в рамках подготовки к конференции. В программе самой конференции запланированы два круглых стола:

Экспертный совет – в его рамках авторы проектов получат оценку технологической составляющей, замечания и рекомендации. Это будет действительно высокопрофессиональная экспертная оценка, определяющая потенциал проекта с точки зрения технологий.

Круглый стол с представителями инвестиционных компаний – на нем авторы смогут презентовать бизнес-модель своего проекта, получить ее оценку от профессионалов в области инвестиций в интернет проекты. Также участники круглого стола смогут получить понимание требований, условий сотрудничества и бизнес-схем для инвестиционных проектов.

Для участия в программе оценки и презентации проектов, необходимо отправить заявку организаторам конференции по e-mail (на текущий момент), либо заполнить форму на сайте (с 01.02.2007)

Как смотреть фильмы в оригинале, если английский слабоват? Решение!

Время на прочтение5 мин
Охват и читатели56K


Хочу рассказать о своем небольшом проекте для изучающих английский язык.

Как известно, чтобы изучать и не забывать язык, им надо пользоваться. И один из способов практиковать язык — это начать смотреть фильмы в оригинале.
Но как можно начать смотреть фильмы и получать при этом удовольствие, если в каждом диалоге актеров встречаются незнакомые слова?

В интернете полно методик, где советуют, например, смотреть по 3 раза или подготавливаться к просмотру, выписывая и заучивая заранее слова из субтитров. Да, возможно это эффективно, и кому-то подойдут такие способы, но это же так скучно… Я бы не смог смотреть 3 раза подряд один и тот же фильм. Хочется получать удовольствие от просмотра, смотреть сразу и без подготовки и все понимать.

Как же этого добиться?

Информация

В рейтинге
Не участвует
Откуда
Сестрорецк, Санкт-Петербург и область, Россия
Зарегистрирован
Активность

Специализация

Аналитик по данным, Ученый по данным
Python
PyTorch
Keras
Pandas
SAP BI
Анализ данных
Веб аналитика
HTML
CSS
JavaScript