Как стать автором

Сергей @Ranlod

Аналитик

Профиль Публикации 2Комментарии 61Закладки 177

selesnow 8 сен 2020 в 09:52

Пишем telegram бота на языке R (часть 3): Как добавить боту поддержку клавиатуры

16 мин

9.2K

Мессенджеры*R*Data Engineering*API*

Туториал

Это третья статья из серии "Пишем telegram бота на языке R". В предыдущих публикациях мы научились создавать телеграм бота, отправлять через него сообщения, добавили боту команды и фильтры сообщений. Поэтому перед тем как приступить к чтению данной статьи я крайне рекомендую ознакомиться с предыдущими, т.к. тут я уже не буду останавливать на описанных ранее основах ботостроения.

В этой статье мы повысим юзабилити нашего бота за счёт добавления клавиатуры, которая сделает интерфейс бота интуитивно понятным, и простым в использовании.

Читать дальше →

+4

pxeno 1 июл 2020 в 11:38

Полный список вопросов с собеседований по Python для дата-сайентистов и инженеров

14 мин

104K

Блог компании VKPython*Карьера в IT-индустрииПрограммирование*

Перевод

Snake and flowers 2 by pikaole

Бывает, что компания ищет дата-сайентиста, а на самом деле ей нужен Python-разработчик. Поэтому при подготовке к собеседованию есть смысл освежить в памяти информацию по Python, а не только штудировать алгоритмы.

Команда Mail.ru Cloud Solutions перевела статью разработчика, который не раз попадал в такую ситуацию и на основе своего опыта составил список из 53 вопросов и ответов для подготовки к собеседованию. Большинство исследователей данных пишут много кода, поэтому такой список пригодится и дата-сайентистам, и инженерам. Он будет полезен и для соискателей, и для тех, кто проводит собеседования, и для тех, кто просто изучает Python.

Вопросы идут в случайном порядке. Поехали.

Читать дальше →

+31

pxeno 19 июн 2020 в 10:00

Как понять, что нейросеть решит вашу проблему. Прагматичное руководство

12 мин

13K

Блог компании VKОбработка изображений*Машинное обучение*Искусственный интеллектАлгоритмы*

Перевод

Haystacks at Sunset Reimagined by AshnoAlice

Инженер по машинному обучению Джордж Хосу задает вопрос: «Какие проблемы решает машинное обучение?». Или конкретнее, с учетом современного развития отрасли: «Какие проблемы нейросеть способна решить на практике?». Команда Mail.ru Cloud Solutions перевела статью, так как рассуждения на эту тему, как нам кажется, встречаются редко.

Читать дальше →

+45

fantomius 10 июн 2020 в 10:56

Почему список в кортеже ведет себя странно в Python?

3 мин

21K

Блог компании ДомкликPython*Программирование*

Технотекст 2020

В языках программирования меня всегда интересовало их внутреннее устройство. Как работает тот или иной оператор? Почему лучше писать так, а не иначе? Подобные вопросы не всегда помогают решить задачу «здесь и сейчас», но в долгосрочной перспективе формируют общую картину языка программирования. Сегодня я хочу поделиться результатом одного из таких погружений и ответить на вопрос, что происходит при модификации tuple'а в list'е.

Читать дальше →

+102

ph_piter 6 июн 2020 в 09:56

Как GPU-вычисления буквально спасли меня на работе. Пример на Python

12 мин

65K

Блог компании Издательский дом «Питер»GPGPU*Python*Высокая производительность*Программирование*

Перевод

Привет, Хабр!

Сегодня мы затрагиваем актуальнейшую тему — Python для работы с GPU. Автор рассматривает пример, тривиальный в своей монструозности, и демонстрирует решение, сопровождая его обширными листингами. Приятного чтения!

Читать дальше →

+38

selesnow 2 июн 2020 в 09:48

dplyr 1.0.0 опубликован на CRAN: Видео обзор новых возможностей и произошедших в нём изменений

11 мин

2.9K

R*Data Mining*Data Engineering*Big Data*

dplyr — R пакет, реализующий грамматику манипуляции данными, состоящую из набора согласованных между собой глаголов, которые помогут вам решить наиболее распространенные проблемы манипулирования данными на языке R.

Это один из наиболее популярных и скачиваемых из CRAN пакетов, сегодня им пользуются миллионы аналитиков и специалистов в области науки о данных.

Хедли Викхем работает над интерфейсом dplyr с 2014 года, dplyr это потомок plyr, но более быстрый и изящный по синтаксису. За 6 лет синтаксис и функционал dplyr устаканился, в связи с чем 29 мая был официальный релиз версии 1.0.0.

За 6 недель до релиза Викхем начал публиковать серию статей, что бы постепенно ознакомить многочисленных пользователей dplyr со всеми грядущими изменениями.

В свою очередь я, преследуя туже цель, по большинству статей снимал небольшие видео обзоры, которыми и хотел с вами поделиться.

Эта публикация поможет вам максимально быстро ознакомится со всем, что было изменено или добавлено в dplyr 1.0.0.

Читать дальше →

+1

dkondratiev 27 мая 2020 в 17:22

Данные всех стран, не объединяйтесь

4 мин

21K

Блог компании WrikeData Mining*Математика*Машинное обучение*Статистика в IT

Радует, когда на диаграмме кроме новых созвездий находится нечто похожее на зависимость. В таком случае мы строим модель, которая хорошо объясняет связь между двумя переменными. Но исследователь должен понимать не только, как работать с данными, но и какая история из реального мира за ними лежит. В противном случае легко сделать ошибку. Расскажу о парадоксе Симпсона — одном из самых опасных примеров обманчивых данных, который может перевернуть связь с ног на голову.

Читать дальше →

+109

ru_vds 7 мая 2020 в 16:16

41 вопрос о работе со строками в Python

9 мин

157K

Блог компании RUVDS.comPython*Программирование*Веб-разработка*

Перевод

Я начал вести список наиболее часто используемых функций, решая алгоритмические задачи на LeetCode и HackerRank.

Быть хорошим программистом — это не значит помнить все встроенные функции некоего языка. Но это не означает и того, что их запоминание — бесполезное дело. Особенно — если речь идёт о подготовке к собеседованию.

Хочу сегодня поделиться со всеми желающими моей шпаргалкой по работе со строками в Python. Я оформил её в виде списка вопросов, который использую для самопроверки. Хотя эти вопросы и не тянут на полноценные задачи, которые предлагаются на собеседованиях, их освоение поможет вам в решении реальных задач по программированию.

Читать дальше →

+59

byrdas 8 мая 2020 в 21:23

Сравнение российской рэп сцены используя R и техники Text Mining. Noize Mc and Kasta vs Pharaoh and Morgenshtern

8 мин

36K

Data Mining*Natural Language Processing*R*

Из песочницы

R. Text Mining. Rap

Популярность многих современных рэп исполнителей остается для меня и других приверженцев “старой школы” большой загадкой. Постоянные споры о том, кто лучше, чьи тексты интереснее, чья музыка разнообразнее занимают умы многих интернет-пользователей. Чтобы подтвердить эти споры не просто словами, а фактами я проанализировал тексты четырех российских рэп исполнителей, используя для этого язык программирования R.

Читать дальше →

+24

greenEkatherine 28 апр 2020 в 09:26

Подготовка к собеседованиям в IT-гиганты: как я преодолела проклятье алгоритмического собеседования

12 мин

206K

IT-компанииКарьера в IT-индустрииПрограммирование*Учебный процесс в IT

Технотекст 2020

Дисклеймер:

Я не программирую с трёх лет, не знаю наизусть Кнута, не являюсь призёром олимпиад по информатике и чемпионатов по спортивному программированию, не училась в MIT. У меня за плечами образование по информатике и 6 лет опыта в коммерческой разработке. И до недавнего времени я не могла пройти дальше первого технического скрининга в IT-гиганты из FAANG (Facebook, Amazon, Apple, Netflix, Google и подобные), хотя предпринимала несколько попыток.

Но теперь всё изменилось, я получила несколько офферов и хочу поделиться опытом, как можно к этому прийти. Речь пойдёт о позиции Software Engineer в европейских офисах перечисленных компаний.

Читать дальше →

+191

ph_piter 18 мар 2020 в 13:01

Книга «Машинное обучение без лишних слов»

3 мин

10K

Блог компании Издательский дом «Питер»Машинное обучение*Профессиональная литература*

Привет, Хаброжители! Все, что вам действительно нужно знать о машинном обучении, может уместиться на паре сотен страниц.

Начнем с простой истины: машины не учатся. Типичное машинное обучение заключается в поиске математической формулы, которая при применении к набору входных данных (называемых обучающими данными) даст желаемые результаты.

Андрей Бурков постарался дать все необходимое, чтобы каждый мог стать отличным современным аналитиком или специалистом по машинному обучению. То, что удалось вместить в пару сотен страниц, в других книгах растянуто на тысячи. Типичные книги по машинному обучению консервативны и академичны, здесь же упор сделан на алгоритмах и методах, которые пригодятся в повседневной работе.

Читать дальше →

+11

ph_piter 8 апр 2020 в 16:11

Машинное обучение на R: экспертные техники для прогностического анализа

17 мин

5.7K

Блог компании Издательский дом «Питер»R*Машинное обучение*Профессиональная литература*

Привет, Хаброжители! Язык R предлагает мощный набор методов машинного обучения, позволяющих быстро проводить нетривиальный анализ ваших данных. Книга является руководством, которое поможет применять методы машинного обучения в решении ежедневных задач. Бретт Ланц научит всему необходимому для анализа данных, формирования прогнозов и визуализации данных. Здесь вы найдете информацию о новых улучшенных библиотеках, советы об этических аспектах машинного обучения и проблемах предвзятости, а также познакомитесь с глубоким обучением.

В этой книге — Основы машинного обучения и особенности обучения компьютера на примерах. — Подготовка данных к использованию в машинном обучении средствами языка R. — Классификация значимости результатов. — Предсказание событий с помощью деревьев решений, правил и опорных векторов. — Прогнозирование числовых данных и оценка финансовых данных с помощью регрессионных методов. — Моделирование сложных процессов с использованием нейронных сетей – фундамент глубокого обучения. — Оценка моделей и улучшение их производительности. — Новейшие технологии для обработки больших данных, в частности R 3.6, Spark, H2O и TensorFlow.

Читать дальше →

+9

MEJIOMAH 4 апр 2020 в 16:47

Реверс API по его android приложению

3 мин

10K

API*Data Mining*Разработка под Android*

Туториал

Зачем

У меня есть pet-project, приложение для учета финансов.

На мой взгляд, одной из ключевых проблем подобных приложений является ручной ввод баланса.
У банков есть информация о транзакциях которые я совершаю и даже есть неплохая аналитика.

Но

Банков несколько и они ничего не знают друг про друга. В итоге
- Нет единой аналитики
- Перевод денег из одного банка в другой будет считаться как списание с одной стороны и зачисление с другой. Эта особенность портит аналитику.
Возможность работать с данными позволяет строить любую аналитику и прогнозы в отличие от ui банка

Читать дальше →

+16

selesnow 31 мар 2020 в 09:46

Разворачиваем вложенные столбцы — списки с помощью языка R (пакет tidyr и функции семейства unnest)

24 мин

2.5K

Big Data*Data Engineering*Data Mining*R*

Туториал

Перевод

В большинстве случаев при работе с ответом полученным от API, или с любыми другими данными которые имеют сложную древовидную структуру, вы сталкиваетесь с форматами JSON и XML.

Эти форматы имеют множество преимуществ: они достаточно компактно хранят данные и позволяют избежать излишнего дублирования информации.

Минусом данных форматов является сложность их обработки и анализа. Неструктурированные данные невозможно использовать в вычислениях и нельзя строить на их основе визуализацию.

Данная статья является логическим продолжением публикации "R пакет tidyr и его новые функции pivot_longer и pivot_wider". Она поможет вам привести неструктурированные конструкции данных к привычному, и пригодному для анализа табличному виду с помощью пакета tidyr, входящего в ядро библиотеки tidyverse, и его функций семейства unnest_*().

Читать дальше →

+13

01egarh 28 мар 2020 в 13:18

Моделируем вселенную: небесная механика наглядно

8 мин

21K

Программирование*КосмонавтикаАстрономияPython*

Из песочницы

Давайте представим, что нам нужно запустить футбольный мяч на орбиту Земли. Никакие ракеты не нужны! Хватит горы, высотой 100 километров и недюжинной силы. Но насколько сильно нужно пнуть мяч, чтобы он никогда больше не вернулся на Землю? Как отправить мяч в путешествие к звёздам, имея только грубую силу и знание небесной механики?

Сегодня в программе:

Бесконечные возможности одной формулы
Как взять энергию у Юпитера
Откуда у планет берутся кольца
Как математика помогла открыть Нептун

Благо, мы живём в век компьютерных технологий. Нам не нужно забираться на высокую гору и пинать мяч со всей силы, всё можно смоделировать! Давайте приступим.

Читать дальше →

+82

Scherbakov 11 ноя 2016 в 14:05

Прокси-сервер с помощью Tor. Основа для многопоточного парсинга

5 мин

58K

Блог компании ESOFT*nix*Настройка Linux*Серверное администрирование*Спам и антиспам

Туториал

Всем привет! На днях прилетела интересная задача: «Найти бесплатные прокси-сервера». Взявшись за нее, решил обойти все сайты свободных проксей и понял — дохлые… ну или с высоким пингом.

После нескольких часов безуспешных поисков, было принято решение использовать свои ресурсы!

Итак, что в итоге должно получиться:

1. VM Ubuntu/Debian 2 CPU, 2GB RAM, 8GB HDD (ну тоесть совсем не требовательная)
2. PRIVOXY для проксирования запросов (Можно взять nginx, varnish — я взял Privoxy)
3. TOR сервер

Читать дальше →

+10

volokhonsky 16 мар 2020 в 23:16

Доверительный интервал для числа заболевших коронавирусом (расчёт по летальности)

4 мин

48K

Популярный аргумент к ставшей вирусной публикации про коронавирус — да как же можно по трём случаям какую-то статистику выводить? Нельзя делать выводы по таким маленьким выборкам! Эту историю про размеры выборок все, кто учился социальным наукам, впитали с молоком альма матери. И это правильно в тех ситуациях, с которыми мы обычно имеем дело — с выборочными статистиками.

К случаю с тремя умершими эти статистики имеют весьма опосредованное отношение. В те годы, когда я ещё преподавал матметоды для психологов в универе, я всегда пытался остановиться на этом месте — то, о чём весь этот курс, не имеет отношения к фактическим данным. Только к задаче, когда нам надо по случайной выборке сделать какой-то вывод о генеральной совокупности.

И вот перед нами число 3. Три умерших, не вектор какой-нибудь, не таблица и не выборка. Это факт. Три умерших попали к нам совершенно не случайно. Они умерли.

Читать дальше →

+109

dmlogv 11 июл 2011 в 15:58

Установка openSUSE 11.3 с помощью чайника

6 мин

14K

Настройка Linux*

Из песочницы

Преамбула

Я — «виндузятник», старательно стремящийся приобщиться к миру Linux. Моей главной целью было «вживую» увидеть KDE4.*, для чего и был выбран дистрибутив openSUSE 11.3. Собственно, выбирать было особо не из чего, т.к. такие объемы данных я могу получать только из DVD журнала «Хакер», а все другие дистры, которые у меня есть, оказались с Gnome.
Пару месяцев назад взамен давно утраченному ноутбуку я купил нетбук, естественно, без DVD-привода. И это особо не напрягало: Windows я установил с помощью флэш-драйва на 4 гибайта, а файлы просто копирую с другого ноутбука через кросс-кабель.
Но тут пришло время Linux…

Читать дальше →

+24

WesternDigital 4 мар 2020 в 00:05

Зональное хранение данных

8 мин

5.9K

Блог компании Western DigitalBig Data*НакопителиХранение данных*Хранилища данных*

Недавно компания Western Digital объявила об инициативе по зональному хранению данных — инициативе, ориентированной на открытую инфраструктуру данных, предназначенную для использования преимуществ зональных устройств хранения данных.

Zoned Storage — это новая парадигма хранения, мотивированная невероятным ростом объема данных. Наше общество все больше зависит от данных в повседневной жизни, и управление данными в экстремальных масштабах становится все более необходимым. Уже сегодня в крупномасштабных инфраструктурах обработки данных используются десятки тысяч жестких дисков и твердотельных накопителей. Но даже при этом из более чем 30 ZB данных, которые создаются в год, остается на хранение меньше 20%. Задача нашей индустрии — сделать так, чтобы потребитель мог позволить себе не выбрасывать данные, которые могут приносить пользу.

В этой статье мы обсудим:

Что такое зональные устройства хранения, и почему эта технология внедряется
Жесткие диски SMR и твердотельные накопители ZNS
Инфраструктура данных — что требуется для внедрения зонального хранения данных

Читать дальше →

+8

ilmarin77 22 фев 2020 в 10:50

Применяем Data Science в мирных целях покупки дома

9 мин

26K

DIY или Сделай самData Mining*Лайфхаки для гиков

Чтобы продать что-нибудь ненужное, нужно сначала купить что-нибудь ненужное, а у нас денег нет.
— Трое из Простоквашино

Введение

Так получилось, что я живу в своей квартире (или кондо по-местному) в Монреале. И однажды, примерно год назад меня посетила мысль что неплохо бы перебраться в собственный дом. Некоторый опыт покупки и продажи жилья у меня уже был и, в принципе, можно было бы подойти к этому вопросу просто, как поступает большинство местных обывателей: нанять риэлтора и предоставить ему разобраться со всеми вопросами, но это было бы скучно и неинтересно.

Поэтому я решил подойти к этому делу научно. Есть задача: надо разобраться сколько примерно стоит то что у меня есть, и где находится то что я могу себе позволить. Ну и попутный вопрос — понять куда дует ветер. И изучить гео-пространственные вычисления в R.

Читать дальше →

+24

3

4 5 ...