Как стать автором
Обновить
-1
0
Глеб @snackTate

Пользователь

Отправить сообщение

Торговые роботы на Python

Время на прочтение5 мин
Количество просмотров47K

Привет! На связи команда Тинькофф Инвестиций. В этой статье рассказываем про Tinkoff Invest API, объясняем, как написать робота на Python, и разбираем плюсы этого языка в сравнении с другими. А вместо заключения ловите гайд по созданию робота на примере работы победителя нашего конкурса Tinkoff Invest Robot Contest.

Читать далее
Всего голосов 18: ↑14 и ↓4+12
Комментарии14

Разбираемся, в чем разница между Data Mining и Data Extraction

Время на прочтение8 мин
Количество просмотров16K

Два этих модных слова, связанных с Data Science, сбивают с толку многих людей. Data Mining часто неправильно понимают как извлечение и получение данных, но на самом деле все намного сложнее. В этом посте давайте расставим точки над Mining и выясним разницу между Data Mining и Data Extraction.
Приятного чтения!
Всего голосов 10: ↑8 и ↓2+11
Комментарии0

QR-code. Обнаружить и расшифровать. Шаг 1 — Обнаружить

Время на прочтение6 мин
Количество просмотров14K

Эта статья - первая в цикле статей, в котором мы разберемся с тем, как qr-код устроен, и напишем простенький Qr-детектор и дешифровщик, а также свой собственный генератор qr-кодов

Использовать мы будем python вместе с opencv и numpy. Учитывая, что opencv - кросс-язычная библиотека, а также то, что работа с изображением/текстурой в разных решениях выглядят примерно одинаково, то я думаю, что вы без труда сможете перевести алгоритм, который будет здесь написан, на любой нужный вам язык

В первую очередь мы будем рассматривать полноразмерный qr-код, Micro-qr возможно будет рассмотрен после завершения работы над полноразмерным qr

Также, хочу отметить, что готовый класс QrCodeDetector уже имеется внутри opencv. Возможно, вам не нужно изобретать велосипед :-)

Читать далее
Всего голосов 12: ↑11 и ↓1+14
Комментарии18

Разделяй и властвуй, или Зачем управлять данными

Время на прочтение16 мин
Количество просмотров10K

Хабр, привет! Сегодня, в предпраздничный день, публикую статью Кирилла Евдокимова, директора практики Data Governance GlowByte. В области данных и аналитики он работает уже около 20 лет, последние 7 лет основной фокус – это Data Governance. Как говорит Кирилл, история с управлением данными всё еще остаётся terra incognita. В статье под катом он разбирает наиболее частые ошибки, проблемы, с которыми приходится сталкиваться компаниям, вступающим на тернистый путь управления данными.

Читать статью Кирилла
Всего голосов 16: ↑13 и ↓3+12
Комментарии0

Пишем простой классификатор текста на Python

Время на прочтение4 мин
Количество просмотров24K

Многие хотят написать простой классификатор текста, но теряются в тоннах книг по машинному обучению, и сложных математических формулах. Сегодня я покажу вам относительно простой пример классификации на Python, который работает просто и понятно.

Читать далее
Всего голосов 18: ↑9 и ↓9+1
Комментарии19

Пройти LeetCode за год: экскурсия по сайту и roadmap [обновлено 30.11.2023]

Уровень сложностиПростой
Время на прочтение23 мин
Количество просмотров109K

С наступающим наступившим вновь наступающим, Хабр.

Новый год – точка, после которой все мы собираемся что-то начать, чем-то заняться, в чём-то поднатореть. Сегодня я расскажу об одном из таких вариантов – что можно начать и как к этому подойти.

Конечно, про литкод все слышали и, казалось бы, о чём тут рассказывать? Ну задачник, перед техсобесами можно открыть на день-два. Но для того рассказать и стоит, дабы чуть разбавить это мнение.

С сайтом несколько больно знакомиться, он отпугивает вездесущими приписками "premium", пользуясь славой ресурса для техсобесов продвигает функционал вроде списков компаний, где встречался вопрос n и симуляции интервью в компанию m, да и сам не особо стремится рассказать о себе, потому в нём зачастую и видно голый задачник с одной страницей "problems".

За всем этим теряется важный пункт – а можно ли использовать сайт не для механического зазубривания популярных вопрос-ответов, а для изучения/закрепления алгоритмов и структур данных? Можно. Но подход к этому нужно формировать самостоятельно.

🏆
Всего голосов 37: ↑36 и ↓1+44
Комментарии30

Субъективные итоги года в мире Python

Время на прочтение5 мин
Количество просмотров14K

Привет, я Михаил Корнеев, вместе с Григорием Петровым и другими ребятами из сообщества мы ведем подкаст о Python на русском. В прошлую пятницу мы собрались в онлайне обсудить, что запомнилось в уходящем году.  

Это — текстовая выжимка из выпуска. 

Читать далее
Всего голосов 33: ↑31 и ↓2+38
Комментарии24

Как стать аналитиком? (и зачем)

Время на прочтение13 мин
Количество просмотров42K

Они носят множество имен: Data Analyst, Data Scientist, Business Analyst и т. д., но всех их объединяет одна основная черта — эти люди занимаются анализом данных. Итак, начнем с главного. Сколько получают аналитики?

Читать далее
Всего голосов 1: ↑0 и ↓1-1
Комментарии4

Гистограммы и графики распределения в Python

Время на прочтение11 мин
Количество просмотров116K

Визуализация одномерных данных в Python



Построение графика одной переменной кажется простой задачей. Но насколько это просто в действительности — эффективно отобразить данные со всего одним измерением? Долгое время я обходился стандартной гистограммой, которая показывает расположение значений, разброс и форму распределения данных (нормальное, скошенное, двухпиковое и др). Но недавно я столкнулся со случаем, когда гистограмма не помогла. И тогда понял, что настало время узнать больше о построении графиков. Я нашёл в сети отличную бесплатную книгу о визуализации данных и попробовал некоторые методы. Я решил, что (и мне, и другим людям) будет полезно, если я поделюсь этими знаниями и составлю руководство по построению на Python гистограмм и их крайне полезной альтернативы — графиков распределения плотности (density plots). Подробности — к старту нашего курса по анализу данных.

Читать дальше →
Всего голосов 10: ↑8 и ↓2+6
Комментарии5

К вопросу о математических способностях студентов или как учить переполненный мозг

Время на прочтение23 мин
Количество просмотров234K

Я люблю давать простые задачки студентам на лекции. Во-первых, понятно, скольких мы потеряли, во-вторых, это переключение из режима потребления информации в режим выдачи результатов, в третьих — возможность проявить себя для шустрых. Сплошные плюсы!

Одна из простых задач звучит так: «При переводе картинки из цветового пространства RGB в YUV мы выполняем прореживание, то есть выкидываем каждый четный столбец и каждую четную строку в компонентах U и V (все компоненты пикселя по 1 байту). Вопрос: во сколько раз меньше данных у нас стало?» Эта операция называется chroma subsampling и широко используется при сжатии видео, например.

Забавно, что когда-то давно, когда винчестеры были меньше, а дискеты больше, студенты реально отвечали на этот вопрос быстро. А в последние годы регулярно народ в ступор впадает. Приходится разбирать по частям: «Если выкинуть каждую четную строку и каждый четный столбец, во сколько раз меньше данных будет у компоненты?» Почти хором: «В четыре». Начинаю подкалывать: «Отлично! У нас было 3 яблока, первое осталось как есть, а от второго и третьего осталось по четвертинке. Во сколько раз меньше яблок у нас стало?» Народ ржет, но, наконец-то, дает правильный ответ (заметим, не все). 

Это было бы смешно, если бы от способности быстро в уме прикинуть результат не зависела способность быстрее создавать сложные алгоритмы. 

И хорошо видно, как эта способность в широких массах студентов заметно плавно падает. Причем не только в нашей стране. Придуман даже специальный термин: «цифровое слабоумие» ("digital dementia") — снижение когнитивных способностей, достаточно серьезное, чтобы повлиять на повседневную деятельность человека. 

Кому интересно как теряют мозг студенты масштабы бедствия и что с этим делать — добро пожаловать под кат!

Читать далее
Всего голосов 324: ↑308 и ↓16+373
Комментарии795

Data Science Pet Projects. FAQ

Время на прочтение13 мин
Количество просмотров56K

Привет! Меня зовут Клоков Алексей, сегодня поговорим о пет-проектах по анализу данных. Идея написать эту статью родилась после многочисленных вопросов о личных проектах в сообществе Open Data Science (ODS). Это третья статья на Хабре, до этого был разбор алгоритма SVM и анонс крутого NLP курса от ребят из DeepPavlov. В этой статье вы найдете идеи для новых петов и другие полезности. Итак, разберем частые вопросы и дадим определение пет-проекта:


  1. Зачем делать пет-проекты?
  2. Из каких этапов может состоять разработка пет-проекта?
  3. Как выбрать тему и найти данные?
  4. Где найти вычислительные ресурсы?
  5. Как завернуть работающие алгоритмы в минимальный прод?
  6. Как оформить презентабельный вид проекта?
  7. Как и зачем искать коллабораторов?
  8. Когда проходит ODS pet project хакатон?
  9. Где посмотреть примеры пет-проектов и истории участников ODS?

Читать дальше →
Всего голосов 43: ↑43 и ↓0+43
Комментарии11

Получаем статистику Telegram-канала при помощи api и python или свой tgstat с регистрацией и смс

Время на прочтение3 мин
Количество просмотров19K

В некоторых группах в Telegram доступна интересная и познавательная статистика, которую можно посмотреть не только со смартфона, но и нехитрых действий с api. А если каналов много, то вообще очень полезная вещь.

Читать далее
Всего голосов 7: ↑7 и ↓0+7
Комментарии1

33 питона: зоопарк позиций, которые требуют знания python

Время на прочтение7 мин
Количество просмотров13K

В прошлом году передо мной встала задача собрать команду для разработки платформы обработки данных. Причём не только команду разработки самой платформы, но ещё и команду дата-инженеров, которые будут пользоваться этой самой платформой: писать конфигурации дата-пайплайнов и наполнять дата-лейк данными. И ещё были нужны аналитики данных, кто бы разбирался в предметных областях и понимал, о чём те или иные таблицы. А так как данных много (пара тысяч таблиц), понадобились дата-сайентисты, кто бы не просто мог ответить на вопрос о качестве данных, но и предложить как это качество данных проверять на масштабе нескольких тысяч таблиц, нескольких сотен дата-пайплайнов и нескольких сотен гигайбайт данных каждый день.

Прошло почти два года со старта проекта, и я готов подвести некоторые итоги и поделиться опытом.

Начну с темы найма. Найма питонистов всех мастей. 

Завораживающее предисловие, не правда ли?

Читать далее про разных питонистов
Всего голосов 10: ↑9 и ↓1+9
Комментарии11

Ламповое звучание: о пользе второй гармоники

Время на прочтение4 мин
Количество просмотров20K

Около десяти лет назад меня попросили о ремонте английского лампового усилителя - временами у него пропадал звук. Лампы оказались целы, видимых повреждений нет, все режимы в норме. Дефект обнаружился в переменном резисторе регулятора громкости и его замена решила проблему. К тому времени я уже был наслышан о феномене “теплого лампового” звучания и поэтому измерил все параметры усилителя по его спецификации. Представил работу владельцу усилителя и на некоторое время забыл об этом, так как у меня была основная задача улучшить качество звучания звуковой программы, получаемой по цифровому каналу.

Читать далее
Всего голосов 80: ↑80 и ↓0+80
Комментарии44

Как я пошла на хакатон Data Science с нулевым опытом в Data Science

Время на прочтение14 мин
Количество просмотров16K

23-25 сентября 2022 года проект "Цифровой прорыв. Сезон: Искусственный интеллект" провёл в Москве кейс от ВК "Машинное обучение на графах" на прогнозирование склонности к благотворителей у пользователей ВК.

Всем, кто боится ходить на хакатоны, посвящается.

Мой первый хакатон: опыт, впечатления и выводы, к которым я пришла.

Читать далее
Всего голосов 13: ↑12 и ↓1+15
Комментарии11

Регулярки (regex) — основы для решения кейсов, про которые не пишут в статьях про основы

Время на прочтение4 мин
Количество просмотров25K

"Там просто регулярку написать" - говорили они...

Читать далее
Всего голосов 30: ↑25 и ↓5+34
Комментарии47

Исчерпывающее руководство по множествам в Python

Время на прочтение10 мин
Количество просмотров72K

Класс set (множество) — это одна из ключевых структур данных в Python. Она представляет собой неупорядоченную коллекцию уникальных элементов. Класс set, в некоторой степени, соответствует математическому множеству. Многие широко используемые математические операции, применимые к множествам, существуют и в Python. Часто вычисления, производимые над множествами, оказываются гораздо быстрее, чем альтернативные операции со списками. В результате, для того чтобы писать эффективный код, Python-программисту просто необходимо уметь пользоваться множествами. В этой статье я расскажу об особенностях работы с классом set в Python.

Читать далее
Всего голосов 16: ↑15 и ↓1+24
Комментарии9

Математические задачки от автора блога DataGenetics

Время на прочтение3 мин
Количество просмотров5.1K


Грустная новость: британский специалист по науке о данных Ник Берри, автор блога DataGenetics, предназначенного для популяризации математики (одного из самых старых и популярных), покинул нас в начале октября 2022 в возрасте 55 лет, не сумев побороть рак.

Ник родился в Йоркшире, изучал авиационную технику в Саутгемптонском университете, потом переехал в Сиэтл, где работал специалистом по науке о данных на различные компании, включая Microsoft и Facebook. Блог DataGenetics он начал вести в 2009. Достаточно быстро проект набрал большое количество подписчиков: всё благодаря простому языку и интересным темам из области математики, физики и информатики.

Ник всегда мог найти интересную тему для обсуждения и доступно объяснить её, а также получал истинное удовольствие от этого процесса. Любил он и хорошие задачки-загадки. Сегодняшние задачки взяты из его блога.
Читать дальше →
Всего голосов 18: ↑15 и ↓3+15
Комментарии37

Система личного планирования в Notion. Эпизод 1 — Инбокс

Время на прочтение9 мин
Количество просмотров27K

Вот уже чуть больше года я активно использую Notion для планирования задач и проектов, поэтому я решил подвести некоторые итоги и систематизировать все приёмы, которые я использую. Описание системы будет состоять из двух частей. В первой части, я хотел бы уделить отдельное внимание Инбоксу — одной из самых важных составляющих удобной системы планирования. Вторая часть будет посвящена непосредственно Управлению проектами.

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Комментарии12

Самый полный стартовый гайд по ботам Telegram (python)

Время на прочтение5 мин
Количество просмотров271K

QQ Хабр! В этом гайде мы пройдемся по каждому шагу создания ботов в Telegram - от регистрации бота до публикации репозитория на GitHub. Некоторым может показаться, что все разжевано и слишком много элементарной информации, но этот гайд создан для новичков, хотя будет интересен и для тех, кто уже занимался разработкой в Telegram. Сегодня мы будем делать бота, который отвечает на заданные вопросы.

Читать далее
Всего голосов 29: ↑16 и ↓13+8
Комментарии23

Информация

В рейтинге
Не участвует
Откуда
Ставрополь, Ставропольский край, Россия
Дата рождения
Зарегистрирован
Активность