Pull to refresh
0
@airazhadyread⁠-⁠only

User

Send message

Работа с Anaconda на примере поиска корреляции курсов криптовалют

Reading time11 min
Views70K


Цель этой статьи — предоставить легкое введение в анализ данных с использованием Anaconda. Мы пройдем через написание простого скрипта Python для извлечения, анализа и визуализации данных по различным криптовалютам.
Читать дальше →
Total votes 27: ↑25 and ↓2+23
Comments6

Инструкция: Как создавать ботов в Telegram

Reading time6 min
Views1.7M
24 июня разработчики Telegram открыли платформу для создания ботов. Новость кого-то обошла стороной Хабр, однако многие уже начали разрабатывать викторины. При этом мало где указаны хоть какие-то примеры работающих ботов.
Попробую это исправить
Total votes 19: ↑14 and ↓5+9
Comments22

Анализируем трафик сайтов (СМИ) с картинками

Reading time8 min
Views2.1K

Эта статья рассказывает о необходимом минимуме, который потребуется при анализе сайта. При написании, я ориентировался на тех у кого совсем нет представления о предмете, но все упрощения можно быстро проскролить и почитать сразу про прикладную часть.

Говорить мы будем в основном о визитах (ym:s:visits).

Читать далее
Rating0
Comments2

PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив

Reading time9 min
Views10K

Тимлид команды аналитики и DS в Авито Александр Ледовский рассказал, как быть, когда нужно посчитать что-то на pySpark, чтобы потом выгрузить.

Читать далее
Total votes 5: ↑5 and ↓0+5
Comments15

Apache Superset. Первый взгляд на BI инструмент

Level of difficultyEasy
Reading time7 min
Views61K

В последнее время изучая вакансии на сайтах по поиску работы, все чаще стал отмечать, что помимо платных инструментов BI от кандидатов требуется знание еще бесплатных платформ. Мой предыдущий опыт работы по построению графической отчетности был связан исключительно с коммерческими продуктами, поэтому я решил выделить время на ознакомление с альтернативными решениями. Выбор Superset был случайным, так как я обратил внимание на него лишь потому, что он входит в экосистему Apache. Сразу хочу оговориться, что в данной заметке не будет сравнения Superset с платными инструментами. Такое сопоставление функционала просто некорректно из-за разных “весовых категорий”. Также я не буду выделять плюсы и минусы решения по сравнению с бесплатными аналогами, так как это очень дискуссионный вопрос. Неизбежно найдутся адепты того или иного продукта, которые будут доказывать ошибочность моих суждений. Поэтому я построил публикацию в форме простого описания “нюансов”, которые я выделил для себя, начав знакомство с Superset. Читатели же сами смогут сделать свои выводы.

Читать далее
Total votes 8: ↑8 and ↓0+8
Comments4

12 платформ соревнований по Data Science и искусственному интеллекту для развития ваших навыков в 2021 году

Reading time8 min
Views23K
Data Science требует использования статистических методов и алгоритмов машинного обучения для работы с большим объёмом данных, и для того чтобы делать это эффективно, вам потребуется много практики. Отличная возможность попрактиковаться — соревнования по Data Science. Они служат платформой для изучения лучших практик, получения отзывов и повышения квалификации. Это также отличный способ расширить возможности творить и границы в области науки о данных. Я делал подобный список и в прошлом году, поэтому подумал, что это будет хорошее время, чтобы обновить его на 2021 год.


Приятного чтения!
Total votes 27: ↑27 and ↓0+27
Comments1

Habr vs Medium: сколько можно заработать, опубликовав 9 статей на Medium.com

Reading time6 min
Views62K
Привет, Хабр.

Наверное многие авторы, публикующие статьи на русскоязычных ресурсах, хотя бы раз задумывались о публикации своих текстов в англоязычном сегменте интернета. Мне тоже стало интересно узнать, как это работает и какой отзыв аудитории можно получить. Я пишу статьи исключительно в качестве хобби, так что терять нечего, почему бы и не попробовать.



Для тех кому интересно что получилось, подробности под катом.
Читать дальше →
Total votes 119: ↑116 and ↓3+165
Comments160

NLP. Основы. Техники. Саморазвитие. Часть 1

Reading time12 min
Views73K

Привет! Меня зовут Иван Смуров, и я возглавляю группу исследований в области NLP в компании ABBYY. О том, чем занимается наша группа, можно почитать здесь. Недавно я читал лекцию про Natural Language Processing (NLP) в Школе глубокого обучения – это кружок при Физтех-школе прикладной математики и информатики МФТИ для старшеклассников, интересующихся программированием и математикой. Возможно, тезисы моей лекции кому-то пригодятся, поэтому поделюсь ими с Хабром.

Поскольку за один раз все объять не получится, разделим статью на две части. Сегодня я расскажу о том, как нейросети (или глубокое обучение) используются в NLP. Во второй части статьи мы сконцентрируемся на одной из самых распространенных задач NLP — задаче извлечения именованных сущностей (Named-entity recognition, NER) и разберем подробно архитектуры ее решений.


Читать дальше →
Total votes 53: ↑51 and ↓2+49
Comments11

ML-задача на 30 минут: гадаем по cookie

Reading time5 min
Views19K

«Я тебя по IP вычислю!» – помните такую угрозу из интернета времен нулевых годов? Мы в Big Data МТС решили выяснить, можно ли составить хотя бы приблизительное представление о человеке, обладая информацией о сайтах, которые он посещает. Мы сгенерировали полусинтетические данные, чтобы понять, насколько смелыми можно быть в этих ваших интернетах.

Приглашаем вас попробовать составить портрет пользователя на основе этих данных и посмотреть, насколько точным он получится. Также под катом вы найдете наш baseline решения, написание которого займет около получаса.

Читать далее
Total votes 33: ↑33 and ↓0+33
Comments14

Потоковая передача колоночных данных с помощью Apache Arrow

Reading time4 min
Views6.9K
Перевод статьи подготовлен специально для студентов курса «Data Engineer».




За последние несколько недель мы с Nong Li добавили в Apache Arrow бинарный потоковый формат, дополнив уже существующий формат файлов random access/IPC. У нас есть реализации на Java и C++ и привязки Python. В этой статье я расскажу, как работает формат и покажу, как можно достичь очень высокой пропускной способности данных для DataFrame pandas.
Читать дальше →
Total votes 5: ↑4 and ↓1+5
Comments1

Эра фаблетов: Проектирование для крупных экранов

Reading time10 min
Views20K


«С тех самых пор, как Samsung создала свою линию Galaxy Note, тем самым открыв рынок «больших телефонов», подобные девайсы называются фаблетами. Такое название они получили в силу своего размера, который находится где-то между размерами традиционного телефона и небольшого планшета»

За последнее время я успел прочитать много статей о том, что новая серия iPhone 6 заставит нас всех изменить подход к проектированию пользовательского интерфейса для мобильных телефонов. Возможно, это справедливо для тех дизайнеров, которые до сих пор фокусируются только на iOS и делают вид, что остальной мир не существует.
Читать дальше →
Total votes 27: ↑22 and ↓5+17
Comments18

YTsaurus: основная система для хранения и обработки данных Яндекса теперь open source

Reading time14 min
Views55K

Привет! Меня зовут Максим Бабенко, я руковожу отделом технологий распределённых вычислений в Яндексе. Сегодня мы выложили в опенсорс платформу YTsaurus — одну из основных инфраструктурных BigData-систем, разработанных в Яндексе.

YTsaurus — результат почти десятилетнего труда, которым нам хочется поделиться с миром. В этой статье мы расскажем историю возникновения YT,  ответим на вопрос, зачем нужен YTsaurus, опишем ключевые возможности системы и обозначим область её применения.

В Github-репозитории находится серверный код YTsaurus, инфраструктура развёртывания с использованием k8s, а также веб-интерфейс системы и клиентский SDK для распространённых языков программирования — C++, Java, Go и Python. Всё это — под лицензией Apache 2.0, что позволяет всем желающим загрузить его на свои серверы, а также дорабатывать его под свои нужды.

Читать далее
Total votes 176: ↑175 and ↓1+217
Comments33

Какую СУБД выбрать и почему? (Статья 1)

Reading time6 min
Views78K

Первая часть в серии статей про СУБД, в которых будут представлены простые и понятные критерии, на основе которых можно будет получить подсказку, какую СУБД выбрать для своего проекта.

В данной статье разберем типы СУБД, какие наиболее популярны, в чем их предназначение и уникальность. Подскажу при каких условиях нужно выбирать ту или иную СУБД, а когда не нужно.

Читать далее
Total votes 45: ↑33 and ↓12+28
Comments39

«A/B-тест» в инженерно-геологических изысканиях на языке Python

Reading time7 min
Views5.9K

При выполнении инженерно-геологических изысканий может возникнуть задача, связанная с сопоставлением данных полевых и лабораторных исследований на одних и тех же грунтах, с целью подтверждения корректной транспортировки проб от объекта изысканий до лаборатории (образцы не были деформированы и/или разрушены в ходе перевозки).

При данной постановке задачи можно применить методику A/B-тестирования.

Читать далее
Total votes 3: ↑3 and ↓0+3
Comments0

Оконные функции SQL простым языком с примерами

Reading time4 min
Views457K

Привет всем!

Сразу хочется отметить, что данная статья написана исключительно для людей, начинающих свое путь в изучении SQL и оконных функций. Здесь могут быть не разобраны сложные применения функций и могут не использоваться сложные формулировки определений - все написано максимально простым языком для базового понимания. 

P.S. Если автор что-то не разобрал и не написал, значит он посчитал это не обязательным в рамках этой статьи))) 

Для примеров будем использовать небольшую таблицу, которая показывает оценки учеников по разным предметам. В БД табличка выглядит следующим образом

Читать далее
Total votes 49: ↑46 and ↓3+58
Comments16

Полный список вопросов с собеседований по Python для дата-сайентистов и инженеров

Reading time14 min
Views94K
Snake and flowers 2 by pikaole

Бывает, что компания ищет дата-сайентиста, а на самом деле ей нужен Python-разработчик. Поэтому при подготовке к собеседованию есть смысл освежить в памяти информацию по Python, а не только штудировать алгоритмы.

Команда Mail.ru Cloud Solutions перевела статью разработчика, который не раз попадал в такую ситуацию и на основе своего опыта составил список из 53 вопросов и ответов для подготовки к собеседованию. Большинство исследователей данных пишут много кода, поэтому такой список пригодится и дата-сайентистам, и инженерам. Он будет полезен и для соискателей, и для тех, кто проводит собеседования, и для тех, кто просто изучает Python.

Вопросы идут в случайном порядке. Поехали.
Читать дальше →
Total votes 21: ↑19 and ↓2+31
Comments24

Теории вероятностей: готовимся к собеседованию и разрешаем «парадоксы»

Reading time17 min
Views87K

Каждый год я участвую примерно в сотне собеседований в образовательных проектах JetBrains: собеседую абитуриентов в Computer Science Center и корпоративную магистратуру ИТМО (кстати, набор на программу идёт прямо сейчас). Все собеседования устроены по одному шаблону: мы просим на месте порешать задачи и задаём базовые вопросы по дисциплинам, которые студенты изучали в университетах. Большинство вопросов, которые мы задаём, довольно простые — нужно дать определение некоторого понятия, сформулировать свойство или теорему. К сожалению, у значительной доли студентов все эти определения выветриваются сразу после экзаменов в университетах. Казалось бы, что тут удивительного? В современном мире любое определение можно за пару секунд нагуглить, если это нужно. Но невозможность восстановить базовое определение свидетельствует о непонимании сути предмета.

Если непонимание алгебры или математического анализа может мало влиять на вашу жизнь, то непонимание теории вероятностей делает из вас лёгкую мишень для обмана и манипулирования. Суждения о вероятностях различных событий настолько глубоко вошли в нашу повседневную жизнь, что умение правильно рассуждать и отличать правду от невежества или манипуляции является необходимым. В этом небольшом обзоре мы поговорим о базовых понятиях теории вероятностей, научимся правильно формулировать утверждения про простые случайные процессы и разберём несколько парадоксов. Часть материала позаимствована из брошюры А. Шеня «Вероятность: примеры и задачи», которую я очень рекомендую для самостоятельного изучения.
Читать дальше →
Total votes 15: ↑12 and ↓3+17
Comments101

10 полезных расширений для дата-сайентистов

Reading time5 min
Views14K

Каждый специалист по Data Science тратит большую часть своего времени на визуализацию данных, их предварительную обработку и настройку модели на основе полученных результатов. Для каждого исследователя данных именно эти моменты – самая сложная часть процесса, поскольку хорошую модель можно получить при условии, что вы точно выполните все эти три шага. И вот 10 очень полезных расширений Jupyter Notebook, которые помогут вам выполнить эти шаги.

Приятного чтения!
Total votes 19: ↑19 and ↓0+19
Comments0

Сингапур: город, который построил Ли

Reading time20 min
Views34K
Этот город-государство для многих стал синонимом чистоты, эффективности и безопасности. А Ли Куан Ю, его основатель и долгий бессменный премьер-министр, зачастую воспринимается как идеал управленца, государственного деятеля и философа-конфуцианца. Всё это справедливо. Но есть и другая сторона медали — «рай на Земле» удалось построить при жёстком и авторитарном руководстве. Пассионарность населения была купирована навязыванием массового владения социальным жильём. Автодороги были освобождены от пробок драконовскими налогами на авто. Ну а абсолютная власть местных городских планировщиков, которые подчинили целям экономического развития саму мать-природу, стала уже притчей во языцех. Итак, встречайте Сингапур, the Fine City.

Читать дальше →
Total votes 64: ↑61 and ↓3+89
Comments45

Information

Rating
Does not participate
Registered
Activity