Articles / Bookmarks / Profile of airazhady / Habr

@airazhady^{read⁠-⁠only}

User

Profile Bookmarks 61

afrikyan Mar 7 2018 at 15:17

Работа с Anaconda на примере поиска корреляции курсов криптовалют

11 min

70K

Open source*Python*Data Mining*Open data*Data visualization*

Tutorial

Цель этой статьи — предоставить легкое введение в анализ данных с использованием Anaconda. Мы пройдем через написание простого скрипта Python для извлечения, анализа и визуализации данных по различным криптовалютам.

Читать дальше →

+23

M_Muzafarov Jul 10 2015 at 10:20

Инструкция: Как создавать ботов в Telegram

6 min

1.7M

Python*

From sandbox

24 июня разработчики Telegram открыли платформу для создания ботов. Новость кого-то обошла стороной Хабр, однако многие уже начали разрабатывать викторины. При этом мало где указаны хоть какие-то примеры работающих ботов.

Попробую это исправить

Story-teller Nov 22 2022 at 19:00

Анализируем трафик сайтов (СМИ) с картинками

8 min

2.1K

Python*Yandex API*Web analytics*Media management*

Эта статья рассказывает о необходимом минимуме, который потребуется при анализе сайта. При написании, я ориентировался на тех у кого совсем нет представления о предмете, но все упрощения можно быстро проскролить и почитать сразу про прикладную часть.

Говорить мы будем в основном о визитах (ym:s:visits).

aledovskiy Jun 9 2023 at 10:19

PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив

9 min

10K

Python*Data Mining*Big Data*AvitoTech corporate blog

Тимлид команды аналитики и DS в Авито Александр Ледовский рассказал, как быть, когда нужно посчитать что-то на pySpark, чтобы потом выгрузить.

grishenkovp Aug 7 2022 at 13:07

Apache Superset. Первый взгляд на BI инструмент

Easy

7 min

61K

Apache*Data visualization*

Tutorial

В последнее время изучая вакансии на сайтах по поиску работы, все чаще стал отмечать, что помимо платных инструментов BI от кандидатов требуется знание еще бесплатных платформ. Мой предыдущий опыт работы по построению графической отчетности был связан исключительно с коммерческими продуктами, поэтому я решил выделить время на ознакомление с альтернативными решениями. Выбор Superset был случайным, так как я обратил внимание на него лишь потому, что он входит в экосистему Apache. Сразу хочу оговориться, что в данной заметке не будет сравнения Superset с платными инструментами. Такое сопоставление функционала просто некорректно из-за разных “весовых категорий”. Также я не буду выделять плюсы и минусы решения по сравнению с бесплатными аналогами, так как это очень дискуссионный вопрос. Неизбежно найдутся адепты того или иного продукта, которые будут доказывать ошибочность моих суждений. Поэтому я построил публикацию в форме простого описания “нюансов”, которые я выделил для себя, начав знакомство с Superset. Читатели же сами смогут сделать свои выводы.

one-two Jan 12 2021 at 13:13

12 платформ соревнований по Data Science и искусственному интеллекту для развития ваших навыков в 2021 году

8 min

23K

Big Data*Skillfactory corporate blogHackathonMachine learning*Artificial Intelligence

Translation

Data Science требует использования статистических методов и алгоритмов машинного обучения для работы с большим объёмом данных, и для того чтобы делать это эффективно, вам потребуется много практики. Отличная возможность попрактиковаться — соревнования по Data Science. Они служат платформой для изучения лучших практик, получения отзывов и повышения квалификации. Это также отличный способ расширить возможности творить и границы в области науки о данных. Я делал подобный список и в прошлом году, поэтому подумал, что это будет хорошее время, чтобы обновить его на 2021 год.

Приятного чтения!

+27

DmitrySpb79 Aug 8 2020 at 14:00

Habr vs Medium: сколько можно заработать, опубликовав 9 статей на Medium.com

6 min

62K

Monetization of IT systems*Web analytics*Internet marketing*Popular scienceSocial networks and communities

Привет, Хабр.

Наверное многие авторы, публикующие статьи на русскоязычных ресурсах, хотя бы раз задумывались о публикации своих текстов в англоязычном сегменте интернета. Мне тоже стало интересно узнать, как это работает и какой отзыв аудитории можно получить. Я пишу статьи исключительно в качестве хобби, так что терять нечего, почему бы и не попробовать.

Для тех кому интересно что получилось, подробности под катом.

Читать дальше →

+165

160

Shnurre Jan 23 2019 at 16:05

NLP. Основы. Техники. Саморазвитие. Часть 1

12 min

73K

Content AI corporate blogMachine learning*Natural Language Processing*

Содержание

NLP. Основы. Техники. Саморазвитие. Часть 2: NER

Привет! Меня зовут Иван Смуров, и я возглавляю группу исследований в области NLP в компании ABBYY. О том, чем занимается наша группа, можно почитать здесь. Недавно я читал лекцию про Natural Language Processing (NLP) в Школе глубокого обучения – это кружок при Физтех-школе прикладной математики и информатики МФТИ для старшеклассников, интересующихся программированием и математикой. Возможно, тезисы моей лекции кому-то пригодятся, поэтому поделюсь ими с Хабром.

Поскольку за один раз все объять не получится, разделим статью на две части. Сегодня я расскажу о том, как нейросети (или глубокое обучение) используются в NLP. Во второй части статьи мы сконцентрируемся на одной из самых распространенных задач NLP — задаче извлечения именованных сущностей (Named-entity recognition, NER) и разберем подробно архитектуры ее решений.

Читать дальше →

+49

voice32 Dec 20 2017 at 19:59

Генерируем заголовки фейковых новостей в стиле Ленты.ру

11 min

31K

Python*Machine learning*

From sandbox

Сравниваем 2 подхода к генерации текста c помощью нейронных сетей: Char-RNN vs Word Embeddings + забавные примеры в конце.

Читать дальше →

+47

oksmoron Jan 17 2023 at 09:00

ML-задача на 30 минут: гадаем по cookie

5 min

19K

Entertaining tasksBig Data*HackathonMachine learning*МТС corporate blog

Case

«Я тебя по IP вычислю!» – помните такую угрозу из интернета времен нулевых годов? Мы в Big Data МТС решили выяснить, можно ли составить хотя бы приблизительное представление о человеке, обладая информацией о сайтах, которые он посещает. Мы сгенерировали полусинтетические данные, чтобы понять, насколько смелыми можно быть в этих ваших интернетах.

Приглашаем вас попробовать составить портрет пользователя на основе этих данных и посмотреть, насколько точным он получится. Также под катом вы найдете наш baseline решения, написание которого займет около получаса.

+33

MaxRokatansky Feb 26 2020 at 16:13

Потоковая передача колоночных данных с помощью Apache Arrow

4 min

6.9K

Apache*Big Data*OTUS corporate blog

Перевод статьи подготовлен специально для студентов курса «Data Engineer».

За последние несколько недель мы с Nong Li добавили в Apache Arrow бинарный потоковый формат, дополнив уже существующий формат файлов random access/IPC. У нас есть реализации на Java и C++ и привязки Python. В этой статье я расскажу, как работает формат и покажу, как можно достичь очень высокой пропускной способности данных для DataFrame pandas.

Читать дальше →

frii_fond Mar 25 2015 at 14:21

Эра фаблетов: Проектирование для крупных экранов

10 min

20K

Web design*Interfaces*Usability*Фонд развития интернет-инициатив corporate blog

Translation

«С тех самых пор, как Samsung создала свою линию Galaxy Note, тем самым открыв рынок «больших телефонов», подобные девайсы называются фаблетами. Такое название они получили в силу своего размера, который находится где-то между размерами традиционного телефона и небольшого планшета»

За последнее время я успел прочитать много статей о том, что новая серия iPhone 6 заставит нас всех изменить подход к проектированию пользовательского интерфейса для мобильных телефонов. Возможно, это справедливо для тех дизайнеров, которые до сих пор фокусируются только на iOS и делают вид, что остальной мир не существует.

Читать дальше →

+17

maxim_babenko Mar 20 2023 at 13:57

YTsaurus: основная система для хранения и обработки данных Яндекса теперь open source

14 min

55K

Open source*C++*Яндекс corporate blogBig Data*

✏️ Technotext 2023

Привет! Меня зовут Максим Бабенко, я руковожу отделом технологий распределённых вычислений в Яндексе. Сегодня мы выложили в опенсорс платформу YTsaurus — одну из основных инфраструктурных BigData-систем, разработанных в Яндексе.

YTsaurus — результат почти десятилетнего труда, которым нам хочется поделиться с миром. В этой статье мы расскажем историю возникновения YT, ответим на вопрос, зачем нужен YTsaurus, опишем ключевые возможности системы и обозначим область её применения.

В Github-репозитории находится серверный код YTsaurus, инфраструктура развёртывания с использованием k8s, а также веб-интерфейс системы и клиентский SDK для распространённых языков программирования — C++, Java, Go и Python. Всё это — под лицензией Apache 2.0, что позволяет всем желающим загрузить его на свои серверы, а также дорабатывать его под свои нужды.

+217

YevSam Sep 21 2021 at 21:28

Какую СУБД выбрать и почему? (Статья 1)

6 min

78K

Oracle*SQL*NoSQL*Microsoft SQL Server*

From sandbox

Первая часть в серии статей про СУБД, в которых будут представлены простые и понятные критерии, на основе которых можно будет получить подсказку, какую СУБД выбрать для своего проекта.

В данной статье разберем типы СУБД, какие наиболее популярны, в чем их предназначение и уникальность. Подскажу при каких условиях нужно выбирать ту или иную СУБД, а когда не нужно.

+28

oorzhakau Jun 5 2021 at 14:10

«A/B-тест» в инженерно-геологических изысканиях на языке Python

7 min

5.9K

Python*Statistics in IT

From sandbox

При выполнении инженерно-геологических изысканий может возникнуть задача, связанная с сопоставлением данных полевых и лабораторных исследований на одних и тех же грунтах, с целью подтверждения корректной транспортировки проб от объекта изысканий до лаборатории (образцы не были деформированы и/или разрушены в ходе перевозки).

При данной постановке задачи можно применить методику A/B-тестирования.

daniil_dzheparov May 2 2022 at 15:25

Оконные функции SQL простым языком с примерами

4 min

457K

SQL*Database Administration*Data Engineering*

Recovery Mode

Привет всем!

Сразу хочется отметить, что данная статья написана исключительно для людей, начинающих свое путь в изучении SQL и оконных функций. Здесь могут быть не разобраны сложные применения функций и могут не использоваться сложные формулировки определений - все написано максимально простым языком для базового понимания.

P.S. Если автор что-то не разобрал и не написал, значит он посчитал это не обязательным в рамках этой статьи)))

Для примеров будем использовать небольшую таблицу, которая показывает оценки учеников по разным предметам. В БД табличка выглядит следующим образом

+58

pxeno Jul 1 2020 at 11:38

Полный список вопросов с собеседований по Python для дата-сайентистов и инженеров

14 min

94K

Python*Programming*VK corporate blogIT career

Translation

Snake and flowers 2 by pikaole

Бывает, что компания ищет дата-сайентиста, а на самом деле ей нужен Python-разработчик. Поэтому при подготовке к собеседованию есть смысл освежить в памяти информацию по Python, а не только штудировать алгоритмы.

Команда Mail.ru Cloud Solutions перевела статью разработчика, который не раз попадал в такую ситуацию и на основе своего опыта составил список из 53 вопросов и ответов для подготовки к собеседованию. Большинство исследователей данных пишут много кода, поэтому такой список пригодится и дата-сайентистам, и инженерам. Он будет полезен и для соискателей, и для тех, кто проводит собеседования, и для тех, кто просто изучает Python.

Вопросы идут в случайном порядке. Поехали.

Читать дальше →

+31

avsmal Apr 23 2020 at 13:05

Теории вероятностей: готовимся к собеседованию и разрешаем «парадоксы»

17 min

87K

Mathematics*Образовательные проекты JetBrains corporate blogStudying in IT

Каждый год я участвую примерно в сотне собеседований в образовательных проектах JetBrains: собеседую абитуриентов в Computer Science Center и корпоративную магистратуру ИТМО (кстати, набор на программу идёт прямо сейчас). Все собеседования устроены по одному шаблону: мы просим на месте порешать задачи и задаём базовые вопросы по дисциплинам, которые студенты изучали в университетах. Большинство вопросов, которые мы задаём, довольно простые — нужно дать определение некоторого понятия, сформулировать свойство или теорему. К сожалению, у значительной доли студентов все эти определения выветриваются сразу после экзаменов в университетах. Казалось бы, что тут удивительного? В современном мире любое определение можно за пару секунд нагуглить, если это нужно. Но невозможность восстановить базовое определение свидетельствует о непонимании сути предмета.

Если непонимание алгебры или математического анализа может мало влиять на вашу жизнь, то непонимание теории вероятностей делает из вас лёгкую мишень для обмана и манипулирования. Суждения о вероятностях различных событий настолько глубоко вошли в нашу повседневную жизнь, что умение правильно рассуждать и отличать правду от невежества или манипуляции является необходимым. В этом небольшом обзоре мы поговорим о базовых понятиях теории вероятностей, научимся правильно формулировать утверждения про простые случайные процессы и разберём несколько парадоксов. Часть материала позаимствована из брошюры А. Шеня «Вероятность: примеры и задачи», которую я очень рекомендую для самостоятельного изучения.

Читать дальше →

+17

101

Old_tutor Feb 23 2021 at 13:13

10 полезных расширений для дата-сайентистов

5 min

14K

Programming*Skillfactory corporate blogMachine learning*Artificial IntelligenceLifehacks for geeks

Translation

Каждый специалист по Data Science тратит большую часть своего времени на визуализацию данных, их предварительную обработку и настройку модели на основе полученных результатов. Для каждого исследователя данных именно эти моменты – самая сложная часть процесса, поскольку хорошую модель можно получить при условии, что вы точно выполните все эти три шага. И вот 10 очень полезных расширений Jupyter Notebook, которые помогут вам выполнить эти шаги.

Приятного чтения!

+19

SergioMalecci Jul 1 2022 at 16:00

Сингапур: город, который построил Ли

20 min

34K

RUVDS.com corporate blogReading roomPopular scienceUrbanism

Этот город-государство для многих стал синонимом чистоты, эффективности и безопасности. А Ли Куан Ю, его основатель и долгий бессменный премьер-министр, зачастую воспринимается как идеал управленца, государственного деятеля и философа-конфуцианца. Всё это справедливо. Но есть и другая сторона медали — «рай на Земле» удалось построить при жёстком и авторитарном руководстве. Пассионарность населения была купирована навязыванием массового владения социальным жильём. Автодороги были освобождены от пробок драконовскими налогами на авто. Ну а абсолютная власть местных городских планировщиков, которые подчинили целям экономического развития саму мать-природу, стала уже притчей во языцех. Итак, встречайте Сингапур, the Fine City.

Читать дальше →

+89

2 3 4