Пользователь

Профиль Публикации Комментарии 1Закладки 310

perevalov_a 10 сен 2022 в 18:01

Financial News Sentiment Dataset: определяем точку входа в акции по настроению новостей

5 мин

6.5K

Python*Финансы в ITNatural Language Processing*

Набор данных Financial News Sentiment Dataset (FiNeS) содержит в себе заголовки финансовых новостей о компаниях, торгующихся на Московской и СПб биржах. Целевой переменной датасета является оценка тональности новостных заголовков в виде вещественного числа. Идеи для использования датасета: Создание трейдинговых стратегий на основе анализа тональности новостей "на лету"; Анализ новостного фона в разрезе времени (день/неделя) или в разрезе компании.

+12

avshkol 15 авг 2022 в 01:06

Все, что вам нужно знать об Airflow DAGs, ч.1 — Основы и расписания

20 мин

77K

Data Engineering*Хранилища данных*Apache*PostgreSQL*Python*

Туториал

Перевод

Полное руководство по созданию DAG в Apache Airflow DAG, позволяющих создать конвейер данных из разных источников, запускаемый в определенные периоды времени с заданной логикой. Первая часть. Источник: DAGs: The Definitive Guide от astronomer.io

Добро пожаловать в полное руководство по Apache Airflow DAG, представленное командой Astronomer. Эта электронная книга охватывает все, что вам нужно знать для работы с DAG, от строительных блоков, из которых они состоят, до рекомендаций по их написанию, динамической генерации, тестированию, отладке и многому другому. Это руководство, написанное практикующими для практикующих.

PatientZero 11 июл 2022 в 12:08

Как происходит генерация мира Minecraft

21 мин

59K

Алгоритмы*Игры и игровые консолиРазработка игр*

Перевод

Задумывались ли вы когда-нибудь, сколько на нашей планете песчинок? По грубым оценкам, более 7 квинтиллионов! Это 7 с 18 нулями. И всё-таки это даже меньше половины количества уникальных миров в Minecraft. Как же Minecraft и другим похожим играм удаётся создавать такие сложные, красивые, однако полностью процедурные миры? В этой статье я расскажу, как игра генерирует свои миры, от самой высокой горы до самой глубокой пещеры.

Часть 1: процедурная генерация

Для многих из вас Minecraft может быть первой (а может быть, и единственной) игрой, в которой миры не творятся вручную дизайнером уровней, а создаются процедурно.

Однако первой игрой с процедурно сгенерированным миром является «Elite», первая версия которой вышла для компьютера BBC Micro в 1984 году. Это прапрадед относительно новой «Elite: Dangerous», выпущенной в 2014 году.

Автоматическая генерация новых миров может казаться привлекательным способом ленивого создания бесконечного контента для игры. Однако на самом деле всё наоборот! Чтобы научить машину тому, как выглядит хороший уровень… нужно быть очень хорошим программистом и дизайнером уровней.

Контент должен быть достаточно разнообразным, чтобы выглядеть свежим, но не настолько разнообразным, чтобы казаться атипичным. И необходимо создавать миры, на которые не просто интересно смотреть, но которые обеспечивают справедливую с точки зрения игрока сложность.

Читать дальше →

+67

kzzzr 10 фев 2022 в 12:09

Вредные советы при построении Аналитики (Data Lake / DWH / BI) – целеполагание и результаты

6 мин

5.6K

Блог компании OTUSBig Data*Data Engineering*

Всем привет! На связи Артемий Козырь – Analytics Engineer в Wheely.

Продолжаю серию публикаций в формате “вредных советов”, целью которых является попытка обратить внимание на (не)лучшие практики и подходы в построении аналитических сервисов с реальными примерами и историями.

В этой публикации Вас ожидает:

digitalsibur 28 дек 2021 в 16:12

В выгодных рамках. Как ЭКОНС позволяет каждому оператору оценить свой вклад в прибыль компании

5 мин

5.2K

Блог компании Цифровой СИБУРBig Data*Визуализация данных*Промышленное программирование*Kotlin*

Привет, Хабр! На связи Александр Попко и Игнат Старшов, и сегодня мы расскажем про наш продукт ЭКОНС – систему визуализации, которая приносит СИБУРу миллиарды рублей в год.

Для наших производств соблюдение правильного технологического режима — очень важный фактор. Во-первых, дело в безопасности: если тот или иной показатель достигает критической отметки, скажем, температура или давление, случиться может всякое. Обычно не очень приятное. Так что за этим пристально следят, как специально обученные люди, так и автоматика.

Во-вторых, экономический эффект. Он тоже сильно зависит от выбранного инженерами и оператором нужного технологического режима. И вот здесь иногда сталкиваются две точки зрения, ведь оператор обычно мыслит в тоннах, а менеджер — сразу в рублях.

Поэтому мы создали конструктор под названием ЭКОНС. Если вкратце, то он помогает оператору наглядно (и что важно — в реальном времени) оценивать, как выбранный им режим технологического процесса прямо сейчас влияет на экономическую эффективность.

Общий экономический эффект от внедрения ЭКОНС на наших предприятиях — уже около 2,7 млрд рублей. В статье рассказываем, как устроен продукт.

kucev 13 дек 2021 в 15:04

Зачем вам нужно использовать активное обучение при обучении нейронных сетей

6 мин

7.3K

Big Data*Data Mining*Искусственный интеллектМашинное обучение*Обработка изображений*

Перевод

Часто разметка данных оказывается самой серьёзной преградой для машинного обучения — сбор больших объёмов данных, их обработка и разметка для создания достаточно производительной модели могут занимать недели или даже месяцы. Активное обучение позволяет обучать модели машинного обучения на гораздо меньшем количестве размеченных данных. Лучшие компании в сфере ИИ, например, Tesla, уже используют активное обучение. Мы считаем, что и вам тоже оно необходимо.

В этом посте мы расскажем, что такое активное обучение, рассмотрим инструменты для его практического применения и продемонстрируем, как мы сами упрощаем внедрение активного обучения в процесс NLP.

Читать дальше →

mr-pickles 13 дек 2021 в 13:05

Знакомство с трансформерами. Часть 3

13 мин

6.5K

Блог компании Wunder FundМашинное обучение*Математика*Алгоритмы*

Перевод

Первая и вторая части перевода материала о трансформерах были посвящены теоретическим основам этого семейства нейросетевых архитектур, рассказу о способах их использования, демонстрации их реализации с применением PyTorch. Сегодня речь пойдёт об истории трансформеров, будет дан обзор современного состояния дел в этой сфере.

+18

lgorSL 25 ноя 2021 в 02:29

Как можно взять tensorflow и смешать две картинки в одну

6 мин

5.6K

Python*Машинное обучение*TensorFlow*

Туториал

Возможно, вы встречали изображения, в которых смешаны два образа. Вблизи виден один, а издалека — другой. Например, Эйнштейн и Мадонна.

Не знаю, как делались оригинальные, но я попробовал сделать нечто похожее с помощью tensorflow.

trehleb 6 мая 2020 в 22:22

Интерактивные эксперименты с машинным обучением (на TensorFlow)

6 мин

6.5K

Машинное обучение*Искусственный интеллектTensorFlow*Python*JavaScript*

Туториал

Перевод

Вкратце

Я создал новый проект Интерактивные эксперименты с машинным обучением на GitHub. Каждый эксперимент состоит из Jupyter/Colab ноутбука, показывающего как модель тренировалась, и Демо странички, показывающей модель в действии прямо в вашем браузере.

Несмотря на то, что машинные модели в репозитории могут быть немного "туповатенькими" (помните, это всего-лишь эксперименты, а не вылизанный код, готовый к "заливке на продакшн" и дальнейшему управлению новыми Tesla), они будут стараться как могут чтобы:

Распознать цифры и прочие эскизы, которые вы нарисуете в браузере
Определить и распознать объекты на видео из вашей камеры
Классифицировать изображения, загруженные вами
Написать с вами поэму в стиле Шекспира
И даже поиграть с вами в камень-ножницы-бумагу
и пр.

Я тренировал модели на Python с использованием TensorFlow 2 с поддержкой Keras. Для демо-приложения я использовал React и JavaScript версию Tensorflow.

Интерактивные эксперименты с машинным обучением

Читать дальше →

+12

volinski 28 июн 2021 в 09:48

Как работать с Big Data быстрее и эффективнее: Kubernetes для Data Science

10 мин

9.9K

Блог компании VKBig Data*Data Engineering*Kubernetes*Облачные вычисления*

Big Data by Batjorge

Традиционный подход к построению работы с большими данными — развернуть Hadoop-кластер, установить дополнительные инструменты и построить на нем платформу для работы с данными. Но в таком подходе есть несколько ограничений, вроде невозможности разделения Storage- и Compute-слоев, сложностей масштабирования и изоляции сред для разных приложений. Даже несмотря на то, что Hadoop можно арендовать у облачного провайдера как сервис (aaS), такой подход все равно мало чем отличается от развертывания на собственном оборудовании.

Однако есть другой, Cloud-Native подход работы с большими данными. Он позволяет решить эти проблемы, а также получить дополнительные возможности от облачных технологий. Для этого используют Kubernetes, интегрируя его с различными инструментами.

Я Александр Волынский, архитектор облачной платформы Mail.ru Cloud Solutions. Расскажу, как Kubernetes помогает в работе с Big Data, какие используются инструменты и какие преимущества можно получить по сравнению с классическим развертыванием.

Также вы можете посмотреть видеовыступление на митапе «Большие данные: не хайп, а индустрия».

Читать дальше →

+17

m31 24 июн 2021 в 14:19

DataScience Digest — 24.06.21

2 мин

2.7K

Python*Алгоритмы*Big Data*Машинное обучение*Искусственный интеллект

Приветствую всех!

Встречайте свежий выпуск дайджеста полезных материалов из мира Data Science & Machine Learning и не забывайте подписываться на наш Telegram-канал.

m31 10 июн 2021 в 13:52

DataScience Digest — 10.06.21

3 мин

Искусственный интеллектМашинное обучение*Big Data*Алгоритмы*Python*

Приветствую всех!

На протяжении долгого времени я не публиковал свежих выпусков Data Science Digest, а сейчас пришло время его возродить. Выходить дайджест будет еженедельно по четвергам.

Читать дальше →

oorzhakau 5 июн 2021 в 14:10

«A/B-тест» в инженерно-геологических изысканиях на языке Python

7 мин

6.4K

Python*Статистика в IT

Из песочницы

При выполнении инженерно-геологических изысканий может возникнуть задача, связанная с сопоставлением данных полевых и лабораторных исследований на одних и тех же грунтах, с целью подтверждения корректной транспортировки проб от объекта изысканий до лаборатории (образцы не были деформированы и/или разрушены в ходе перевозки).

При данной постановке задачи можно применить методику A/B-тестирования.

selesnow 3 июн 2021 в 10:31

Вращение таблиц в Google BigQuery (PIVOT)

7 мин

5.2K

SQL*Data Mining*Big Data*Google Cloud Platform*Data Engineering*

Туториал

Сводные таблицы в Excel являются чрезвычайно мощным инструментом, поскольку позволяют быстро изменять форму данных в пару кликов мышки. Например, вам необходимо построить отчёт продаж по магазинам за год, таким образом, что бы в строках были названия магазинов, а в столбцах месяца. Не проблема, кидай в область столбцов сводной таблицы поле месяц, в область строк поле с названием торговых точек, а в поле значение сумму продаж. Отчёт готов.

До недавних пор реализовать такую операцию в SQL было довольно проблематично, но недавно в функционал Google BigQuery была добавлен оператор PIVOT, о нём и пойдёт речь в этой статье.

ru_vds 13 мая 2021 в 19:57

6 хитростей Python, о которых никто не рассказывает новичкам

5 мин

43K

Блог компании RUVDS.comPython*Программирование*

Перевод

В наши дни Python — это самый популярный в мире язык программирования. Одна из причин этого кроется в том, что разработчики с удовольствием пишут на Python. Это выгодно отличает Python от других языков.

Python завоёвывает сердца новичков и опытных программистов простотой синтаксиса, огромным количеством библиотек, лёгкостью и быстротой изучения языка.

Автор статьи, перевод которой мы сегодня публикуем, хочет рассказать о 6 хитростях Python, о которых обычно никто ничего не рассказывает.

Код примеров можно найти в GitHub-репозитории, ссылку на который автор статьи выдаёт тем, кто подписался на рассылку проекта worldindev.ck.page.

Читать дальше →

+23

Hasselhoff 14 мая 2021 в 18:18

Многоразовый шаблон логирования на Python для всех ваших приложений в Data Science

4 мин

7.4K

Блог компании SkillfactoryОтладка*Программирование*Python*

Перевод

Идеальный способ отлаживать и отслеживать приложения — хорошо определённые, информативные и удобно структурированные логи. Они являются необходимым компонентом любого — малого, среднего или крупного — проекта на любом языке программирования, не только на Python. Не используйте print() или корневой логгер по умолчанию, вместо этого настройте логирование на уровне проекта. К старту нового потока курса по Data Science, мы перевели статью, автор которой решил поделиться своим шаблоном для логирования. Не лишним будет сказать, что этот шаблон пришёлся по душе многим специалистам — от дата-сайентистов профессионалов и до разработчиков ПО разного уровня.

capissimo 11 мая 2021 в 17:25

Python и статистический вывод: часть 2

9 мин

11K

Статистика в ITУчебный процесс в ITData Mining*Программирование*Python*

Туториал

В статистической науке термины «выборка» и «популяция» имеют особое значение. Популяция, или генеральная совокупность, — это все множество объектов, которые исследователь хочет понять или в отношении которых сделать выводы.

capissimo 11 мая 2021 в 16:37

Python и статистический вывод: часть 1

12 мин

18K

Python*Программирование*Data Mining*Учебный процесс в ITСтатистика в IT

Туториал

В предыдущей серии постов для начинающих (первый пост тут) из ремикса книги Генри Гарнера «Clojure для исследования данных» (Clojure for Data Science) на языке Python было представлено несколько численных и визуальных подходов, чтобы понять, что из себя представляет нормальное распределение. Мы обсудили несколько описательных статистик, таких как среднее значение и стандартное отклонение, и то, как они могут использоваться для краткого резюмирования больших объемов данных.

Набор данных обычно представляет собой выборку из некой более крупной популяции, или генеральной совокупности. Иногда эта популяция слишком большая, чтобы быть измеренной полностью. Иногда она неизмерима по своей природе, потому что она бесконечна по размеру либо потому что к ней нельзя получить непосредственный доступ. В любом случае мы вынуждены делать вывод, исходя из данных, которыми мы располагаем.

В этой серии из 4-х постов мы рассмотрим статистический вывод: каким образом можно выйти за пределы простого описания выборок и вместо этого описать популяцию, из которой они были отобраны. Мы подробно рассмотрим степени нашей уверенности в выводах, которые мы делаем из выборочных данных. Мы раскроем суть робастного подхода к решению задач в области исследования данных, каким является проверка статистических гипотез, которая как раз и привносит научность в исcледование данных.

В конце заключительного поста можно будет проголосовать за или против размещения следующей серии постов. А пока же…

i_shutov 8 мая 2021 в 10:20

Storytelling R отчет против BI, прагматичный подход

6 мин

4.8K

Визуализация данных*R*Python*Data Mining*Big Data*

Проблематика

Когда говорят про отчеты к данным (неважно, какая тема) все хотят гибкие дашборды, МНОГО дашбордов, играют конкурсы про BI, выдумывают разные сложные требования и кейсы, отсматривают массу вендоров и решений, разбиваются на непримиримые лагеря и на 100% уверены, что это то, без чего жизнь на работе тяжела, уныла и печальна.

Так ли это? По описанию очень сомнительно (похоже на серебряную пулю), а практика дает подтверждение «отнюдь не так».

Является продолжением серии предыдущих публикаций.

Читать дальше →

itresume 4 мая 2021 в 17:11

Звездные войны или подробный гайд по dplyr

8 мин

6.2K

Data Engineering*R*Data Mining*SQL*Python*

Туториал

Сегодня, 4 мая, в день Звездных войн мы подготовили для Вас подробный гайд по основным функциям библиотеки dplyr. Почему именно в день Звездных войн? А потому что разбирать мы все будем на примере датасета starwars.

Ну что, начнем!

2 3 ...

15 16