Как стать автором
Обновить
18
0
Дмитрий @LazyTalent

Python, DE

Отправить сообщение

Сбор данных с обходом капчи посредством PYAUTOGUI, KERAS и TENSORFLOW

Время на прочтение5 мин
Количество просмотров7.3K

Существует большое количество методов для автоматического сбора и обработки больших объемов данных из веб-ресурсов. Однако иногда недоступно извлечение данных с помощью автоматизированного кода, выполняющего GET-запросы с последующим парсингом HTML-кода, и его преобразованием в необходимый формат, также, как и все смежные методы. В таких случаях на помощь может прийти эмулятор действия пользователя («кликер», «бот», «робот»).

Читать далее
Всего голосов 7: ↑5 и ↓2+4
Комментарии1

Паника на российской бирже: почему ETF продают по искаженной цене

Время на прочтение9 мин
Количество просмотров50K

В мире происходят страшные события, и фондовый рынок в каком-то смысле является их отражением. В этой статье я объясняю некоторые происходящие сейчас на рынке явления — возможно, эта информация поможет вам избежать убытков от продажи активов по несправедливой цене.

Читать далее
Всего голосов 103: ↑93 и ↓10+107
Комментарии112

Простые модификации для улучшения табличных нейронных сетей

Время на прочтение25 мин
Количество просмотров3.5K

Simple Modifications to Improve Tabular Neural Networks

 Растет интерес к архитектуре нейронных сетей для табличных данных. В последнее время появилось множество табличных моделей глубокого обучения общего назначения, вычислительная мощность которых иногда соперничает с возможностями деревьев решений с градиентным бустингом (GBDT - gradient boosted decision trees). Последние модели черпают вдохновение из различных источников, включая GBDT, машины факторизации и нейронные сети из других областей применения. Предыдущие табличные нейронные сети также используются, но, возможно, недостаточно учтены, особенно для моделей, связанных с конкретными табличными задачами. В данной статье основное внимание уделяется нескольким таким моделям и предлагаются модификации для повышения их производительности. Показано, что при модификации эти модели конкурируют с ведущими табличными моделями общего назначения, включая GBDT.

Введение

В последнее время многие архитектуры нейронных сетей были представлены в качестве табличных решений общего назначения. Некоторые примеры: Tabnet (Арик и Пфистер 2020), TabTransformer (Хуан и др. 2020), NODE (Попов, Морозов и Бабенко 2019), DNF-сеть (Абутбул и др. 2020). Внедрение этих и других моделей демонстрирует растущий интерес к применению глубокого обучения к табличным данным. Это не связано с отсутствием решений, выходящих за пределы возможностей глубокого обучения. Деревья решений с градиентным бустингом (GBDT) являются классом очень хороших моделей общего назначения и фактически часто используются табличными моделями глубокого обучения – как в качестве источника вдохновения, так и в качестве стандарта по производительности.

Читать далее
Всего голосов 4: ↑2 и ↓20
Комментарии0

Тычем палкой в итераторы

Время на прочтение5 мин
Количество просмотров11K

Итераторы – мощные и очень полезные составляющие Python. Цель этой статьи в их изучении подручными инструментами. Сразу предупреждаю, что в исследовательском арсенале у меня не швейцарский нож, а палка-копалка. Как известно, она предназначена для разрыхления почвы, но для нескольких любопытных находок достаточно и этого.

Читать далее
Всего голосов 9: ↑8 и ↓1+11
Комментарии19

Обнаружение новизны изображений с помощью Python и библиотеки scikit-learn

Время на прочтение3 мин
Количество просмотров4K

В статье я расскажу, как с помощью библиотек scikit-learn, opencv, numpy, imutilsс выявить новизну входных изображений. Многие программы требуют наличия возможности решить, принадлежит ли новый объект тому же распределению, что и существующие объекты (это промежуточный результат), или его следует рассматривать как новизну. Часто эта возможность используется для очистки реальных наборов данных.

Читать далее
Всего голосов 3: ↑2 и ↓1+1
Комментарии1

Как сделать QR код с картинкой на Python

Время на прочтение3 мин
Количество просмотров18K

Как сделать QR код с картинкой на Python

Как поместить полноценное изображение на фон QR кода с помощью Python (быстро, без регистрации и смс).

Подробнее
Всего голосов 17: ↑17 и ↓0+17
Комментарии10

Уроки компьютерного зрения на Python + OpenCV с самых азов. Часть 2

Время на прочтение2 мин
Количество просмотров20K

Продолжим изучение компьютерного зрения, которое мы начали на прошлом уроке. Напомню кратко, что там было:

• Этапы обработки и анализа изображений.

• Установка OpenCV.

• Простая программа на OpenCV – отображения картинки в окне.

• Изменение размеров картинки.

• Преобразование из цветного формата в черно-белый.

Как я уже писал в первой части, для того, чтобы удалить из изображения различные шумы, применяют размытие изображение. Например, вот так:

Читать далее
Всего голосов 2: ↑1 и ↓1+2
Комментарии8

Как я решил стать трейдером и проигрался, а потом отыгрался, потому, что я программист. Мой опыт

Время на прочтение10 мин
Количество просмотров165K


Таким я себя видел в своих мечтах. Freepik


Здравствуйте дорогие хабровчане, в этом небольшом посте я хочу рассказать про свой опыт в торговле на бирже. Под катом я написал о том, как я пошёл тем же путём, что и все, и как и все (или как подавляющее большинство) проигрался, затем хорошенько задумался, напрограммировал свои инструменты и отыгрался обратно.


Предупреждение! Статья не является призывом к чему-либо, тем более к торговле на бирже. Скорее всего, будет интересна начинающим трейдерам и всем интересующимся данной темой. Постарался написать простым и доступным языком без сложных терминов и кода.

Читать дальше →
Всего голосов 84: ↑73 и ↓11+82
Комментарии230

О практической пользе transformer для торговли на бирже

Время на прочтение24 мин
Количество просмотров5.9K

Многие datascientists, желающие использовать ML на финансовых рынках, прочитали толстые книжки об инвестировании, может даже создавали модели с учетом прочитанного. И наверняка знают как правильно оценить полученные модели с точки зрения ML. Разобраться с этим необходимо, чтобы не было мучительно больно, когда прекрасная модель на бумаге, превращается в генератор убытков при практическом использовании.

Читать далее
Всего голосов 7: ↑6 и ↓1+5
Комментарии4

Анализ стадий волейбольной игры с помощью искуственного интеллекта

Время на прочтение2 мин
Количество просмотров3.9K

Распознаем стадии волебольной игры на основе детектора игроков.

Читать далее
Всего голосов 6: ↑4 и ↓2+2
Комментарии14

Рисуем генеративные грибы на javascript

Время на прочтение8 мин
Количество просмотров18K

Продолжаю делиться своим опытом погружения в мир генарта и nft, на этот раз при помощи генеративных грибов. Для тех кто не совсем в теме хотя бы одного из этих слов, предлагаю сначала посмотреть мою предыдущую публикацию, а в этой статье я постараюсь больше сосредоточиться не на философии того, что вообще происходит, а на технической реализации процедурной 3д графики в three js.

Читать далее
Всего голосов 69: ↑66 и ↓3+85
Комментарии12

Что будет, если объединить трансформер и дерево решений

Время на прочтение8 мин
Количество просмотров5K

Исследователи добились значительного прогресса в скорости конвергенции, точности и интерпретируемости решений визуального трансформера. За подробностями приглашаем под кат. Материалом из блога Google Research делимся к старту флагманского курса по Data Science.

Читать далее
Всего голосов 12: ↑9 и ↓3+6
Комментарии0

Пишем голосового ассистента на Python

Время на прочтение16 мин
Количество просмотров172K

Введение


Технологии в области машинного обучения за последний год развиваются с потрясающей скоростью. Всё больше компаний делятся своими наработками, тем самым открывая новые возможности для создания умных цифровых помощников.

В рамках данной статьи я хочу поделиться своим опытом реализации голосового ассистента и предложить вам несколько идей для того, чтобы сделать его ещё умнее и полезнее.

image
Читать дальше →
Всего голосов 10: ↑9 и ↓1+12
Комментарии5

Классика фантастики и фэнтези, которая лишь недавно добралась до русскоязычного читателя

Время на прочтение6 мин
Количество просмотров58K

В фэнтези и фантастике есть целый пласт произведений, которые уже давно считаются классическими и хорошо известны читателям. Большая часть таких книг давно переведена на русский язык, ведь в 90-х годах в наших палестинах очень активно издавались книги популярных фантастов. Однако некоторые романы, по праву имеющие на Западе статус классических, на русском языке впервые увидели совсем недавно. Иногда из-за того, что пик их популярности пришелся на время до распада Советского Союза, когда с переводами западной фантастики все было гораздо сложнее, иногда из-за неформатности или предполагаемой сложности для читателя, иногда по финансовым причинам. Рассказываем о нескольких таких произведениях, с которыми русскоязычные читатели смогли познакомиться только в последнее время.

Читать далее
Всего голосов 108: ↑101 и ↓7+110
Комментарии22

Куда поехать в пятницу вечером, если ты в Питере. Сравнение алгоритмов геокластеризации

Время на прочтение7 мин
Количество просмотров6K

Всем привет, меня зовут Максим Шаланкин, в Ситимобил я занимаюсь машинным обучением. Мы постоянно принимаем решения на основе больших данных. Даже в пятницу вечером мы доверяем алгоритмам выбор места отдыха. А кто же, если не наши клиенты, лучше всего знают, где в Санкт-Петербурге можно хорошо отдохнуть?

Врууум
Всего голосов 27: ↑24 и ↓3+26
Комментарии7

Векторное представление товаров Prod2Vec: как мы улучшили матчинг и избавились от кучи эмбеддингов

Время на прочтение5 мин
Количество просмотров18K
Привет! Меня зовут Александр, я работаю в команде матчинга Ozon. Ежедневно мы имеем дело с десятками миллионов товаров, и наша задача — поиск и сопоставление одинаковых предложений (нахождение матчей) на нашей площадке, чтобы вы не видели бесконечную ленту одинаковых товаров.
На странице любого товара на Ozon есть картинки, заголовок, описание и дополнительные атрибуты. Всю эту информацию мы хотим извлекать и обрабатывать для решения разных задач. И особенно она важна для команды матчинга. 
Чтобы извлекать признаки из товара, мы строим его векторные представления (эмбеддинги), используя различные текстовые модели (fastText, трансформеры) для описаний и заголовков и целый набор архитектур свёрточных сетей (ResNet, Effnet, NFNet) — для картинок. Далее эти векторы используются для генерации фичей и товарного сопоставления.
На Ozon ежедневно появляются миллионы обновлений — и считать эмбеддинги для всех моделей становится проблематично. А что, если вместо этого (где каждый вектор описывает отдельную часть товара) мы получим один вектор для всего товара сразу? Звучит неплохо, только как бы это грамотно реализовать…


Читать дальше →
Всего голосов 30: ↑30 и ↓0+30
Комментарии27

Нейросети (на примере трансформеров) на фондовом рынке. Коды, «граали», финансовый результат

Время на прочтение13 мин
Количество просмотров10K

Пост в помощь тем кто интересуется практической пользой от применения нейросетей на фондовом рынке.

Читать далее
Всего голосов 12: ↑12 и ↓0+12
Комментарии7

Анализ тональности текста с использованием фреймворка Lightautoml

Время на прочтение6 мин
Количество просмотров5.2K

Сентиментный анализ (анализ тональности) – это область компьютерной лингвистики, занимающаяся изучением эмоций в текстовых документах, в основе которой лежит машинное обучение.

В этой статье я покажу, как мы использовали для этих целей внутреннюю разработку компании – фреймворк LightAutoML, в котором имеется всё для решения поставленной задачи – предобученные готовые векторные представления слов FastText и готовые текстовые пресеты, в которых необходимо только указать гиперпараметры.

Задача

При возникновении трудностей в работе с автоматизированными системами внутренние клиенты оставляют обращения нейтрального или же негативного характера (положительный не учитывается по причине того, что таких обращений очень мало).

Анализ тональности текста позволит понять, что в обращении пытается донести пользователь – что-то нейтральное или негативное. Нас интересуют случаи, где напрямую описываются проблемы в автоматизированной системе и на что требуется внимание и проведение дальнейшего анализа.

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Комментарии0

Киберпанк, кольщик и Q-пола. Ранняя история умных татуировок

Время на прочтение11 мин
Количество просмотров7.4K

Неспокойная обстановка нашего ковидного времени (подумать только, менее одиннадцати месяцев прошло с тех пор, как я впервые вакцинировался «Спутником-V») возродила практику шуток и теорию заговоров по поводу всеобщего чипирования. А еще не так давно мы с коллегой по Хабру обсуждали технологическую наивность сюжета «Джонни-Мнемоника» – и коллега заметил, что «можно было просто флешку в виде зубного протеза ему сделать и всего делов». Такой информационный фон вновь вернул меня к идее написать статью об умных татуировках, которые могли бы использоваться в качестве как датчиков, так и информационных носителей. Это и есть самый реальный и интересный вариант массового чипирования, который я могу себе представить.

Ни одной татуировки у меня нет
Всего голосов 14: ↑13 и ↓1+16
Комментарии5

Начало работы с Playwright (Часть 2)

Время на прочтение5 мин
Количество просмотров14K

Добро пожаловать  на 2-й день челленджа #30DaysOfPlaywright!

Материал первого дня обучения содержал информацию о том, как настраивать и проверять нашу локальную среду для тестирования. Пришла пора завершить данное руководство, рассмотрев ключевые концепции Playwright, в числе которых...

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии2

Информация

В рейтинге
Не участвует
Откуда
Пномпень, Камбоджа, Камбоджа
Дата рождения
Зарегистрирован
Активность

Специализация

Backend Developer, Data Engineer
Senior
От 5 000 $