All streams
Search
Write a publication
Pull to refresh
108
0

Профессиональное сообщество

Send message

Бамбук, Mito-лист и Деталь, или как подготовиться ко встрече с пандами

Reading time6 min
Views2.5K

Привет, Хабр!

Как часто вы сталкиваетесь с необходимостью выгрузить в MS Excel более миллиона строк? Все фильтры на выгрузку уже были наложены ранее, но, увы, она до сих пор «не проходит по габаритам». Перед нами встает дилемма – делить, или … воспользоваться готовыми решениями для python, не изучая python! Речь сегодня пойдет о трех библиотеках, которые позволяют писать код и при этом не писать его, а также оперировать внушительными объемами данных с минимальными знаниями английского языка или синтаксиса пресловутых «панд» (здесь и далее «панды»: pandas –  open-source библиотека для python для работы с табличными данными – прим. автора). Для примера будем использовать объявления о продаже автомобилей Toyota с известного сайта.

Читать далее

Как в условиях недостатка данных улучшить качества классификатора

Reading time10 min
Views2.8K

Одна из основных проблем человека, который занимается машинным обучением - данные. Исследователи сталкиваются с плохим качеством данных и/или их отсутствием. Рассмотрим способы улучшение метрик классификатора в условиях малого количества признаков.

В машинном обучении одним из основных критериев успеха является правильная предобработка данных. В условиях отсутствия дополнительных факторов качество классификатора можно улучшить за счет обеспечения монотонности целевой переменной от признаков, а также за счет увеличения порядка пространства признаков.

Читать далее

Task-Сервер на «Flask»: как заставить несколько компьютеров решать одну задачу

Reading time5 min
Views4.8K

Привет, Хабр! Подготовительным этапом для видеоаналитики с применением методов машинного обучения - является выгрузка записей из видеорегистраторов Hikvision, что является достаточно длительной задачей, особенно если регистраторов несколько, давайте попытаемся разобраться как выполнить эту работу быстрее и удобнее, используя сервер.

Читать далее

Как убрать посторонние шумы с фото документов с помощью PyTorch

Reading time9 min
Views7.1K

Привет, Хабр!

При автоматизации работы с документацией иногда приходится иметь дело со сканами плохого качества. Особенно удручает ситуация, при которой вместо сканированного документа предоставляется фото с телефона.

В области обработки документов существует целый ряд задач, которые решаются с помощью машинного обучения. С примерным списком можно ознакомиться в данной статье. В этом руководстве я предлагаю решение проблемы различных помех на фото документа, которые могут возникнуть при плохом качестве съемки или плохом качестве самого документа.

Читать далее

Кластерный анализ в R

Reading time3 min
Views7.8K

Кластерный анализ решает задачу разбиения множества на группы (кластеры) по принципу наибольшей однородности.

Подобные задачи возникают во множестве сфер деятельности, в частности это реклама и маркетинг. Ситуация, когда нужно выделить группы клиентов, максимально «похожих» друг на друга или определить локации, в которых преобладают определённые предпочтения.

Рассмотрю подобный пример и расскажу о способах решения вопроса средствами языка R.

Читать далее

Визуализация данных с помощью фреймворка Dash (часть 3)

Reading time4 min
Views6K

Привет, Хабр! Я расскажу о трех опциональных, но довольно полезных инструментах фреймворка dash, которые сделают ваш dashbord показательным и интерактивным.

Читать далее

Детектирование позы человека при помощи  библиотеки OpenPose

Reading time4 min
Views9K

Сегодня расскажу о решении важной для многих из нас и ставшей уже классической задачи ― детектировании позы человека на изображении. Решать её я предлагаю с использованием библиотеки OpenPose. Всё самое интересное ― под катом. Сразу скажу, что статья небольшая, но наглядная ― я постаралась без лишних слов показать возможности библиотеки. В первую очередь она предназначена для начинающих специалистов, но, возможно, и профи найдут что-то полезное для себя.

Вперёд!

Fine-Tune модели основанной на трансформерах (Rubert) для классификации текстов

Reading time7 min
Views19K

Задача классификации текста уже давно является устоявшейся во многих компаниях. Она используется для определения настроения клиентов, разделение документов на заранее известные темы, детекции фейковых новостей и т.д. Сегодня я представлю state of the art подход для решения задачи бинарной классификации, а именно детекция сообщений, в которой присутствует жалоба на сотрудника.

А также сравню по точности два подхода - Fine-Tune Bert и получение предобученных эмбеддингов и их классификация с использованием полносвязной нейронной сети.

Читать далее

Слова одни скрывают часто слова другие

Reading time5 min
Views3.2K

В связи с постоянным ростом объема информации, увеличивается потребность в технологиях сжатия данных. Сжатие мультимедийных и текстовых данных необходимо для экономии памяти, упаковки дополнительных данных и сокращения времени коммуникации. Одним из таких методов является арифметическое кодирование.

Читать далее

“Да кто это написал?!!”, или решение сложных задач простыми средствами

Reading time5 min
Views14K

Привет, Хабр! Каждый день тысячи программистов трудятся не покладая рук. Они пишут код, контактируют между собой и, как и любой человек, совершают ошибки. Проблемы в коде могут повысить уровень рисков и стать критическими для компании. И с целью выявления таких ошибок специалисты проводят анализ кода.      

Интересно!

Параллельная обработка и преобразование json-фалов в pandas

Reading time4 min
Views4.8K

Привет, Хабр!

Структурированные данные – хорошо, а полуструктурированные – не проблема. Формат json хоть и является очень популярным, однако не очень удобен для анализа, особенно если данных много, и они разделены на отдельные файлы.

Разберем преобразование множества json файлов различной структуры в привычный аналитикам pandas.DataFrame.

Читать далее

Предсказание временных рядов с помощью Keras

Reading time4 min
Views10K

Привет, Хабр!

Сегодня хотелось бы поговорить о задаче предсказания временных рядов методами машинного обучения. В каком виде зачастую используются данные для задачи предсказания? Что такое LSTM-архитектура рекуррентных нейронных сетей? Как справляются модели RNN и полносвязной сети c поставленной задачей?

Читать далее

3 пакета Python для генерации синтетических данных

Reading time6 min
Views15K

Нет данных? Сгенерируй!

Рассмотрим три самых интересных, в плане функциональности и простоты использования, способа генерации синтетических данных с помощью пакетов Python .

Читать далее

Сравнительный анализ эффективности работы Cython и Python

Reading time5 min
Views8.7K

Привет, Хабр! Сегодня поговорим о Cython, почему он хорош, что он умеет: хорошие вещи, плохие вещи, о том, когда стоит использовать Cython, рассмотрим пример и существующие проекты на нем.

Читать далее

Даёшь огромным моделям колоссальные тренажёры

Reading time7 min
Views4.2K

Архитектура Transformer улучшила производительность моделей глубокого обучения в таких областях, как компьютерное зрение и обработка естественного языка. Вместе с лучшей производительностью приходят и большие размеры моделей. Это создает проблемы производительности аппаратного обеспечения. Не разумно тренировать большие модели, такие как Vision Transformer, BERT, GPT, на одном графическом процессоре или одной машине. Существует острая потребность в обучении моделей в распределенной среде. Однако распределенное обучение, особенно параллелизм моделей, часто требует знаний в области компьютерных систем и архитектуры. Для исследователей ИИ остается сложной задачей внедрение сложных распределенных обучающих решений для своих моделей. В этой статье рассмотрим систему Colossal-AI, которая представляет собой единую параллельную обучающую систему, предназначенную для плавной интеграции различных парадигм методов распараллеливания. Она позволяет исследователям данных сосредоточиться на разработке архитектуры модели и отделяет проблемы распределенного обучения от процесса разработки. 

Читать далее

GAN-модели для генерации набора данных из изображений

Reading time6 min
Views5.1K

Привет, Хабр! Для машинного обучения в специфических областях очень остро стоит проблема нехватки данных для обучения.  Давайте рассмотрим один из способов генерировать изображения.

Читать далее

Telegram-бот мониторинга состояния серверов на Haskell

Reading time5 min
Views5.7K

Привет, Хабр! Состояние сервера необходимо постоянно мониторить, чтобы в случае ошибки быстро ее исправить. Удобнее всего отслеживать работоспособность с помощью смартфона, а именно Telegram-бота, он позволяет осуществлять проверку на ходу. Реализуем Telegram-бот на функциональном языке Haskell, заодно разберемся в его преимуществах.  

Читать далее

Функциональные возможности Fiddler как инструмента для анализа и подмены HTTPS-трафика

Reading time5 min
Views14K

Привет, Хабр! Сегодня расскажу о применение мощного и удобного инструмента для анализа и мониторинга HTTP(S) трафика Fiddler. По сути, Fiddler – это прокси для отладки приложений и сайтов. Разработчик и тестировщик могут использовать Fiddler для отладки веб-трафика и тестирования производительности приложения или сайта. Специалистам по информационной безопасности Fiddler будет полезен для проверки сайта или приложения на наличие уязвимостей.

Читать далее

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Works in
Registered
Activity