Articles / Profile of NewTechAudit / Habr

NTA @NewTechAudit

Профессиональное сообщество

ProfileArticles282PostsNewsComments307

NewTechAudit Sep 26 2022 at 15:22

Бамбук, Mito-лист и Деталь, или как подготовиться ко встрече с пандами

6 min

2.5K

Python * Programming *

Привет, Хабр!

Как часто вы сталкиваетесь с необходимостью выгрузить в MS Excel более миллиона строк? Все фильтры на выгрузку уже были наложены ранее, но, увы, она до сих пор «не проходит по габаритам». Перед нами встает дилемма – делить, или … воспользоваться готовыми решениями для python, не изучая python! Речь сегодня пойдет о трех библиотеках, которые позволяют писать код и при этом не писать его, а также оперировать внушительными объемами данных с минимальными знаниями английского языка или синтаксиса пресловутых «панд» (здесь и далее «панды»: pandas – open-source библиотека для python для работы с табличными данными – прим. автора). Для примера будем использовать объявления о продаже автомобилей Toyota с известного сайта.

Читать далее

0

NewTechAudit Sep 23 2022 at 07:15

HTML, JavaScript, YandexAPI и щепотку Bootstrap

5 min

6K

Yandex API * API * HTML * Programming * JavaScript *

Привет, Хабр!

Читать далее

+3

NewTechAudit Sep 20 2022 at 11:04

Решаем судоку при помощи компьютерного зрения

5 min

6.8K

Machine learning * Python * Programming * Logic games

Tutorial

Привет, Хабр! Поиграем в судоку?

Читать далее

+13

NewTechAudit Sep 12 2022 at 06:04

Как в условиях недостатка данных улучшить качества классификатора

10 min

2.8K

Data visualization * Machine learning *

Tutorial

Одна из основных проблем человека, который занимается машинным обучением - данные. Исследователи сталкиваются с плохим качеством данных и/или их отсутствием. Рассмотрим способы улучшение метрик классификатора в условиях малого количества признаков.

В машинном обучении одним из основных критериев успеха является правильная предобработка данных. В условиях отсутствия дополнительных факторов качество классификатора можно улучшить за счет обеспечения монотонности целевой переменной от признаков, а также за счет увеличения порядка пространства признаков.

Читать далее

+2

NewTechAudit Sep 9 2022 at 07:00

Task-Сервер на «Flask»: как заставить несколько компьютеров решать одну задачу

5 min

4.8K

Machine learning * Server optimization *

Привет, Хабр! Подготовительным этапом для видеоаналитики с применением методов машинного обучения - является выгрузка записей из видеорегистраторов Hikvision, что является достаточно длительной задачей, особенно если регистраторов несколько, давайте попытаемся разобраться как выполнить эту работу быстрее и удобнее, используя сервер.

Читать далее

+2

NewTechAudit Sep 6 2022 at 05:15

Как убрать посторонние шумы с фото документов с помощью PyTorch

9 min

7.1K

Image processing * Big Data * Machine learning *

Tutorial

Привет, Хабр!

При автоматизации работы с документацией иногда приходится иметь дело со сканами плохого качества. Особенно удручает ситуация, при которой вместо сканированного документа предоставляется фото с телефона.

В области обработки документов существует целый ряд задач, которые решаются с помощью машинного обучения. С примерным списком можно ознакомиться в данной статье. В этом руководстве я предлагаю решение проблемы различных помех на фото документа, которые могут возникнуть при плохом качестве съемки или плохом качестве самого документа.

Читать далее

+8

NewTechAudit Aug 28 2022 at 08:35

Кластерный анализ в R

3 min

7.8K

R * Machine learning *

Кластерный анализ решает задачу разбиения множества на группы (кластеры) по принципу наибольшей однородности.

Подобные задачи возникают во множестве сфер деятельности, в частности это реклама и маркетинг. Ситуация, когда нужно выделить группы клиентов, максимально «похожих» друг на друга или определить локации, в которых преобладают определённые предпочтения.

Рассмотрю подобный пример и расскажу о способах решения вопроса средствами языка R.

Читать далее

+2

NewTechAudit Aug 27 2022 at 04:57

Визуализация данных с помощью фреймворка Dash (часть 3)

4 min

6K

Data visualization * Programming * Python *

Привет, Хабр! Я расскажу о трех опциональных, но довольно полезных инструментах фреймворка dash, которые сделают ваш dashbord показательным и интерактивным.

Читать далее

0

NewTechAudit Aug 17 2022 at 11:18

Детектирование позы человека при помощи библиотеки OpenPose

4 min

9K

Algorithms * Image processing * Machine learning *

Сегодня расскажу о решении важной для многих из нас и ставшей уже классической задачи ― детектировании позы человека на изображении. Решать её я предлагаю с использованием библиотеки OpenPose. Всё самое интересное ― под катом. Сразу скажу, что статья небольшая, но наглядная ― я постаралась без лишних слов показать возможности библиотеки. В первую очередь она предназначена для начинающих специалистов, но, возможно, и профи найдут что-то полезное для себя.

+2

NewTechAudit Aug 15 2022 at 04:42

Fine-Tune модели основанной на трансформерах (Rubert) для классификации текстов

7 min

19K

Natural Language Processing * Data Mining * Python *

Tutorial

Задача классификации текста уже давно является устоявшейся во многих компаниях. Она используется для определения настроения клиентов, разделение документов на заранее известные темы, детекции фейковых новостей и т.д. Сегодня я представлю state of the art подход для решения задачи бинарной классификации, а именно детекция сообщений, в которой присутствует жалоба на сотрудника.

А также сравню по точности два подхода - Fine-Tune Bert и получение предобученных эмбеддингов и их классификация с использованием полносвязной нейронной сети.

Читать далее

+1

NewTechAudit Aug 10 2022 at 04:27

Слова одни скрывают часто слова другие

5 min

3.2K

В связи с постоянным ростом объема информации, увеличивается потребность в технологиях сжатия данных. Сжатие мультимедийных и текстовых данных необходимо для экономии памяти, упаковки дополнительных данных и сокращения времени коммуникации. Одним из таких методов является арифметическое кодирование.

Читать далее

+1

NewTechAudit Aug 8 2022 at 10:28

“Да кто это написал?!!”, или решение сложных задач простыми средствами

5 min

14K

Programming * Python *

Technotext 2022

Привет, Хабр! Каждый день тысячи программистов трудятся не покладая рук. Они пишут код, контактируют между собой и, как и любой человек, совершают ошибки. Проблемы в коде могут повысить уровень рисков и стать критическими для компании. И с целью выявления таких ошибок специалисты проводят анализ кода.

Интересно!

+1

NewTechAudit Jul 22 2022 at 12:49

Параллельная обработка и преобразование json-фалов в pandas

4 min

4.8K

Python * Programming *

Привет, Хабр!

Структурированные данные – хорошо, а полуструктурированные – не проблема. Формат json хоть и является очень популярным, однако не очень удобен для анализа, особенно если данных много, и они разделены на отдельные файлы.

Разберем преобразование множества json файлов различной структуры в привычный аналитикам pandas.DataFrame.

Читать далее

+1

NewTechAudit Jul 19 2022 at 11:18

Предсказание временных рядов с помощью Keras

4 min

10K

Artificial IntelligenceMachine learning * Big Data *

Привет, Хабр!

Сегодня хотелось бы поговорить о задаче предсказания временных рядов методами машинного обучения. В каком виде зачастую используются данные для задачи предсказания? Что такое LSTM-архитектура рекуррентных нейронных сетей? Как справляются модели RNN и полносвязной сети c поставленной задачей?

Читать далее

0

NewTechAudit Jul 15 2022 at 08:00

3 пакета Python для генерации синтетических данных

6 min

15K

Python * Programming * Natural Language Processing *

Нет данных? Сгенерируй!

Рассмотрим три самых интересных, в плане функциональности и простоты использования, способа генерации синтетических данных с помощью пакетов Python .

Читать далее

+2

NewTechAudit Jul 13 2022 at 07:00

Сравнительный анализ эффективности работы Cython и Python

5 min

8.7K

Programming * Python *

Привет, Хабр! Сегодня поговорим о Cython, почему он хорош, что он умеет: хорошие вещи, плохие вещи, о том, когда стоит использовать Cython, рассмотрим пример и существующие проекты на нем.

Читать далее

+15

NewTechAudit Jul 11 2022 at 05:00

Даёшь огромным моделям колоссальные тренажёры

7 min

4.2K

Open source * Algorithms * Machine learning * Artificial Intelligence

Tutorial

Архитектура Transformer улучшила производительность моделей глубокого обучения в таких областях, как компьютерное зрение и обработка естественного языка. Вместе с лучшей производительностью приходят и большие размеры моделей. Это создает проблемы производительности аппаратного обеспечения. Не разумно тренировать большие модели, такие как Vision Transformer, BERT, GPT, на одном графическом процессоре или одной машине. Существует острая потребность в обучении моделей в распределенной среде. Однако распределенное обучение, особенно параллелизм моделей, часто требует знаний в области компьютерных систем и архитектуры. Для исследователей ИИ остается сложной задачей внедрение сложных распределенных обучающих решений для своих моделей. В этой статье рассмотрим систему Colossal-AI, которая представляет собой единую параллельную обучающую систему, предназначенную для плавной интеграции различных парадигм методов распараллеливания. Она позволяет исследователям данных сосредоточиться на разработке архитектуры модели и отделяет проблемы распределенного обучения от процесса разработки.

Читать далее

+1

NewTechAudit Jul 8 2022 at 08:54

GAN-модели для генерации набора данных из изображений

6 min

5.1K

Machine learning * Image processing * Programming * Python *

Привет, Хабр! Для машинного обучения в специфических областях очень остро стоит проблема нехватки данных для обучения. Давайте рассмотрим один из способов генерировать изображения.

Читать далее

+2

NewTechAudit Jul 7 2022 at 10:24

Telegram-бот мониторинга состояния серверов на Haskell

5 min

5.7K

Instant Messaging * Programming * Haskell *

Привет, Хабр! Состояние сервера необходимо постоянно мониторить, чтобы в случае ошибки быстро ее исправить. Удобнее всего отслеживать работоспособность с помощью смартфона, а именно Telegram-бота, он позволяет осуществлять проверку на ходу. Реализуем Telegram-бот на функциональном языке Haskell, заодно разберемся в его преимуществах.

Читать далее

+4

NewTechAudit Jul 4 2022 at 10:40

Функциональные возможности Fiddler как инструмента для анализа и подмены HTTPS-трафика

5 min

14K

Information Security * Programming * IT Infrastructure *

Привет, Хабр! Сегодня расскажу о применение мощного и удобного инструмента для анализа и мониторинга HTTP(S) трафика Fiddler. По сути, Fiddler – это прокси для отладки приложений и сайтов. Разработчик и тестировщик могут использовать Fiddler для отладки веб-трафика и тестирования производительности приложения или сайта. Специалистам по информационной безопасности Fiddler будет полезен для проверки сайта или приложения на наличие уязвимостей.

Читать далее

+5

5

6 7 ...