Статьи / Профиль NewTechAudit / Хабр

Все потоки

NTA@NewTechAudit

Профессиональное сообщество

ПрофильСтатьи282ПостыНовостиКомментарии307

@NewTechAudit 5 мар 2022 в 10:42

Делаем Jenkins Pipeline: шаг за шагом

9 мин

106K

DevOps * Читальный зал

Привет. Если ты обратил внимание на этот материал, то значит ты начинаешь разбираться в мире Jenkins. Самым сложным в любом деле является начало. На первом этапе окружает много незнакомых и непонятных терминов, сложно понять логику процесса и последовательность действий. Кажется, что это какая-то магия. Чтобы первые шаги были чуточку легче, я опишу простой пример, который можно использовать в качестве основы для реальных задач.

Читать далее

+4

@NewTechAudit 1 мар 2022 в 10:42

Сбор данных с обходом капчи посредством PYAUTOGUI, KERAS и TENSORFLOW

5 мин

8.1K

Python * Программирование * Машинное обучение * Читальный зал

Существует большое количество методов для автоматического сбора и обработки больших объемов данных из веб-ресурсов. Однако иногда недоступно извлечение данных с помощью автоматизированного кода, выполняющего GET-запросы с последующим парсингом HTML-кода, и его преобразованием в необходимый формат, также, как и все смежные методы. В таких случаях на помощь может прийти эмулятор действия пользователя («кликер», «бот», «робот»).

Читать далее

+4

@NewTechAudit 25 фев 2022 в 10:29

Распознавание лиц на RASPBERRY PI

7 мин

17K

Python * Программирование * Машинное обучение * Natural Language Processing *

Биометрия везде. Современные мегаполисы в России и мире окутаны сетями камер, подключенными к различным системам распознавания лиц. Насколько это правильно с точки зрения этики — каждый решает сам, но факт в том, что такие методы не только помогают раскрывать преступления, но и предотвращать их совершение.

С каждым годом расширяется область применения таких систем. Например, пользователи могут приобрести у Google систему Nest — Nest Cam IQ Indoor, стоимостью 349 долларов с интеграцией в умный дом и возможностью распознавания лиц по подписке (за 10 долларов в месяц). И отечественных аналогов для частного пользования немало. Различные СКУД (системы контроля и управления доступом) от Ростелекома, HikVision, VisionLabs и других фирм. Описание зачастую мутное, опыт работы в реальных условиях можно найти на YouTube по запросу «Умный домофон не пускает мужчину домой».

Читать далее

+3

@NewTechAudit 25 фев 2022 в 09:53

Тематическое моделирование с использованием эмбеддингов BERT

7 мин

18K

Машинное обучение * Программирование * Python * Читальный зал

Обработка естественного языка одно из востребованных направлений машинного обучения, которое постоянно развивается. В 2018 году компания Google представила новую модель - BERT, сделавшую прорыв в области обработки естественного языка. Несмотря на то, что сейчас у BERT много конкурентов, включая модификации классической модели (RoBERTa, DistilBERT и др.) так и совершенно новые (например, XLNet), BERT всё ещё остается в топе nlp-моделей.

Читать далее

+2

@NewTechAudit 22 фев 2022 в 11:54

А ловко ты это придумал! Метод распараллеливания работы моделей на CPU и GPU

3 мин

3.9K

Программирование * Машинное обучение *

Если Вам приходится постоянно обучать модели, будь то Machine Learning, или задачи в области Computer Vision, искать и классифицировать какие-либо объекты, то Вы знаете, что ожидание результата и многочисленные итерации занимают безумно много времени. Хотите сократить время обучения и повысить эффективность работы?

Читать далее

-2

@NewTechAudit 21 фев 2022 в 19:33

Обнаружение новизны изображений с помощью Python и библиотеки scikit-learn

3 мин

4.7K

Программирование * Обработка изображений * Визуализация данных * Читальный зал

В статье я расскажу, как с помощью библиотек scikit-learn, opencv, numpy, imutilsс выявить новизну входных изображений. Многие программы требуют наличия возможности решить, принадлежит ли новый объект тому же распределению, что и существующие объекты (это промежуточный результат), или его следует рассматривать как новизну. Часто эта возможность используется для очистки реальных наборов данных.

Читать далее

+1

@NewTechAudit 14 фев 2022 в 11:10

Снижаем размерность

3 мин

6.6K

Визуализация данных * Программирование * Python *

Всем привет! Рассмотрю два популярных алгоритма уменьшения размерности, а именно T-distributed Stochastic Neighbor Embedding (t-SNE) и Uniform Manifold Approximation and Projection (UMAP). Их удобно использовать, когда необходимо визуализировать данные с большим количеством параметром (также будем называть это размерностью данных).

Читать далее

+2

@NewTechAudit 11 фев 2022 в 06:38

Мультимодальные нейронные сети, как искусство

8 мин

14K

Обработка изображений * Визуализация данных * Машинное обучение * Искусственный интеллект

В прошлой статье, рассказывая про GPT-J-6B, я упоминал, что современные алгоритмы обработки естественного языка вызывают немалый ажиотаж даже среди людей, мало слышащих про машинное обучение. И вот, не успел ещё стихнуть шум обсуждений про возможности GPT-3 от OpenAI, как нам показали ещё одну работу их команды в области ИИ, которую назвали в честь Сальвадора Дали и робота ВАЛЛ·И – DALL-E.

Читать далее

+1

@NewTechAudit 9 фев 2022 в 11:39

NEO4J – графовые базы данных

9 мин

72K

Python * Программирование * Визуализация данных *

В данной статье будет рассмотрена графовая система управления базами данных в Neo4j, а именно:

Читать далее

+6

@NewTechAudit 7 фев 2022 в 05:06

Руководство по распознаванию эмоций на изображении с использованием Python

5 мин

16K

Машинное обучение * Программирование * Python *

Построим алгоритм распознавания эмоций (Face Expression Recognition), который работает с изображениями.

Посмотрим, что получилось...

-2

@NewTechAudit 3 фев 2022 в 09:29

Максимально просто о распознавании речи при помощи NeMo

10 мин

25K

Python * Программирование * Машинное обучение *

На сегодня существует большое количество алгоритмов машинного обучения для обработки различного типа данных, таких как табличные данные, изображения, текст, аудио файлы. Как раз о последнем типе пойдёт речь в данной работе, потому как аудио файлы являются одной из распространенных форм хранения данных в организациях, тщательный анализ которых может являться ключевым фактором к развитию не только коммерческих продуктов, но и опенсорсных решений. В то же время именно методы работы со звуком менее всего популярны, особенно в русскоязычном сегменте, но об этом далее.

Читать далее

+1

@NewTechAudit 1 фев 2022 в 06:44

Градиентный бустинг с CATBOOST (часть 3/3)

8 мин

34K

Машинное обучение * Программирование * Python * Open source *

В предыдущих частях мы рассматривали задачу бинарной классификации. Если классов более чем два, то используется MultiClassification, параметру loss_function будет присвоено значение MultiClass. Мы можем запустить обучение на нашем наборе данных, но мы получим те же самые результаты, а обучение будет идти несколько дольше:

Читать далее

+3

@NewTechAudit 31 янв 2022 в 09:36

Прогнозируем реальные вероятности

4 мин

13K

Машинное обучение * Программирование * Python *

Может ли ваша модель прогнозировать реальные вероятности? На самом деле абсолютно точно это не может делать ни одна. Мы можем максимально приблизиться к реальным показателям, но для этого модель должна быть откалибрована. То есть скорректирована так, чтобы полученные показатели распределения вероятностей были как можно ближе к реальным.

Читать далее

+1

@NewTechAudit 28 янв 2022 в 09:44

API и ФССП: как это работает?

9 мин

34K

Проектирование API * Программирование * Python *

Я начал поиск информации о возможностях автоматизации получения данных с сайта...

Что из этого получилось...

+1

@NewTechAudit 26 янв 2022 в 06:13

Способы представления аудио в ML

5 мин

11K

Natural Language Processing * Машинное обучение * Алгоритмы * Программирование * Python *

В статье рассмотрены основные формы представления аудио для дальнейшего использования в различных сферах обработки данных.

Читать далее

+7

@NewTechAudit 24 янв 2022 в 05:52

Инструменты для решения NER-задач для русского языка

5 мин

7.2K

Python * Программирование * Машинное обучение *

Зачастую приходится работать с большими объемами документов, к примеру, исполнительными листами, заявлениями, договорами, из текстов которых нам необходимо извлечь весьма конкретную информацию: ФИО, даты рождения, наименования должности, паспортные данные, адрес, ИНН и наименование компаний, даты подписания документов и так далее. Всё это относится к задаче распознавания именованных сущностей (NER). Какие инструменты могут помочь нам в решении данной задачи для русского языка?

Пожалуй, первое что приходит в голову Data Scientist’у, когда речь идет о NLP или конкретно NER-задачах — это проекты DeepPavlov. Немного углубимся в данную тему, разберем все по порядку.

DeepPavlov — это фреймворк (open source), который помогает в разработке различных голосовых ботов, соответственно, решая различные NLP задачи.

На вход подается непредобработанный (регистры, знаки и т.д. сохранены) текст, а на выходе мы хотим увидеть, так называемые, спаны — фрагменты текста, с которыми уже можно работать (например, отнести к определенной категории).

Читать далее

+7

@NewTechAudit 20 янв 2022 в 06:26

Проверка контрагентов. Парсинг fedresurs

6 мин

8.3K

Программирование * C# *

В этой статье хочу познакомить читателя с таким ресурсом, как «Единый федеральный реестр сведений о фактах деятельности юридических лиц» (fedresurs.ru), рассказать о его применимости и показать возможность прошерстить ресурс не руками по большому количеству клиентов, а с использованием C# (в вашем случае можете использовать любой другой язык, который вам нравится, подходы, думаю, не изменятся) и море проксей, ну разумеется будем парсить. Возможно, тем кто этим займется, пригодятся статья, идеи или, чем черт не шутит, куски кода, а тем, кто просто проводит проверку контрагентов сможет либо понять, что можно взять с сайта либо придумает, что можно еще проверить.

Периодически возникает потребность в получении данных для анализа клиентов/заемщиков/контрагентов и эти данные мы можем получить из этого сайта. Что же нам предлагается?!

Возникновение обременений (залог, лизинг и т.д.) – посмотреть, например, на возможность заключения фиктивных договоров лизинга или на уже заложенное имущество и т.д.

Различные сообщения по клиенту, например, сообщения о банкротстве и уже с ними – проверка, все ли сообщает клиент и может пора пошевелиться в сторону него и предпринять какие-либо меры.

Торги и т.д.

Читать далее

+1

@NewTechAudit 18 янв 2022 в 05:41

Анализ тональности текста с использованием фреймворка Lightautoml

6 мин

6.6K

Natural Language Processing * Машинное обучение * Программирование *

Сентиментный анализ (анализ тональности) – это область компьютерной лингвистики, занимающаяся изучением эмоций в текстовых документах, в основе которой лежит машинное обучение.

В этой статье я покажу, как мы использовали для этих целей внутреннюю разработку компании – фреймворк LightAutoML, в котором имеется всё для решения поставленной задачи – предобученные готовые векторные представления слов FastText и готовые текстовые пресеты, в которых необходимо только указать гиперпараметры.

Задача

При возникновении трудностей в работе с автоматизированными системами внутренние клиенты оставляют обращения нейтрального или же негативного характера (положительный не учитывается по причине того, что таких обращений очень мало).

Анализ тональности текста позволит понять, что в обращении пытается донести пользователь – что-то нейтральное или негативное. Нас интересуют случаи, где напрямую описываются проблемы в автоматизированной системе и на что требуется внимание и проведение дальнейшего анализа.

Читать далее

+8

@NewTechAudit 11 янв 2022 в 06:45

Поиск оптимального пути для выявления отклонений в бизнес-процессе

5 мин

2.3K

Python * Программирование *

Любая крупная компания представляет собой множество обособленных или взаимосвязанных процессов, которые решают задачи различной направленности. Как правило, любой процесс является сложным механизмом взаимодействия людей, сервисов или других компаний, от которых зависит конечный результат исполняемого процесса. Перерывы в поставках ресурсов, изъяны в сервисах и алгоритмах, длительные исполнение простых операций или их повторное выполнение и многие другие факторы приводят к дополнительным экономическим издержкам и накоплению негативного клиентского опыта. Таким образом, анализ процессов и устранение недостатков в них — одна из важных составляющих для успешного ведения бизнеса.

Читать далее

+1

@NewTechAudit 10 янв 2022 в 06:13

Градиентный бустинг с CatBoost (часть 2/3)

8 мин

26K

Программирование * Алгоритмы * Машинное обучение *

В первой части статьи я рассказал про понятие градиентного бустинга, библиотеки, с помощью которых можно реализовать данный алгоритм и углубились в одну из этих библиотек. Сегодня продолжим разговор о CatBoost и рассмотрим Cross Validation, Overfitting Detector, ROC-AUC, SnapShot и Predict. Поехали!

До этого момента мы мерили качество на каком-то конкретном fold’e (конкретной выборке), то есть взяли разделили нашу выборку на обучающую и тестовую, это не совсем корректно, вдруг мы взяли какой-то непрезентативный кусок нашего датасета, на этом самом куске мы получим хорошее качество, а когда модель будет работать с реальными данными, то с качеством все будет крайне грустно. Дабы избежать этого, необходимо использовать Cross Validation.

Разобьём наш датасет на кусочки и дальше будем обучать модель столько раз, сколько у нас будет кусочков. Сначала обучаем модель на все кусках кроме первого, нам нем будет происходить валидация, потом на втором будет происходить такая же ситуация и все это дело будет повторяться до последнего кусочка нашей выборки:

Читать далее

+5

1 2 ...

8

9 10 ...