Статьи / Профиль NewTechAudit / Хабр

Все потоки

NTA@NewTechAudit

Профессиональное сообщество

ПрофильСтатьи282ПостыНовостиКомментарии307

@NewTechAudit 30 апр 2022 в 16:43

Основы работы со Spark DataFrame

4 мин

45K

Python * Программирование * Data Mining * Визуализация данных *

При работе с распределенными базами данных, возникают задачи, которые ввиду технических ограничений сложно или невозможно решить с помощью всем привычного пакета Pandas на Python. Решением может стать использование распределенных вычислений Spark и его собственных DataFrame.

Читать далее

0

@NewTechAudit 30 апр 2022 в 10:18

Динамика в деле: интерактивные графики в Dash

3 мин

8.6K

Python * Программирование * Визуализация данных *

Dash представляет собой фреймворк для визуализации данных и построения веб-приложений, понятен и довольно прост в применении. Может быть интересен тем, кто хочет использовать интерактивные графики для анализа данных с помощью Python. Рассмотрим построение таких графиков с применением обратных вызовов в Dash.

Читать далее

+3

@NewTechAudit 29 апр 2022 в 10:11

IT-способ получения информации из достоверного источника

3 мин

8.6K

Программирование * Python * Проектирование API *

Поток информационных новостей сыпется со всех сторон. Поиск достоверной информацией становится всё затруднительнее. Для того, чтобы сделать правильный выбор необходимо лучше всего опираться на первоисточник. В мире экономики и финансов, пожалуй, одним их главных источников является Центральный Банк России.

Читать далее

0

@NewTechAudit 27 апр 2022 в 10:40

Работа с docx c помощью bayoo-docx

7 мин

8.8K

Python * Программирование *

Нужно найти в docx-файле определенный фрагмент и оставить к нему комментарий? bayoo-docx (форк python-docx) умеет это! В конце статьи в виде бонуса расскажем, как определить номер страницы. 😊

Долгое время в библиотеке python-docx отсутствовала возможность добавления комментариев к word-файлам «из коробки». Созданное еще в 2014 году обсуждение в репозитории python-docx о том, как добавлять комментарии, было довольно активным, но не было найдено решений без прямого вмешательства в xml-разметку. Однако в 2020 году появился форк от python-docx – bayoo-docx, позволяющий добавлять комментарии быстро и легко.

Читать далее

+3

@NewTechAudit 26 апр 2022 в 08:59

Сделай то, сделай это, сделай сам

4 мин

21K

Программирование * Python *

Доброго времени суток Дамы и Господа! Многим приходилось сталкиваться с необходимостью анализа большого количества данных при помощи Python по запросам начальства или коллег. Однотипные запросы поступают с определенной периодичностью, и не составляет труда подставить новые данные в свой код и провести анализ. Но иногда из-за определенной нагрузки не всегда хочется заниматься таким анализом. Намного проще сделать скрипт с графическим интерфейсом, чтобы сам заказчик для анализа данных мог нажать пару кнопок и получить желаемый результат. Тем более, можно изначально вложить в интерфейс столько «хотелок» заказчика для анализа, сколько будет душе угодно.

Читать далее

+17

@NewTechAudit 20 апр 2022 в 02:36

Формирование однородных групп для сплит-тестирования. Реализация на Python

7 мин

3.9K

Python * Алгоритмы *

Всем привет! Если перед вами стоит задача проведения А/Б тестирования, то я помогу вам понять, как с помощью python сформировать однородные группы с помощью алгоритмов сходства объектов на основе косинусного и взвешенного косинусного расстояния для его проведения.

Читать далее

0

@NewTechAudit 19 апр 2022 в 02:30

Process Mining c bupaR

3 мин

2.7K

Бизнес-модели * Визуализация данных * R * Data Mining * Open source *

В настоящее время тема Process Mining продолжает набирать популярность, и все больше применяется при поиске новых путей повышения эффективности бизнес-процессов, в оперативном анализе пилотных проектов и конечно же в задачах аудита. При выборе инструмента для разработки в рамках данной задачи важнейшими критериями становятся доступность, производительность, наличие сообщества.

В этой статье мы рассмотрим bupaR – open-source пакет для анализа бизнес-процессов на языке R. В качестве IDE использовалась RStudio.

Допустим, у нас уже есть файл (csv) журнала (лога) событий активностей пользователей в интернет-магазине. Воспользуемся пакетом readr для загрузки лога событий из данного файла и методом activities_to_eventlog из bupaR для преобразования:

Читать далее

+2

@NewTechAudit 12 апр 2022 в 03:00

Обучаем модель W2NER для поиска именованных сущностей в текстах на русском языке

4 мин

4.9K

Python * Машинное обучение * Natural Language Processing * Программирование *

Всем добрый день! Предлагаю рассмотреть архитектуру новой модели W2NER для решения задачи распознавания сущностей в текстах и обучить её работе с русским языком.

Читать далее

+4

@NewTechAudit 11 апр 2022 в 03:00

Шифрование информации в Linux

4 мин

32K

Настройка Linux * Информационная безопасность *

С зарождением цивилизации появилась необходимость передачи информации между людьми. При чём таким способом, чтобы эта информация не стала доступной третьим лицам.

Читать далее

+9

@NewTechAudit 8 апр 2022 в 04:10

«Эволюция против муравьёв» сравниваем алгоритмы оптимизации

14 мин

5.1K

Поисковая оптимизация * Машинное обучение * Алгоритмы *

Решаем задачу о ранце. Муравьиный алгоритм или генетический лучше? Давайте разбираться.

Читать далее

+6

@NewTechAudit 7 апр 2022 в 09:47

Банкрот или не банкрот? Вот в чем вопрос

5 мин

5.9K

Программирование * Python *

Сталкиваетесь ли Вы с необходимостью использовать внешние источники данных? Если да, то Вам пригодится алгоритм автоматизированного сбора информации с сайта – парсер. Разберём процесс создания такого алгоритма на примере сайта ЕФРСБ.

Перед Data Science специалистами регулярно встают задачи, для решения которых необходима информация из внешних источников, и часто её объёмы такие, что ручной поиск занимает непозволительно много времени. Автоматизированный сбор данных с сайта (парсинг) позволяет получить необходимые для задачи сведения, экономя время.

Одна из таких задач встала перед нашей командой: понадобились данные о процедуре признания физических лиц банкротами. Для этого был разработан алгоритм парсинга сайта Единого федерального реестра сведений о банкротстве (ЕФРСБ) с использованием библиотек requests и bs4. В настоящей статье предлагаю рассмотреть процесс создания этого парсера и познакомить Вас с решениями некоторых проблем, с которыми мы столкнулись.

Разработку алгоритма мы решили разбить на 2 части:

Читать далее

+4

@NewTechAudit 4 апр 2022 в 08:41

Q-Learning в сфере оптимизации бизнес-процессов

5 мин

4.7K

Читальный залNatural Language Processing * Python * Программирование * Машинное обучение *

Расскажу про алгоритм обучения с подкреплением Q-learning и его применении в сфере майнинга процессов. Алгоритм позволяет оптимизировать бизнес-процесс, превращая его из хаотичного графа, с большим количеством связей и ветвлений, в понятный и однозначный оптимальный путь исполнения.

Читать далее

+1

@NewTechAudit 31 мар 2022 в 11:51

Нерешённые проблемы кибербезопасности в ML

7 мин

3.1K

Машинное обучение * Информационная безопасность * Программирование *

Искусственный интеллект (ИИ) имеет свойство не только помогать людям в бизнесе, творчестве и жизни в целом, но и вызвать всевозможные проблемы. Вопросы корректности, этичности и применение ИИ для угроз различным системам заставили людей серьезно относиться к исследованию способов сделать искусственный интеллект и машинное обучение (ML) более безопасными.

В данной статье я постараюсь кратко изложить некоторые из нерешённых проблем, связанных с кибербезопасностью, на которые исследователи в области машинного обучения советуют обратить внимание уже сейчас, во избежание рисков в будущем.

Читать далее

+2

@NewTechAudit 28 мар 2022 в 05:00

Учим модели определять мошенников

12 мин

3.7K

Информационная безопасность * Программирование * Машинное обучение *

В 21 веке лавинообразно распространяется телефонное мошенничество, а доля разоблачения и поимки таких преступников мала. Можно ли определять мошенников в первые минуты разговора, если их телефонные номера постоянно меняются? Рассмотрим в статье.

В какой-то момент устав от проблемы телефонных мошенников, мы задались вопросом их идентификации до того момента, когда они полностью завладеют нашим вниманием и нашими средствами. Да, крупные компании предлагают установить бесплатные определители номера, которые оповещают о подозрительных номерах. Но принимая во внимание, что телефонные номера у мошенников постоянно меняются, обозначенные определители не дают высокого уровня защиты.

Помимо номера есть ещё голос мошенников. В данном ключе неопределённость о том, что мошенник может намеренно менять голос с помощью технических средств, мы опускаем в связи со сложностью их технической реализации, а навыки подражателя для ML моделей не страшны. Поэтому мы хотим создать модель, которая будет работать параллельно разговору и идентифицировать говорящего.

Так, набрав базу из записанных телефонных разговоров и выбрав точно определённые беседы, мы сможем обучить модель на нужных голосах.

Базовый подход к работе со звуковыми данными в ML заключается в предобработке записей:

Читать далее

+1

@NewTechAudit 25 мар 2022 в 05:00

Сказки от TENSORFLOW и LSTM

8 мин

4.5K

Машинное обучение * TensorFlow * Natural Language Processing *

Представляем разбор применения алгоритмов машинного обучения с использованием технологий LSTM для создания текстов.

В итоге должен получиться генератор более-менее осмысленного текста. Способы создания текстов на специальную, определенную пользователем, тему затронуты не будут – но в целом, текст будет создан в том стиле, в котором написана «обучающая выборка».

Кстати об обучающей выборке: в качестве оной будут использованы народные сказки братьев Гримм. Эти тексты будут обработаны, разбиты на биграммы уровня символов, из которых будет составлен словарь из уникальных биграмм.

Читать далее

+1

@NewTechAudit 23 мар 2022 в 05:30

Визуализация данных с помощью веб-фреймворка Dash (часть 2)

3 мин

5.4K

Python * Программирование * Визуализация данных *

В предыдущей части статьи мы разбирали, что такое dash в общем, и создавали одностраничный дэшборд, взяв за основу датасет драгоценных камней с kaggle.

Но! Задачи, которые падают на нас ,не всегда просты и не всегда возможно ограничить себя одной страницей на Дашборде. В этой статье я покажу, как создать многостраничный дэшборд, используя sidebar в качестве навигационного элемента, и наполнить страницы разного рода контентом.

Читать далее

+4

@NewTechAudit 21 мар 2022 в 07:14

Парсинг сайта с помощью PYTHON + SELENIUM

5 мин

92K

Python * Программирование *

В этой статье, на примере моей задачи, рассмотрим, как можно извлечь большой объем данных с сайта ГИББД и с помощью какого инструмента. Это может быть полезно для финансовых компаний, которые принимают автомобили в качестве залога. Итак, мне необходимо было получить информацию о владельцах и периодах владения автомобилями, чтобы определить были ли изменения в конкретном периоде.

Читать далее

+1

@NewTechAudit 16 мар 2022 в 10:57

Асинхронный телеграм-бот с вебхуками на Heroku

7 мин

30K

Python * Программирование *

Разрабатывая телеграм-бота для проведения викторины, я даже не задумывался каким количеством человек он будет использоваться и как оказалось очень зря …

Посредством этой статьи я поделюсь своим опытом разработки телеграм-бота для большого количества пользователей: разберу свои ошибки и шаги для их решения.

Читать далее

+1

@NewTechAudit 14 мар 2022 в 11:24

Классификация текста с использованием моделей трансформеров

6 мин

21K

Python * Машинное обучение * Читальный залИскусственный интеллект

Модели трансформеров на данный момент являются state-of-the-art решениями в мире обработки естественного языка. Новые, более крупные и качественные модели появляются почти каждый месяц, устанавливая новые критерии производительности по широкому кругу задач. В данной статье мы будем использовать модель трансформера для бинарной классификации текста.

Читать далее

+5

@NewTechAudit 10 мар 2022 в 03:00

Доверять Джини или нет: вот в чем вопрос

5 мин

8.1K

Машинное обучение * Программирование * Python *

Коэффициент Джини (или индекс Джини), кривая Лоренца, TPR (true positive rate) и FPR (false positive rate) – одни из самых популярных атрибутов экономических задач, решаемых с помощью машинного обучения. Все они используются для оценки качества модели и, так или иначе, связаны друг с другом. Предлагаю вспомнить, как они рассчитываются.

Читать далее

+5

1 2 ...

7

8 9 ...