Статьи / Профиль NewTechAudit / Хабр

NTA @NewTechAudit

Профессиональное сообщество

Профиль Публикации 282Комментарии 307Закладки 96

NewTechAudit 21 сен 2023 в 11:01

Использование технологий машинного обучения в аудите: примеры эффективного применения

Средний

12 мин

Блог компании СберАлгоритмы*Машинное обучение*

Туториал

Привет, Хабр! На связи Егор Гершевский и Никита Горбачёв, участники профессионального сообщества NTA.

Аудит является неотъемлемой частью бизнес-практики, обеспечивая независимую оценку финансовой отчётности и процессов в организации. Аудиторы полагаются на опыт и статистическую выборку для ручной проверки сотен документов и свидетельств, определения сильных сторон и углублённого анализа организационных процедур и транзакций. Однако этот ручной процесс превратил аудит в трудоёмкую деятельность.

Сегодня почти каждая крупная технологическая компания внедряет машинное обучение (ML) в аудит. Вот, например, как оно применяется в Facebook и Amazon. Его можно задействовать в разных аспектах, включая анализ данных, обнаружение мошенничества, прогнозирование рисков и оптимизацию процессов. Алгоритмы машинного обучения могут обрабатывать и анализировать огромные объёмы данных, выявлять скрытые зависимости и аномалии, что помогает аудиторам принимать более обоснованные и точные решения. Далее мы рассмотрим различные типы задач машинного обучения, которые могут быть применены в аудите.

NewTechAudit 15 сен 2023 в 08:53

Практическое применение моделей YOLO и ResNet для обнаружения нежелательных предметов на фотографиях

Средний

11 мин

13K

Обработка изображений*Машинное обучение*

Кейс

Привет, Хабр!

Сегодня с вами участники профессионального сообщества NTA Попов Иван и Чимбеев Анатолий.

В современном мире, где фотографии играют огромную роль в сфере социальных медиа, онлайн‑безопасности и контроля содержимого, важно иметь эффективные инструменты для обнаружения нежелательных предметов на изображениях. В данной публикации мы рассмотрим практическое применение двух популярных моделей — YOLO и ResNet — для обнаружения нежелательных предметов на фотографиях.

Как мы искали

NewTechAudit 12 сен 2023 в 12:45

Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса

Средний

11 мин

8.2K

Python*Машинное обучение*

Кейс

Привет Хабр!

Меня зовут Портнов Клим, я участник профессионального сообщества NTA.

В этом посте расскажу о простом для понимания, но в то же время достаточно эффективном алгоритме — дереве решений, а также его расширенной модификацией — случайных лесах решений, и их реализации с помощью PySpark MLib.

Узнать больше

NewTechAudit 5 сен 2023 в 08:35

Codeium и StarCoder: нейросети с автодополнением кода

Средний

12 мин

21K

Python*Программирование*Машинное обучение*Искусственный интеллект

Туториал

Привет, Хабр!

На связи участники профессионального сообщества NTA Коробова Марина и Котов Илья.

В мире технологий происходит настоящая революция. На передовом фронте этой революции стоят нейронные сети — мощные и удивительные инструменты искусственного интеллекта, которые сегодня изменяют наше представление о возможностях компьютеров.

Мы познакомим вас с двумя моделями‑помощниками с автодополнением кода: StarCoder и Codeium. Для демонстрации работы AI‑плагинов используем запросы, которые часто возникают в нашей работе.

Подробнее под катом.

Узнать больше

NewTechAudit 31 авг 2023 в 10:15

Генерация паспортных данных для обучения моделей

Средний

9 мин

12K

Python*Обработка изображений*Машинное обучение*

Кейс

✏️ Технотекст 2023

Привет, Хабр!

Меня зовут Максим Кравец, я участник профессионального сообщества NTA.

Для тренировки нейронных сетей необходимы датасеты с достаточным количеством тренировочных данных. Зачастую в рамках разработки ML‑модели, именно составление датасета, пригодного для её обучения, занимает большую часть времени и усилий. В случае, если датасет нельзя составить из реальных данных, прибегают к генерации синтетических данных. При разработке «распознавателя» паспортов без достаточного количества реальных образцов возникла необходимость генерации паспортных данных и соответствующих им изображений отдельных полей.

Приступить к генерации!

NewTechAudit 22 авг 2023 в 11:57

Генерация синтетических изображений с использованием диффузионно-трансформерной модели (DiT)

Средний

17 мин

3.1K

Обработка изображений*Машинное обучение*Искусственный интеллект

Кейс

Привет, Хабр!

Сегодня с Вами Илья Абрамчук и Дарья Ульянова, участники профессионального сообщества NTA.

Нередко на практике, когда работаешь с алгоритмами машинного обучения, а в особенности с нейронными сетями, сталкиваешься с проблемой нехватки данных для нормального обучения модели или хотя бы получения более-менее стабильного результата. Вот и мы оказались в подобной ситуации и перед нами возникла задача генерации синтетического датасета, состоящего из изображений, похожих на те, что имеются в распоряжении.

Узнать как мы генерировали изображения

NewTechAudit 14 авг 2023 в 16:21

Замена Paint в задачах разметки графических данных

Средний

7 мин

7.9K

Блог компании СберОбработка изображений*Машинное обучение*

Обзор

✏️ Технотекст 2023

Привет, Хабр! С вами Кирилл Иванов, участник профессионального сообщества NTA. Модели машинного обучения компьютерного зрения являются крайне актуальной задачей в современном мире, поскольку компьютерные системы, способные «видеть», могут применяться во многих областях жизни. Одной из самых популярных областей применения моделей компьютерного зрения является распознавание объектов на изображениях и видео. Это может быть полезным, к примеру, для систем видеонаблюдения, автоматической сортировки на производстве, диагностирования медицинских изображений. Кроме того, модели машинного обучения используются при создании дополненной и виртуальной реальностях. Они позволяют создавать интерактивные пользовательские интерфейсы, а также обеспечивать визуализацию информации на основе видео и изображений.

В целом, актуальность машинного обучения моделей компьютерного зрения связана с возможностью автоматизации и оптимизации ряда процессов, улучшением точности, эффективности и прогнозирования в различных областях, что делает их незаменимыми средствами в современном техническом развитии.

NewTechAudit 4 авг 2023 в 08:19

Широка, необъятна, интерактивна: оффлайн карта России с Plotly

Средний

14 мин

16K

Python*Визуализация данных*

Кейс

Привет, Хабр!

На связи участник профессионального сообщества NTA Максим Алёшин.

Сегодня создание интерактивной карты на python не составляет большого труда: стоит подключить библиотеку (например, Folium или Bokeh), указать картографический сервер, и после выполнения нескольких «магических» строк кода ваши данные как на ладони!

Но что делать, если данные есть, визуализировать их хочется, а в сети, в которой вы работаете, нет доступа к картографическим серверам? В этом случае помогут Plotly и GeoPandas. Но придётся провести ряд подготовительных работ. В этом посте шаг за шагом я покажу, как построить интерактивную карту России по регионам с помощью Plotly, которая будет работать без интернета, регистрации и смс.

Оффлайн карта России с Plotly

+20

NewTechAudit 28 июл 2023 в 10:58

Создай, оформи, опубликуй. Sphinx — незаменимый помощник в мире Python документации

Средний

14 мин

12K

Python*

Туториал

В данной статье пройдём путь от знакомства с мощным инструментом для документации Sphinx до публикации нашей собственной документации на GitHub Pages. Мы узнаем насколько широко Sphinx используется в мире открытого исходного кода, включая такие проекты как Django, The Linux Kernel, TensorFlow, Pandas и многие другие.

Узнать больше

NewTechAudit 24 июл 2023 в 10:55

Vue.js. Создание динамических пользовательских интерфейсов с помощью компонентов и реактивных свойств

Средний

11 мин

5.2K

Программирование*

Туториал

✏️ Технотекст 2023

Привет, Хабр!

Меня зовут Сергей Журавлев, я участник профессионального сообщества NTA.

Проведение опросов, викторин и других игровых обучающих активностей среди сотрудников является частью корпоративной культуры многих компаний. При этом по ряду причин использование существующих веб приложений бывает затруднительным, либо невозможным. В связи с чем, задача разработки собственной легковесной, адаптируемой и расширяемой платформы игровых активностей с динамическими пользовательскими интерфейсами (DUI) является актуальной. Отмечу, что DUI плотно вошли в практику современной веб‑разработки. Зачастую, без них невозможно представить себе реализацию ключевого функционала приложения, поскольку они предоставляют значительную гибкость и интерактивность.

Но прежде чем перейти к основной теме публикации, сделаю короткое отступление на причины выбора именно Vue.js в конкуренции с самым популярным на текущий момент React. Если не углубляться в технологии, то главное преимущество Vue.js — его простая и понятная структура, упрощающая использование данного фреймворка при так называемой фулл‑стек разработке. Разделение логики и функционала компонентов от основной html‑разметки, позволяют быстрее и в наиболее полной мере погружаться в разработку специалистам разного профиля, что, в конечном итоге, позволяет экономить трудовые и временные ресурсы при разработке небольших приложений, не требующих вовлечение большой команды с узким разделением ролей.

В этом отношении, React, например, имеет несколько иной подход, при котором синтаксис html «растворяется» в JavaScript коде, расширяясь в вариацию языка JSX. Что, в конечном итоге, требует более узкой специализации от разработчиков и более сложного взаимодействия между участниками.

NewTechAudit 20 июл 2023 в 09:12

Не ешь просрочку: Как Go и Tesseract помогают распознавать срок годности продуктов

Средний

5 мин

2.1K

Программирование*Обработка изображений*

Кейс

Привет, Хабр!

На связи участник профессионального сообщества NTA Кравчук Роман.

Распознавание дат с изображений сроков годности продукции является актуальной проблемой в сфере производства и потребления. Даты сроков годности являются важной информацией для потребителей, так как позволяют определить, безопасно ли употребление продукта после определенного периода времени. Однако, распознавание и правильная интерпретация этих дат могут быть сложными задачами для многих людей.

В посте я исследую возможности распознавания срока годности с использованием языка программирования Go и Tesseract OCR.

Как распознать срок годности?

NewTechAudit 17 июл 2023 в 09:55

Применение эффективного асинхронного web-парсинга при работе с Big Data (библиотека Scrapy)

Средний

10 мин

11K

Блог компании СберPython*Big Data*

Туториал

Привет, Хабр! Сегодня с вами Марина Коробова, участница профессионального сообщества NTA.

Многие компании и организации занимаются сбором большого объёма внешних данных для анализа и принятия эффективных решений. Конечно, всё это можно делать вручную, но это долгий, монотонный и нецелесообразный процесс, в котором можно допустить ошибки. Мы сравним два инструмента для автоматизации сбора данных из внешних источников Scrapy и BeautifulSoup4.

NewTechAudit 13 июл 2023 в 09:41

Контроль за дрейфами предсказательных моделей и Popmon

Простой

8 мин

8.3K

Python*Машинное обучение*

Туториал

✏️ Технотекст 2023

Привет, Хабр!

На связи участник профессионального сообщества NTA Иван Попов.

В сфере бизнеса зачастую используются модели машинного обучения для прогнозирования различных показателей, однако их предсказательная сила может снижаться с течением времени. В данном посте расскажу, что такое дрейф моделей, почему важно следить за ними, и как это можно сделать с помощью библиотеки Popmon.

Как держать дрейф модели под контролем?

NewTechAudit 5 июл 2023 в 10:49

Тайны виртуальных конвертов: чтение и парсинг .pst файлов

Простой

5 мин

4.1K

Python*Программирование*

Туториал

Привет, Хабр!

Меня зовут Максим Саввин, я участник профессионального сообщества NTA.

Сегодня я рассмотрю алгоритм чтения и парсинга .pst-файлов, написанный на python, для работы с одним файлом и оставлю в стороне параллельную обработку, которую стоит использовать при работе с большим числом архивов.

Узнать больше

NewTechAudit 29 июн 2023 в 06:42

Оптимизации работы Jupyter notebook при помощи параллельных вычислений (Библиотека Joblib)

Средний

9 мин

11K

Python*Big Data*

Кейс

Привет, Хабр!

Меня зовут Серов Александр, я участник профессионального сообщества NTA.

Параллелизм играет важную роль в задачах Data Science, так как может значительно ускорить вычисления и обработку больших объемов данных. В посте расскажу о возможностях применения параллельных вычислений в интерактивной среде Jupyter notebook языка Python.

Узнать больше

NewTechAudit 22 июн 2023 в 08:16

Код в картинках: визуализация кода

Простой

3 мин

9.7K

Python*Программирование*

Туториал

Привет, Хабр!

На связи Федорова Валерия, участница профессионального сообщества NTA.

Каждый разработчик был, или может оказаться, в ситуации, когда не понимаешь, как работает код, который был написан пару дней (недель, месяцев, лет — нужное подчеркнуть) назад. Или в ещё более сложной ситуации — нужно «отдебажить» чужой код, без возможности привлечь автора. Здесь может пригодиться один из инструментов статистического анализа кода — Control Flow Graph или CFG.

В этой публикации рассмотрю понятие CFG, а также python библиотеку Staticfg, обеспечивающую простой интерфейс для создания CFG программ на языке Python.

Больше о CFG и Staticfg

NewTechAudit 16 июн 2023 в 09:56

DeepPavlov «из коробки» для задачи NLP на Python

Простой

5 мин

5.4K

Python*Искусственный интеллектNatural Language Processing*

Кейс

✏️ Технотекст 2023

Привет, Хабр!

Сегодня с вами участник профессионального сообщества NTA Пётр Гончаров.

В этом посте я разобрал последовательность действий, выполненных при решении задачи автоматизированного анализа текстовой информации в публикациях на Хабре для составления отчётов: парсинга сайта и использования «из коробки» инструментов библиотеки DeepPavlov для поиска ответов на вопросы в заданном контексте.

Погрузиться глубже

NewTechAudit 7 июн 2023 в 08:32

Заставляем трансформеров отвечать на вопросы

Средний

10 мин

5.5K

Python*Программирование*Машинное обучение*Natural Language Processing*

Кейс

Привет, Хабр!

Меня зовут Владислав Малеев, я участник профессионального сообщества NTA.

Интеллектуальные системы призваны облегчать жизнь человека, выполняя за него рутинные задачи. Одной из таких задач является поиск информации в большом количестве текста. Возможно ли и эту задачу перенести на плечи интеллектуальных систем? Этим вопросом я решил задаться.

Что ответили трансформеры

NewTechAudit 2 июн 2023 в 09:18

Быстрый старт с Zsh и Powerlevel10k: двигаемся к терминалу мечты

Средний

11 мин

23K

Программирование*

Туториал

Привет, Хабр!

Меня зовут Рожнев Андрей, участник профессионального сообщества NTA.

Делюсь личным опытом по настройке терминала в Unix‑подобных ОС (macOS, Fedora, Ubuntu и так далее).

Когда я только залетал в отрасль софтверной разработки, первое, что меня напрягло — конечно же терминал и его неотвратимость. По итогу же оказалось, что терминал — это твой верный друг и соратник на тернистом, но таком интересном пути в мир IT. Один из вариантов полюбить терминал — потратить какое‑то время, немного разобраться в теме и настроить всё это дело под себя любимого.

NewTechAudit 31 мая 2023 в 15:14

Кластеризация текста в PySpark

Средний

9 мин

8.1K

Python*Алгоритмы*Big Data*

Туториал

Cезон big data

Привет, Хабр!

На связи участники профессионального сообщества NTA Кухтенко Андрей, Кравец Максим и Сиянов Артем.

Любой текст – это не просто коллекция слов, он содержит мысли и намерения его автора. Но вручную невозможно обработать огромное количество текстовой информации и понять какие данные они могут содержать. В таком случае нам поможет кластеризация текста, которая позволит получить представление о данных.

Узнать больше о кластеризации текста

3 4 ...

14 15