Как стать автором
Обновить
100
0

Профессиональное сообщество

Отправить сообщение

Использование технологий машинного обучения в аудите: примеры эффективного применения

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров8K

Привет, Хабр! На связи Егор Гершевский и Никита Горбачёв, участники профессионального сообщества NTA.

Аудит является неотъемлемой частью бизнес-практики, обеспечивая независимую оценку финансовой отчётности и процессов в организации. Аудиторы полагаются на опыт и статистическую выборку для ручной проверки сотен документов и свидетельств, определения сильных сторон и углублённого анализа организационных процедур и транзакций. Однако этот ручной процесс превратил аудит в трудоёмкую деятельность.

Сегодня почти каждая крупная технологическая компания внедряет машинное обучение (ML) в аудит. Вот, например, как оно применяется в Facebook и Amazon. Его можно задействовать в разных аспектах, включая анализ данных, обнаружение мошенничества, прогнозирование рисков и оптимизацию процессов. Алгоритмы машинного обучения могут обрабатывать и анализировать огромные объёмы данных, выявлять скрытые зависимости и аномалии, что помогает аудиторам принимать более обоснованные и точные решения. Далее мы рассмотрим различные типы задач машинного обучения, которые могут быть применены в аудите.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Практическое применение моделей YOLO и ResNet для обнаружения нежелательных предметов на фотографиях

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров13K

Привет, Хабр!

Сегодня с вами участники профессионального сообщества NTA Попов Иван и Чимбеев Анатолий.

В современном мире, где фотографии играют огромную роль в сфере социальных медиа, онлайн‑безопасности и контроля содержимого, важно иметь эффективные инструменты для обнаружения нежелательных предметов на изображениях. В данной публикации мы рассмотрим практическое применение двух популярных моделей — YOLO и ResNet — для обнаружения нежелательных предметов на фотографиях.

Как мы искали
Всего голосов 5: ↑5 и ↓0+5
Комментарии5

Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров8.2K

Привет Хабр!

 Меня зовут Портнов Клим, я участник  профессионального сообщества NTA.

В этом посте расскажу о простом для понимания, но в то же время достаточно эффективном алгоритме — дереве решений, а также его расширенной модификацией — случайных лесах решений, и их реализации с помощью PySpark MLib.

Узнать больше
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Codeium и StarCoder: нейросети с автодополнением кода

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров21K

Привет, Хабр!

На связи участники профессионального сообщества NTA Коробова Марина и Котов Илья.

В мире технологий происходит настоящая революция. На передовом фронте этой революции стоят нейронные сети — мощные и удивительные инструменты искусственного интеллекта, которые сегодня изменяют наше представление о возможностях компьютеров.

Мы познакомим вас с двумя моделями‑помощниками с автодополнением кода: StarCoder и Codeium. Для демонстрации работы AI‑плагинов используем запросы, которые часто возникают в нашей работе.

Подробнее под катом.

Узнать больше
Всего голосов 1: ↑1 и ↓0+1
Комментарии6

Генерация паспортных данных для обучения моделей

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров12K

Привет, Хабр!

Меня зовут Максим Кравец, я участник профессионального сообщества NTA.

Для тренировки нейронных сетей необходимы датасеты с достаточным количеством тренировочных данных. Зачастую в рамках разработки ML‑модели, именно составление датасета, пригодного для её обучения, занимает большую часть времени и усилий. В случае, если датасет нельзя составить из реальных данных, прибегают к генерации синтетических данных. При разработке «распознавателя» паспортов без достаточного количества реальных образцов возникла необходимость генерации паспортных данных и соответствующих им изображений отдельных полей.

Приступить к генерации!
Всего голосов 5: ↑5 и ↓0+5
Комментарии1

Генерация синтетических изображений с использованием диффузионно-трансформерной модели (DiT)

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров3.1K

Привет, Хабр!

Сегодня с Вами Илья Абрамчук и Дарья Ульянова, участники профессионального сообщества NTA.

Нередко на практике, когда работаешь с алгоритмами машинного обучения, а в особенности с нейронными сетями, сталкиваешься с проблемой нехватки данных для нормального обучения модели или хотя бы получения более-менее стабильного результата. Вот и мы оказались в подобной ситуации и перед нами возникла задача генерации синтетического датасета, состоящего из изображений, похожих на те, что имеются в распоряжении.

Узнать как мы генерировали изображения
Всего голосов 1: ↑1 и ↓0+1
Комментарии2

Замена Paint в задачах разметки графических данных

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров7.9K

Привет, Хабр! С вами Кирилл Иванов, участник профессионального сообщества NTA. Модели машинного обучения компьютерного зрения являются крайне актуальной задачей в современном мире, поскольку компьютерные системы, способные «видеть», могут применяться во многих областях жизни. Одной из самых популярных областей применения моделей компьютерного зрения является распознавание объектов на изображениях и видео. Это может быть полезным, к примеру, для систем видеонаблюдения, автоматической сортировки на производстве, диагностирования медицинских изображений. Кроме того, модели машинного обучения используются при создании дополненной и виртуальной реальностях. Они позволяют создавать интерактивные пользовательские интерфейсы, а также обеспечивать визуализацию информации на основе видео и изображений.

В целом, актуальность машинного обучения моделей компьютерного зрения связана с возможностью автоматизации и оптимизации ряда процессов, улучшением точности, эффективности и прогнозирования в различных областях, что делает их незаменимыми средствами в современном техническом развитии.

Читать далее
Всего голосов 10: ↑8 и ↓2+8
Комментарии1

Широка, необъятна, интерактивна: оффлайн карта России с Plotly

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров16K

Привет, Хабр!

На связи участник профессионального сообщества NTA Максим Алёшин.

Сегодня создание интерактивной карты на python не составляет большого труда: стоит подключить библиотеку (например, Folium или Bokeh), указать картографический сервер, и после выполнения нескольких «магических» строк кода ваши данные как на ладони!

Но что делать, если данные есть, визуализировать их хочется, а в сети, в которой вы работаете, нет доступа к картографическим серверам? В этом случае помогут Plotly и GeoPandas. Но придётся провести ряд подготовительных работ. В этом посте шаг за шагом я покажу, как построить интерактивную карту России по регионам с помощью Plotly, которая будет работать без интернета, регистрации и смс.

Оффлайн карта России с Plotly
Всего голосов 23: ↑21 и ↓2+20
Комментарии8

Создай, оформи, опубликуй. Sphinx — незаменимый помощник в мире Python документации

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров12K

В данной статье пройдём путь от знакомства с мощным инструментом для документации Sphinx до публикации нашей собственной документации на GitHub Pages. Мы узнаем насколько широко Sphinx используется в мире открытого исходного кода, включая такие проекты как Django, The Linux Kernel, TensorFlow, Pandas и многие другие.

Узнать больше
Всего голосов 3: ↑2 и ↓1+1
Комментарии2

Vue.js. Создание динамических пользовательских интерфейсов с помощью компонентов и реактивных свойств

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров5.2K

Привет, Хабр!

Меня зовут Сергей Журавлев, я участник профессионального сообщества NTA.

Проведение опросов, викторин и других игровых обучающих активностей среди сотрудников является частью корпоративной культуры многих компаний. При этом по ряду причин использование существующих веб приложений бывает затруднительным, либо невозможным. В связи с чем, задача разработки собственной легковесной, адаптируемой и расширяемой платформы игровых активностей с динамическими пользовательскими интерфейсами (DUI) является актуальной. Отмечу, что DUI плотно вошли в практику современной веб‑разработки. Зачастую, без них невозможно представить себе реализацию ключевого функционала приложения, поскольку они предоставляют значительную гибкость и интерактивность.

Но прежде чем перейти к основной теме публикации, сделаю короткое отступление на причины выбора именно Vue.js в конкуренции с самым популярным на текущий момент React. Если не углубляться в технологии, то главное преимущество Vue.js — его простая и понятная структура, упрощающая использование данного фреймворка при так называемой фулл‑стек разработке. Разделение логики и функционала компонентов от основной html‑разметки, позволяют быстрее и в наиболее полной мере погружаться в разработку специалистам разного профиля, что, в конечном итоге, позволяет экономить трудовые и временные ресурсы при разработке небольших приложений, не требующих вовлечение большой команды с узким разделением ролей.

В этом отношении, React, например, имеет несколько иной подход, при котором синтаксис html «растворяется» в JavaScript коде, расширяясь в вариацию языка JSX. Что, в конечном итоге, требует более узкой специализации от разработчиков и более сложного взаимодействия между участниками.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии5

Не ешь просрочку: Как Go и Tesseract помогают распознавать срок годности продуктов

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров2.1K

Привет, Хабр!

На связи участник профессионального сообщества NTA Кравчук Роман.

Распознавание дат с изображений сроков годности продукции является актуальной проблемой в сфере производства и потребления. Даты сроков годности являются важной информацией для потребителей, так как позволяют определить, безопасно ли употребление продукта после определенного периода времени. Однако, распознавание и правильная интерпретация этих дат могут быть сложными задачами для многих людей.

В посте я исследую возможности распознавания срока годности с использованием языка программирования Go и Tesseract OCR.

Как распознать срок годности?
Рейтинг0
Комментарии4

Применение эффективного асинхронного web-парсинга при работе с Big Data (библиотека Scrapy)

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров11K

Привет, Хабр! Сегодня с вами Марина Коробова, участница профессионального сообщества NTA.

Многие компании и организации занимаются сбором большого объёма внешних данных для анализа и принятия эффективных решений. Конечно, всё это можно делать вручную, но это долгий, монотонный и нецелесообразный процесс, в котором можно допустить ошибки. Мы сравним два инструмента для автоматизации сбора данных из внешних источников Scrapy и BeautifulSoup4.

Читать далее
Всего голосов 10: ↑8 и ↓2+7
Комментарии6

Контроль за дрейфами предсказательных моделей и Popmon

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров8.3K

Привет, Хабр!

На связи участник профессионального сообщества NTA Иван Попов.

В сфере бизнеса зачастую используются модели машинного обучения для прогнозирования различных показателей, однако их предсказательная сила может снижаться с течением времени. В данном посте расскажу, что такое дрейф моделей, почему важно следить за ними, и как это можно сделать с помощью библиотеки Popmon.

Как держать дрейф модели под контролем?
Рейтинг0
Комментарии0

Тайны виртуальных конвертов: чтение и парсинг .pst файлов

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров4.1K

Привет, Хабр!

Меня зовут Максим Саввин, я участник профессионального сообщества NTA.

Сегодня я рассмотрю алгоритм чтения и парсинга .pst-файлов, написанный на python, для работы с одним файлом и оставлю в стороне параллельную обработку, которую стоит использовать при работе с большим числом архивов.

Узнать больше
Всего голосов 5: ↑4 и ↓1+3
Комментарии0

Оптимизации работы Jupyter notebook при помощи параллельных вычислений (Библиотека Joblib)

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров11K

Привет, Хабр!

Меня зовут Серов Александр, я участник профессионального сообщества NTA.

Параллелизм играет важную роль в задачах Data Science, так как может значительно ускорить вычисления и обработку больших объемов данных. В посте расскажу  о возможностях применения параллельных вычислений в интерактивной среде Jupyter notebook языка Python.

Узнать больше
Всего голосов 4: ↑4 и ↓0+4
Комментарии10

Код в картинках: визуализация кода

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров9.7K

Привет, Хабр!

На связи Федорова Валерия, участница профессионального сообщества NTA.

Каждый разработчик был, или может оказаться, в ситуации, когда не понимаешь, как работает код, который был написан пару дней (недель, месяцев, лет — нужное подчеркнуть) назад. Или в ещё более сложной ситуации — нужно «отдебажить» чужой код, без возможности привлечь автора. Здесь может пригодиться один из инструментов статистического анализа кода — Control Flow Graph или CFG.

В этой публикации рассмотрю понятие CFG, а также python библиотеку Staticfg, обеспечивающую простой интерфейс для создания CFG программ на языке Python.

Больше о CFG и Staticfg
Всего голосов 2: ↑1 и ↓10
Комментарии17

DeepPavlov «из коробки» для задачи NLP на Python

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров5.4K

Привет, Хабр!

Сегодня с вами участник профессионального сообщества NTA Пётр Гончаров.

В этом посте я разобрал последовательность действий, выполненных при решении задачи автоматизированного анализа текстовой информации в публикациях на Хабре для составления отчётов: парсинга сайта и использования «из коробки» инструментов библиотеки DeepPavlov для поиска ответов на вопросы в заданном контексте.

Погрузиться глубже
Всего голосов 6: ↑5 и ↓1+6
Комментарии2

Заставляем трансформеров отвечать на вопросы

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров5.5K

Привет, Хабр!

Меня зовут Владислав Малеев, я участник профессионального сообщества NTA.

Интеллектуальные системы призваны облегчать жизнь человека, выполняя за него рутинные задачи. Одной из таких задач является поиск информации в большом количестве текста. Возможно ли и эту задачу перенести на плечи интеллектуальных систем? Этим вопросом я решил задаться.

Что ответили трансформеры
Всего голосов 5: ↑5 и ↓0+5
Комментарии14

Быстрый старт с Zsh и Powerlevel10k: двигаемся к терминалу мечты

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров23K

Привет, Хабр!

Меня зовут Рожнев Андрей, участник профессионального сообщества NTA.

Делюсь личным опытом по настройке терминала в Unix‑подобных ОС (macOS, Fedora, Ubuntu и так далее).

Когда я только залетал в отрасль софтверной разработки, первое, что меня напрягло — конечно же терминал и его неотвратимость. По итогу же оказалось, что терминал — это твой верный друг и соратник на тернистом, но таком интересном пути в мир IT. Один из вариантов полюбить терминал — потратить какое‑то время, немного разобраться в теме и настроить всё это дело под себя любимого.

Читать далее
Всего голосов 6: ↑3 и ↓30
Комментарии0

Кластеризация текста в PySpark

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров8.1K

Привет, Хабр!

На связи участники профессионального сообщества NTA Кухтенко Андрей, Кравец Максим и Сиянов Артем.

Любой текст – это не просто коллекция слов, он содержит мысли и намерения его автора. Но вручную невозможно обработать огромное количество текстовой информации и понять какие данные они могут содержать. В таком случае нам поможет кластеризация текста, которая позволит получить представление о данных.

Узнать больше о кластеризации текста
Всего голосов 6: ↑5 и ↓1+8
Комментарии5

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Работает в
Зарегистрирован
Активность