Как стать автором
Обновить
97
-1

Профессиональное сообщество

Отправить сообщение

Применение эффективного асинхронного web-парсинга при работе с Big Data (библиотека Scrapy)

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров8.6K

Привет, Хабр! Сегодня с вами Марина Коробова, участница профессионального сообщества NTA.

Многие компании и организации занимаются сбором большого объёма внешних данных для анализа и принятия эффективных решений. Конечно, всё это можно делать вручную, но это долгий, монотонный и нецелесообразный процесс, в котором можно допустить ошибки. Мы сравним два инструмента для автоматизации сбора данных из внешних источников Scrapy и BeautifulSoup4.

Читать далее
Всего голосов 10: ↑8 и ↓2+7
Комментарии6

Контроль за дрейфами предсказательных моделей и Popmon

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров8.1K

Привет, Хабр!

На связи участник профессионального сообщества NTA Иван Попов.

В сфере бизнеса зачастую используются модели машинного обучения для прогнозирования различных показателей, однако их предсказательная сила может снижаться с течением времени. В данном посте расскажу, что такое дрейф моделей, почему важно следить за ними, и как это можно сделать с помощью библиотеки Popmon.

Как держать дрейф модели под контролем?
Рейтинг0
Комментарии0

Управление качеством проекта: делаем на совесть

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров4.1K

В общем смысле качественным проектом считается тот, который выполнен в соответствии с требованиями заказчика, завершен в срок и по затратам не превышает заложенный лимит.  Но алгоритмы управления качеством проекта (УКП) направлены не только на результат, но и на само ведение проекта. Когда команда работает слаженно, все задачи выполняются в срок, а ответственность распределена верно, то и результат, как правило, соответствует ожиданиям. В статье расскажем, какие стадии включает схема управления качеством проекта. 

Читать далее
Всего голосов 6: ↑1 и ↓5-4
Комментарии2

Генерация Лабиринта | Алгоритм Эллера

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров10K

Алгоритм Эллера - это алгоритм генерации идеального лабиринта. Лабиринт считается идеальным, если у него нет замкнутых и зацикленных участков, и от любой точки до любой другой точки существует ровно один путь.

Читать далее
Всего голосов 26: ↑26 и ↓0+26
Комментарии19

Источники знаний PM — must have от ЕАЕ-Консалт: документы, книги, стандарты

Время на прочтение6 мин
Количество просмотров3.8K

Этот пост — обзор полезных в практике PM источников знаний, созданный на основе рекомендаций специалистов и руководителей ЕАЕ-Консалт. В материале постарались отразить не только специфическую литературу и документы для PM, но также книги из смежных отраслей знания, ценных, а иногда и необходимых в проектном управлении.

Читать далее
Всего голосов 5: ↑4 и ↓1+4
Комментарии0

Тайны виртуальных конвертов: чтение и парсинг .pst файлов

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.4K

Привет, Хабр!

Меня зовут Максим Саввин, я участник профессионального сообщества NTA.

Сегодня я рассмотрю алгоритм чтения и парсинга .pst-файлов, написанный на python, для работы с одним файлом и оставлю в стороне параллельную обработку, которую стоит использовать при работе с большим числом архивов.

Узнать больше
Всего голосов 5: ↑4 и ↓1+3
Комментарии0

Meshtastic – оперативно-тактический радиочат без сотовой связи и интернета. Часть 1. Знакомство

Время на прочтение9 мин
Количество просмотров73K

Вы когда-нибудь задумывались над тем, что будете делать, окажись внезапно в чрезвычайной ситуации без сотовой или спутниковой связи, без интернета, без возможности вызвать помощь? Ваш телефон, при этом, ещё пару-тройку дней без электричества будет работать и, вероятно, сможет спасти вашу жизнь и жизни окружающих вас людей.

Meshtastic — это проект, который позволяет построить свою частную радиосеть с очень большим временем автономной работы, используя недорогие радио модули LoRa и экономичные микроконтроллеры серии ESP32.

Радиомодем связаны с вашим смартфоном по сети Bluetooth. Для некоторых сценариев использования смартфон вообще не требуется.

Обычно, время работы модема может составлять около недели. При использовании солнечных батарей время работы ретрансляционного узла не лимитировано.

Каждый участник вашей сети всегда может видеть местоположение и расстояние до всех остальных участников, а также, обмениваться любыми текстовыми сообщениями, отправленными в ваш групповой чат.

Проект подходит для создания экстренной сети связи в условиях ЧС, может использоваться в бытовом применении для оперативной связи и практически любого хобби, где отсутствует сотовая связь и Интернет.

Спаси себя сам и вокруг спасутся многие
Всего голосов 56: ↑56 и ↓0+56
Комментарии111

Как подготовить PreLabeled-датасет при помощи CVAT, YOLO и FiftyOne

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров3.6K

Представьте ситуацию: подходит к концу спринт, во время которого вы с командой планировали разметить десятки тысяч картинок для обучения новой нейросети (допустим, детектора). Откладывать задачи — не про вас! И вы обязались придумать способ как успеть в срок!

Сегодня я подробно расскажу:

как развернуть CVAT — популярный сервис для разметки данных;

как быстро и удобно предразметить датасет с помощью YOLO и FiftyOne;

как загрузить полученный датасет на CVAT для переразметки;

как выгрузить предразмеченный датасет обратно.

Читать далее
Всего голосов 17: ↑16 и ↓1+16
Комментарии0

Оптимизации работы Jupyter notebook при помощи параллельных вычислений (Библиотека Joblib)

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров9.6K

Привет, Хабр!

Меня зовут Серов Александр, я участник профессионального сообщества NTA.

Параллелизм играет важную роль в задачах Data Science, так как может значительно ускорить вычисления и обработку больших объемов данных. В посте расскажу  о возможностях применения параллельных вычислений в интерактивной среде Jupyter notebook языка Python.

Узнать больше
Всего голосов 4: ↑4 и ↓0+4
Комментарии10

Код в картинках: визуализация кода

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров8.9K

Привет, Хабр!

На связи Федорова Валерия, участница профессионального сообщества NTA.

Каждый разработчик был, или может оказаться, в ситуации, когда не понимаешь, как работает код, который был написан пару дней (недель, месяцев, лет — нужное подчеркнуть) назад. Или в ещё более сложной ситуации — нужно «отдебажить» чужой код, без возможности привлечь автора. Здесь может пригодиться один из инструментов статистического анализа кода — Control Flow Graph или CFG.

В этой публикации рассмотрю понятие CFG, а также python библиотеку Staticfg, обеспечивающую простой интерфейс для создания CFG программ на языке Python.

Больше о CFG и Staticfg
Всего голосов 2: ↑1 и ↓10
Комментарии17

DeepPavlov «из коробки» для задачи NLP на Python

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров4.8K

Привет, Хабр!

Сегодня с вами участник профессионального сообщества NTA Пётр Гончаров.

В этом посте я разобрал последовательность действий, выполненных при решении задачи автоматизированного анализа текстовой информации в публикациях на Хабре для составления отчётов: парсинга сайта и использования «из коробки» инструментов библиотеки DeepPavlov для поиска ответов на вопросы в заданном контексте.

Погрузиться глубже
Всего голосов 6: ↑5 и ↓1+6
Комментарии2

Заставляем трансформеров отвечать на вопросы

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров4.6K

Привет, Хабр!

Меня зовут Владислав Малеев, я участник профессионального сообщества NTA.

Интеллектуальные системы призваны облегчать жизнь человека, выполняя за него рутинные задачи. Одной из таких задач является поиск информации в большом количестве текста. Возможно ли и эту задачу перенести на плечи интеллектуальных систем? Этим вопросом я решил задаться.

Что ответили трансформеры
Всего голосов 5: ↑5 и ↓0+5
Комментарии14

Быстрый старт с Zsh и Powerlevel10k: двигаемся к терминалу мечты

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров17K

Привет, Хабр!

Меня зовут Рожнев Андрей, участник профессионального сообщества NTA.

Делюсь личным опытом по настройке терминала в Unix‑подобных ОС (macOS, Fedora, Ubuntu и так далее).

Когда я только залетал в отрасль софтверной разработки, первое, что меня напрягло — конечно же терминал и его неотвратимость. По итогу же оказалось, что терминал — это твой верный друг и соратник на тернистом, но таком интересном пути в мир IT. Один из вариантов полюбить терминал — потратить какое‑то время, немного разобраться в теме и настроить всё это дело под себя любимого.

Читать далее
Всего голосов 6: ↑3 и ↓30
Комментарии0

Кластеризация текста в PySpark

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров6.8K

Привет, Хабр!

На связи участники профессионального сообщества NTA Кухтенко Андрей, Кравец Максим и Сиянов Артем.

Любой текст – это не просто коллекция слов, он содержит мысли и намерения его автора. Но вручную невозможно обработать огромное количество текстовой информации и понять какие данные они могут содержать. В таком случае нам поможет кластеризация текста, которая позволит получить представление о данных.

Узнать больше о кластеризации текста
Всего голосов 6: ↑5 и ↓1+8
Комментарии5

CodeBert для автогенерации комментариев к коду

Уровень сложностиСложный
Время на прочтение10 мин
Количество просмотров2.4K

Код программ отличается от естественного языка из-за его формализма и строгости, однако ничто не мешает воспринимать его как последовательность токенов и работать с ним, как с обычным языком. Существуют исследования, которые показали, что модель BERT, обученная на большом наборе данных, неплохо справляется с некоторыми задачами, связанными с обработкой программного кода. В этом посте я буду решать задачу автогенерации комментариев к нему. Вы узнаете, как подготовить данные для обучения, настроить нейросеть и получить результат.

Читать далее
Всего голосов 9: ↑8 и ↓1+9
Комментарии0

Slovo и русский жестовый язык

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров5.8K

Всем привет! В этой статье мы расскажем о непростой задаче распознавания русского жестового языка (РЖЯ) для слабослышащих. Насколько нам известно, в открытом доступе не существует универсального набора данных для распознавания РЖЯ. Поэтому мы решили выложить небольшую часть нашего датасета в открытый доступ. В статье мы затронем основные особенности РЖЯ, поговорим о проблемах и сложностях самого языка, и процессе его сбора и разметки. Расскажем, где искали экспертов и как нам в итоге удалось собрать самый большой и разнородный жестовый датасет для РЖЯ. В конце статьи представим набор предобученных нейронных сетей и небольшое приложение, демонстрирующее распознавание жестового языка. Часть датасета и веса моделей мы выложили в открытый доступ — все ссылки вы можете найти в конце статьи или в нашем репозитории.

Интересно?
Всего голосов 32: ↑32 и ↓0+32
Комментарии6

Sketch: искусственный интеллект на службе аналитика данных в Pandas

Уровень сложностиСредний
Время на прочтение23 мин
Количество просмотров3.2K

Привет, Хабр!

С вами Data Scientist и участник профессионального сообщества NTA Максим Алёшин.

Всего за несколько месяцев существования чат‑бот ChatGPT обрёл необычайную популярность. Пожалуй, новости, связанные с этой технологией, уже изрядно всех утомили и мало чем удивляют. Но стоит отдать должное, большое число приложений на основе языковых моделей действительно завораживает: чат‑боты стали использовать буквально во всём, от создания контента до написания программного кода.

Вот уже постепенно появляются библиотеки для Python, позволяющие использовать подобные чат‑боты прямо из Jupyter Notebooks или IDE. Сравнительно недавно вышел релиз библиотеки Sketch, которая предоставляет функции интеллектуального помощника по написанию кода для пользователей Pandas. Он, помимо прочего, понимает контекст данных, значительно повышая релевантность предложений. Библиотека доступна в PyPi и готова к использованию сразу после установки.

Больше о Sketch
Всего голосов 5: ↑5 и ↓0+5
Комментарии6

47 лет польский художник рисовал всего одну картину… из чисел! Смысл жизни Романа Опалки

Время на прочтение3 мин
Количество просмотров22K

Решимость, с которой Опалка отстаивал свою идею, была встречена не только с восхищением, но и с критикой.

Читать далее
Всего голосов 37: ↑22 и ↓15+17
Комментарии89

Как работает DALL-E

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров19K

В Январе 2021 года Open AI показали DALL-E, генерирующую любые изображения по текстовому описанию, на хабре уже успели разобрать тему генерации изображений нейросетями, но мне захотелось разобраться в теме более детально и показать всё в коде.

Сейчас мы разберём, как работает Text2Image нейросеть DALL-E, посмотрим на хардкор математики, а также убедимся, что это сможет повторить каждый, написав реализацию DALL-E почти с нуля.
Читать дальше →
Всего голосов 32: ↑29 и ↓3+39
Комментарии1

Введение в диффузионные модели для генерации изображений – полное руководство

Время на прочтение22 мин
Количество просмотров28K

Диффузионные модели могут значительно расширить мир творческой работы и создания контента в целом. За последние несколько месяцев они уже доказали свою эффективность. Количество диффузионных моделей растет с каждым днем, а старые версии быстро устаревают

Читать далее
Всего голосов 27: ↑24 и ↓3+28
Комментарии1

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Работает в
Зарегистрирован
Активность