Статьи / Закладки / Профиль 0tt0max / Хабр

Как стать автором

Алексей @0tt0max

Пользователь

Профиль Публикации 1Комментарии 59Закладки 1.5K

ENRUStudio 13 сен в 12:16

Пошаговое руководство по созданию синтетических данных в Python

Простой

7 мин

3K

Блог компании НетологияPython*Программирование*Машинное обучение*Data Engineering*

Туториал

Перевод

Простое руководство для новичков: как самому генерировать данные для анализа и тестирования

Представьте: вы только что написали модель машинного обучения и вам нужно протестировать её работу в конкретном сценарии. Или вы собираетесь опубликовать научную статью о пользовательском решении в области Data Science, но имеющиеся датасеты нельзя использовать из-за юридических ограничений. А может быть, в рамках проекта машинного обучения вы занимаетесь отладкой и исправлением ошибок и вам нужны данные, чтобы идентифицировать и устранить проблемы.

В этих, да и во многих других ситуациях могут пригодиться синтетические данные. Реальные данные часто недоступны: уже кому-то принадлежат или дорого стоят. Так что умение создавать синтетические данные — важный навык для дата-сайентистов.

В этой статье я расскажу, с помощью каких приёмов и методов можно с нуля создать в Python синтетические данные, игрушечные датасеты и фиктивные значения. В некоторых решениях применяются методы из библиотек Python, в других — приёмы, основанные на встроенных функциях Python.

Читать далее

+11

michabramov 10 сен в 10:06

Мини-гайд по отправке сообщений из Google Таблицы или базы данных с Python

Средний

8 мин

3K

Блог компании ExolveCMS*Python*API*

Туториал

В этом материале расскажем, как автоматизировать отправку сообщений-уведомлений по данным из таблицы.

Читать далее

+10

skillfactory_school 11 сен в 12:30

Введение в Feature Engineering для начинающих дата-сайентистов и ML-инженеров

Средний

17 мин

1.2K

Блог компании SkillfactoryМашинное обучение*

FAQ

Подготовили гайд о том, какие бывают признаки, когда и с помощью каких методов проводить генерацию фич и как решить распространенные ошибки при работе с признаками.

Составить его помогла Виктория Тюфякова, Senior Data Scientist компании ecom.tech.

Читать далее

+2

Chikkl 12 сен в 13:45

Работа с большими файлами в Python

Средний

13 мин

3.1K

Python*Программирование*Проектирование и рефакторинг*Серверная оптимизация*

Туториал

Recovery Mode

Обработка больших текстовых файлов — распространенная задача в различных областях, таких как анализ данных, машинное обучение, веб-скрапинг и другие. Например, при работе с логами веб-сервера, которые могут достигать гигабайтов в размере, или при обработке больших наборов данных, таких как базы данных транзакций. В таких сценариях, когда файлы слишком велики для загрузки в память целиком, эффективное управление памятью становится критически важным.

Читать далее

+6

vadimselyutin 12 сен в 16:00

Real-time-распознавание лиц: методы обучения быстрых и точных моделей для работы на мобильных девайсах

13 мин

2.5K

Блог компании МТСОбработка изображений*Машинное обучение*Искусственный интеллект

Привет, Хабр! Меня зовут Вадим Селютин, я старший исследователь в компании VisionLabs. Наши решения по распознаванию лиц можно встретить в офисных центрах, московском метро и кассах самообслуживания супермаркетов. Во всех этих кейсах мы используем нейросети, которые адаптируем специально для мобильных устройств.

В этой статье я расскажу про постановку задачи распознавания лиц, подходящие мобильные архитектуры, обучение распознаванию лиц на больших объемах данных и способы повысить точность маленькой архитектуры.

Читать далее

+14

Copernicus 8 сен в 18:15

Микроволновка vs Wi-Fi

Простой

3 мин

6.8K

Беспроводные технологии*ГаджетыНаучно-популярное

Из песочницы

Микроволновая печь греет еду волной 2,4 ГГц, на этой же частоте работает обычный Wi-fi роутер. Измеряем подручными средствами Wi-fi из микроволновки.

Читать далее

+12

antipov_dmitry 5 сен в 12:28

Sapiens: фундаментальная CV-модель для задач с людьми

Простой

4 мин

3K

Data Mining*Машинное обучение*Искусственный интеллектData Engineering*

Обзор

Почти две недели назад из недр одной из самых прорывных AI лабораторий мира вышла новая классная модель (а точнее — семейство моделей) компьютерного зрения, но данная новость в русскоязычном интернете прошла будто бы без энтузиазма. А зря — штука довольно хороша.

Итак, у нас есть семейство моделей, которое из коробки поможет решить «четыре фундаментальные задачи человека в CV» (цитата авторов) и давайте посмотрим, что же там есть есть и как это работает.

Скажу сразу, что мне хотелось написать скорее напоминательно-обзорный пост о том, что такая модель вообще вышла и чего ожидать от нее в дальнейшем. В живых проектах мы пока это не использовали (но однозначно будем) и свой большой обзор писать рановато, но я поигрался с демками и да — результаты повторяемы. Технических деталей будет минимум — пейпер хорош и не стоит лишать удовольствия его прочитать самому целиком, особенно, если вы занимаетесь похожими задачами.

Читать далее

+15

nikolz 5 сен в 15:34

LoRa. Рекорды дальности связи

Простой

5 мин

12K

Интернет вещей

Обзор

Многие из нас в какой-то момент за последние несколько лет купили один или два модуля LoRa, чтобы оценить технологию беспроводной сети с низким энергопотреблением, доступную в свободном доступе. Некоторые создали проекты, используя их, в то время как, возможно, у остальных из нас они все еще лежат на наших стендах как напоминание о наполовину завершенных проектах.

Возможно приведенные далее примеры сподвигнут кого-то на разработку устройств дальней связи на основе LoRa , например, для управления БПЛА на большом расстоянии.

2015 год. Применение системы Lora в дешевых трекерах для высокогорных аэростатов Pico. Эти трекеры весят менее 20 г и запускаются с помощью 36-дюймовых воздушных шаров из фольги для вечеринок, наполненные гелием. Для проверки возможностей телеметрии на большие расстояния радиомодулей ISM-диапазона с использованием приемопередатчика Semtechs SX1278 был разработан трекер HAVAXE2. Трекер и батарея примерно на 24 часа работы весили 16 грамм. HABAXE2 был запущен около 09:30 4 января 2015 года с Кэрфилли Коммон, 51.5621 Северной широты 3.2228З ападной долготы. В последний раз о нем слышали на широте 44.1618 северной широты, 4.3205 восточной долготы, недалеко от побережья Средиземного моря на высоте 8032 м, преодолев чуть более 1000 км. Британские условия любительского лицензирования разрешают использование любительских передатчиков в диапазоне 434 МГц без лицензии с мощностью не блоее 10 МВт. Полезная нагрузка аэростатного трекера передавалась в формате FSK RTTY и ее можно засечь на расстоянии сотен километров даже при мощности 10 МВт. Цель HABAXE2 состояла в том, чтобы выяснить, является ли телеметрия данных LoRa жизнеспособной альтернативой и можно ли ее использовать на больших расстояниях для дистанционного управления трекером. Тесты показали, что при скорости 1042 бод устройствам LoRa требуется всего 2 МВт для покрытия зоны прямой видимости в 40 км, поэтому использование LoRa для слежения на больших расстояниях выглядело целесообразным. В другом проекте для телеметрии с RFM22B, используемой для спутника стоимостью 50 долларов, требовалось 100 МВт, чтобы преодолеть то же расстояние. Используя только вертикальную всенаправленную антенну на базовой станции (Diamond X50N) и трекер мощностью 10 mВт с проводом длиной ¼ волны , были получены следующие результаты; в последний раз, когда полезная нагрузка трекера была получена без ошибок, расстояние до аэростата составляло 269 км. На расстоянии 242 км на HABAXE2 была отправлена серия команд, со скоростью 98 бод при различной мощности передатчика вплоть до уровня 3 mВт. Экстраполяция 3мВт до 10 mВт (ограничение Великобритании) показывает, что связь возможна на расстоянии 611 км, что соответствует радиогоризонту на высоте около 22 км. Для другого теста использовали более высокую скорость передачи данных 13,7 Кбод и мощность передатчика 7 дБм было достигнуто расстояние связи 105 км.

Читать далее

+17

badcasedaily1 3 сен в 12:49

Кратко про low-code библиотеку для ML Pycaret

Простой

5 мин

1.3K

Блог компании OTUSPython*Программирование*Машинное обучение*

Обзор

Привет, Хабр!

PyCaret — это open-source библиотека, которая предлагает low-code подход к созданию, обучению и внедрению моделей ML. Она позволяет провести весь процесс — от подготовки данных до развертывания модели в продакшн — всего за несколько строк кода.

Читать далее

+10

is113 4 сен в 15:06

«Всегда закрывай за собой двери!»: краткое пособие по работе с портами

9 мин

24K

Блог компании SelectelИнформационная безопасность*Nginx*Сетевые технологии*

Открытые порты — это распахнутые двери в вашу инфраструктуру. Сервис, который слушает по ним запросы, обрабатывает входящие данные и реагирует на них в зависимости от заложенной логики. Из-за ошибок на этом уровне возникают уязвимости, которые хактивист может эксплуатировать для нелегитимного доступа к инфраструктуре.

Самый логичный способ обезопасить себя — ограничить сетевой доступ к сервису или инфраструктуре — например, через порты. Это можно сделать с помощью межсетевого экрана — инструмента для управления трафиком в сети и защиты от несанкционированного доступа. Решение позволяет описать, какие запросы будут проходить через определенные порты, к каким сервисам можно получить доступ и т. д.

Привет! Меня зовут Иван, я ведущий инженер по информационной безопасности в Selectel. Давно хотели научиться настраивать сетевые интерфейсы? Хорошая новость: мы в Selectel запускаем цикл статей по работе с портами в разрезе ИБ. В этом материале разберем, как с помощью различных межсетевых экранов: локальных, облачных и МСЭ в составе NGFW — обеспечить дополнительную защиту сервисов. Подробности под катом!

Читать дальше →

+53

Pisikak 4 сен в 16:13

Еще один способ передачи данных по радиоканалу

Средний

12 мин

18K

Настройка Linux*Разработка систем связи*Программирование микроконтроллеров*Разработка под Arduino*Любительская радиосвязь

Туториал

Эта статья написана по мотивам вот этой. Чтобы повторить успех к имеющейся Baofeng uv-5r была приобретена Quansheng uv-k5, а потом и ещё одна uv-k5, потому что uv-5r очень долго активировал функцию VOX. Кейс очень интересный, но практически использовать его тяжеловато из-за низкой скорости передачи. Ниже описана попытка избавиться от этого недостатка.

Читать далее

+29

USSCLTD 6 фев в 11:19

Передача данных по радиоканалу

4 мин

18K

Блог компании Уральский центр систем безопасностиНастройка Linux*Беспроводные технологии*Разработка систем связи*Разработка на Raspberry Pi*

Кейс

Идея для этой статьи зародилась, когда мы проводили анализ защищенности в удаленном районе в условиях отсутствия Интернета и любых средств связи. У нас были только рации, через которые мы переговаривались. Но нам также нужно было удаленно обмениваться небольшими файлами. Так у нас появилась идея проверить, возможно ли передавать информацию с одного ноутбука на второй, используя рации.

Важно! Здесь не будет информации о юридических особенностях использования радиосвязи, а также о частотах, мощности передачи, позывных и т. п. Применение радиосвязи имеет ограничения и регулируется Федеральным законом N 126-ФЗ «О связи».

Читать далее

+36

Ptasema 31 авг в 10:13

Поднятие своего сервера minecraft на linux. Полный, подробный гайд

Простой

9 мин

7.3K

Настройка Linux*IT-инфраструктура*Игры и игровые консолиОперационные системы

Из песочницы

Без лишних слов, если вы захотели запустить свой minecraft сервер, с полным доступом, кастомизацией, чтобы ни от кого не зависеть, в этой статье я подробно расскажу как это сделать.

Читать далее

+3

antonaleks605 30 авг в 15:25

Как котята лапками настраивают GPU в Kubernetes и при чем тут эффект Манделы

Сложный

9 мин

6.4K

Блог компании SelectelIT-инфраструктура*Серверное администрирование*Машинное обучение*Облачные сервисы*

Туториал

Думаю, у каждого были ситуации, когда специальные инструменты помогали решать сложные рутинные задачи. Например, с помощью обжимки кабеля намного проще нарезать патчкорды, чем ножом и отверткой. Изоляция в Docker избавляет от беспорядка с зависимостями.

Привет, Хабр! Меня зовут Антон. Мне часто приходится настраивать инфраструктуру для обучения и инференсинга моделей на GPU в Kubernetes. Хочу поделиться волшебным инструментом, который позволяет это делать без костылей и велосипедов, если у вас лапки.

В этой статье расскажу и про боли при настройке GPU для ML-задач, и про лекарство — GPU-оператор. Разберемся на примере с GPU NVIDIA, но и для AMD общая концепция будет похожа. Ранее я выступал с этим материалом на конференции Pycon 2024.

Читать дальше →

+41

hukenovs 29 авг в 13:13

Рецепт идеальной разметки в Computer Vision

Средний

11 мин

2.1K

Блог компании SberDevicesБлог компании Конференции Олега Бунина (Онтико)Data Mining*Обработка изображений*Машинное обучение*

Туториал

За два года команда RnD CV из SberDevices выложила в открытый доступ три датасета для задач компьютерного зрения: HaGRID, EasyPortrait и Slovo. Чтобы достичь максимальной точности обработки данных, полученных с краудсорсинговых платформ, мы применили методы агрегации, которые позже объединили в фреймворк.

Привет, Хабр! На связи Карина Кванчиани и Александр Капитанов из SberDevices. В этой статье мы расскажем о фреймворке агрегации разметки данных, который использует наша команда и коллеги из других подразделений. AggregateMe помогает привести несколько разметок к одной и повысить её качество в случае, если исполнители где-то ошиблись. Скоро фреймворк появится в открытом доступе, а здесь расскажем, как он работает.

Читать далее

+17

cappelchi 29 авг в 18:58

Ничья в футболе, водное поло и двумерный Пуассон

Сложный

19 мин

968

Математика*Машинное обучение*Исследования и прогнозы в IT*Статистика в ITФинансы в IT

Перевод

Данная статья является разбором статьи 2003 года Dimitris Karlis'а и Ioannis Ntzoufras'а "Analysis of sports data by using bivariate Poisson models".

Данная статья будет интересна в основном тем кто использует или понимает как использовать распределения Пуассона в моделях машинного обучения и для предобработки данных для прогнозирования результатов спортивных событий.

Для моделирования спортивных данных было использовано двумерное распределение Пуассона и его расширения. Двумерное распределение Пуассона позволяет получить корреляцию между результатами соревнующихся команд, что вполне вероятно для некоторых командных видов спорта.

Читать далее

+4

kaspra 29 авг в 08:09

Как сделать и настроить собственный VPN

Простой

6 мин

58K

Информационная безопасность*Open source*Системное администрирование*Сетевые технологии*

Туториал

В статье рассмотрим четыре способа создания собственного VPN. Начнем с самого простого варианта, что под силу даже начинающим пользователям ПК.

Читать далее

+41

mpaytishev 28 авг в 07:42

Python на вынос: PyInstaller и Nuitka

Простой

11 мин

2.1K

Недавно возникла необходимость предоставить нашему QA-отделу один из модулей на Python в виде автономного бинарика, который не требовал бы установки и настройки окружения. Следуя за необходимостью образовался интерес какие существуют для этого средства.

Один из вариантов был использовать Docker, но я от него отказался по причине того, что окружение для Docker тоже надо будет готовить. Потом надо будет правильно запуск этот образ и правильно с ним взаимодействовать. Конечно, для упрощения можно использовать docker compose, но это не сильно снижает сложность для конечного пользователя. Кроме того, образ будет достаточно большим.

Поэтому я после некоторых размышлений обратился к таким инструментам как Python Compilers, а именно - Nuitka и PyInstaller и провёл небольшое исследование на предмет

Оба инструмента упаковывают Python-приложение со всеми зависимостями в один пакет таким образом, что конечный пользователь приложения может обойтись без установки Python на свою машину.

Есть два варианта того, что мы получаем от их работы в качестве результата (кроме эмоциональных ощущений):

Читать далее

+8

Aleron75 28 авг в 10:07

Дообучаем Llama 3.1 у себя дома

Средний

8 мин

14K

Python*Программирование*Машинное обучение*Искусственный интеллект

Туториал

Привет, чемпионы!

С каждым днем появляется все больше и больше LLM. Их метрики растут с таким же бешеным темпом. Но в узких областях знаний они до сих пор дают осечку. Почему это происходит и как с эти бороться? - Разбираем универсальный код для дообучения LLM на своих данных!

Дообучать LLM!

+24

heavychevy 28 авг в 11:05

Разреженные автоэнкодеры и интерпретируемость нейросетей

Средний

4 мин

1K

Искусственный интеллект

На заре развития искусственного интеллекта исследователи часто могли проследить логику процесса принятия решений моделью, но с появлением deep learning и, в частности, с выходом AlexNet в 2012 году, эта прозрачность начала исчезать. Прорывная производительность AlexNet в распознавании изображений ознаменовала не только технологический скачок, но и поворотный момент, когда сложность нейронных сетей опередила нашу способность понимать процессы, происходящие внутри. Успех модели, обусловленный миллионами параметров и слоями вычислительных блоков, положил начало эпохе, когда акцент был смещен в сторону максимизации производительности, зачастую в ущерб интерпретируемости. Сегодня эта проблема только усугубилась, поскольку нейронные сети стали еще больше и сложнее. Эти модели работают как «черные ящики», принимая решения, причины которых практически невозможно расшифровать.

Давайте поговорим о том, как вообще исследователи в области ии пытаются решить растущую проблему интерпретируемости моделей, в частности, поговорим о разреженных автоэнкодерах Anthropic.

Читать далее

+3

1

2 3 ...