Как стать автором
Обновить
8
0
Алексей @0tt0max

Пользователь

Отправить сообщение

Пошаговое руководство по созданию синтетических данных в Python

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров3K

Простое руководство для новичков: как самому генерировать данные для анализа и тестирования

Представьте: вы только что написали модель машинного обучения и вам нужно протестировать её работу в конкретном сценарии. Или вы собираетесь опубликовать научную статью о пользовательском решении в области Data Science, но имеющиеся датасеты нельзя использовать из-за юридических ограничений. А может быть, в рамках проекта машинного обучения вы занимаетесь отладкой и исправлением ошибок и вам нужны данные, чтобы идентифицировать и устранить проблемы.

В этих, да и во многих других ситуациях могут пригодиться синтетические данные. Реальные данные часто недоступны: уже кому-то принадлежат или дорого стоят. Так что умение создавать синтетические данные — важный навык для дата-сайентистов.

В этой статье я расскажу, с помощью каких приёмов и методов можно с нуля создать в Python синтетические данные, игрушечные датасеты и фиктивные значения. В некоторых решениях применяются методы из библиотек Python, в других — приёмы, основанные на встроенных функциях Python.

Читать далее
Всего голосов 8: ↑8 и ↓0+11
Комментарии2

Мини-гайд по отправке сообщений из Google Таблицы или базы данных с Python

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров3K

В этом материале расскажем, как автоматизировать отправку сообщений-уведомлений по данным из таблицы.

Читать далее
Всего голосов 10: ↑10 и ↓0+10
Комментарии0

Введение в Feature Engineering для начинающих дата-сайентистов и ML-инженеров

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров1.2K

Подготовили гайд о том, какие бывают признаки, когда и с помощью каких методов проводить генерацию фич и как решить распространенные ошибки при работе с признаками. 

Составить его помогла Виктория Тюфякова, Senior Data Scientist компании ecom.tech.

Читать далее
Всего голосов 2: ↑1 и ↓1+2
Комментарии5

Работа с большими файлами в Python

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров3.1K

Обработка больших текстовых файлов — распространенная задача в различных областях, таких как анализ данных, машинное обучение, веб-скрапинг и другие. Например, при работе с логами веб-сервера, которые могут достигать гигабайтов в размере, или при обработке больших наборов данных, таких как базы данных транзакций. В таких сценариях, когда файлы слишком велики для загрузки в память целиком, эффективное управление памятью становится критически важным.

Читать далее
Всего голосов 7: ↑6 и ↓1+6
Комментарии3

Real-time-распознавание лиц: методы обучения быстрых и точных моделей для работы на мобильных девайсах

Время на прочтение13 мин
Количество просмотров2.5K

Привет, Хабр! Меня зовут Вадим Селютин, я старший исследователь в компании VisionLabs. Наши решения по распознаванию лиц можно встретить в офисных центрах, московском метро и кассах самообслуживания супермаркетов. Во всех этих кейсах мы используем нейросети, которые адаптируем специально для мобильных устройств.

В этой статье я расскажу про постановку задачи распознавания лиц, подходящие мобильные архитектуры, обучение распознаванию лиц на больших объемах данных и способы повысить точность маленькой архитектуры.

Читать далее
Всего голосов 11: ↑10 и ↓1+14
Комментарии3

Микроволновка vs Wi-Fi

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров6.8K

Микроволновая печь греет еду волной 2,4 ГГц, на этой же частоте работает обычный Wi-fi роутер. Измеряем подручными средствами Wi-fi из микроволновки.

Читать далее
Всего голосов 14: ↑13 и ↓1+12
Комментарии53

Sapiens: фундаментальная CV-модель для задач с людьми

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров3K

Почти две недели назад из недр одной из самых прорывных AI лабораторий мира вышла новая классная модель (а точнее — семейство моделей) компьютерного зрения, но данная новость в русскоязычном интернете прошла будто бы без энтузиазма. А зря — штука довольно хороша.

Итак, у нас есть семейство моделей, которое из коробки поможет решить «четыре фундаментальные задачи человека в CV» (цитата авторов) и давайте посмотрим, что же там есть есть и как это работает.

Скажу сразу, что мне хотелось написать скорее напоминательно-обзорный пост о том, что такая модель вообще вышла и чего ожидать от нее в дальнейшем. В живых проектах мы пока это не использовали (но однозначно будем) и свой большой обзор писать рановато, но я поигрался с демками и да — результаты повторяемы. Технических деталей будет минимум — пейпер хорош и не стоит лишать удовольствия его прочитать самому целиком, особенно, если вы занимаетесь похожими задачами.

Читать далее
Всего голосов 12: ↑12 и ↓0+15
Комментарии1

LoRa. Рекорды дальности связи

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров12K

Многие из нас в какой-то момент за последние несколько лет купили один или два модуля LoRa, чтобы оценить технологию беспроводной сети с низким энергопотреблением, доступную в свободном доступе. Некоторые создали проекты, используя их, в то время как, возможно, у остальных из нас они все еще лежат на наших стендах как напоминание о наполовину завершенных проектах.

Возможно приведенные далее примеры сподвигнут кого-то на разработку устройств дальней связи на основе LoRa , например, для управления БПЛА на большом расстоянии.

2015 год. Применение системы Lora в дешевых трекерах для высокогорных аэростатов Pico. Эти трекеры весят менее 20 г и запускаются с помощью 36-дюймовых воздушных шаров из фольги для вечеринок, наполненные гелием. Для проверки возможностей телеметрии на большие расстояния радиомодулей ISM-диапазона с использованием приемопередатчика Semtechs SX1278 был разработан трекер HAVAXE2. Трекер и батарея примерно на 24 часа работы весили 16 грамм. HABAXE2 был запущен около 09:30 4 января 2015 года с Кэрфилли Коммон, 51.5621 Северной широты 3.2228З ападной долготы. В последний раз о нем слышали на широте 44.1618 северной широты, 4.3205 восточной долготы, недалеко от побережья Средиземного моря на высоте 8032 м, преодолев чуть более 1000 км. Британские условия любительского лицензирования разрешают использование любительских передатчиков в диапазоне 434 МГц без лицензии с мощностью не блоее 10 МВт. Полезная нагрузка аэростатного трекера передавалась в формате FSK RTTY и ее можно засечь на расстоянии сотен километров даже при мощности 10 МВт. Цель HABAXE2 состояла в том, чтобы выяснить, является ли телеметрия данных LoRa жизнеспособной альтернативой и можно ли ее использовать на больших расстояниях для дистанционного управления трекером. Тесты показали, что при скорости 1042 бод устройствам LoRa требуется всего 2 МВт для покрытия зоны прямой видимости в 40 км, поэтому использование LoRa для слежения на больших расстояниях выглядело целесообразным. В другом проекте для телеметрии с RFM22B, используемой для спутника стоимостью 50 долларов, требовалось 100 МВт, чтобы преодолеть то же расстояние. Используя только вертикальную всенаправленную антенну на базовой станции (Diamond X50N) и трекер мощностью 10 mВт с проводом длиной ¼ волны , были получены следующие результаты; в последний раз, когда полезная нагрузка трекера была получена без ошибок, расстояние до аэростата составляло 269 км. На расстоянии 242 км на HABAXE2 была отправлена серия команд, со скоростью 98 бод при различной мощности передатчика вплоть до уровня 3 mВт. Экстраполяция 3мВт до 10 mВт (ограничение Великобритании) показывает, что связь возможна на расстоянии 611 км, что соответствует радиогоризонту на высоте около 22 км. Для другого теста использовали более высокую скорость передачи данных 13,7 Кбод и мощность передатчика 7 дБм было достигнуто расстояние связи 105 км.

Читать далее
Всего голосов 15: ↑14 и ↓1+17
Комментарии21

Кратко про low-code библиотеку для ML Pycaret

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.3K

Привет, Хабр!

PyCaret — это open-source библиотека, которая предлагает low-code подход к созданию, обучению и внедрению моделей ML. Она позволяет провести весь процесс — от подготовки данных до развертывания модели в продакшн — всего за несколько строк кода.

Читать далее
Всего голосов 5: ↑5 и ↓0+10
Комментарии1

«Всегда закрывай за собой двери!»: краткое пособие по работе с портами

Время на прочтение9 мин
Количество просмотров24K

Открытые порты — это распахнутые двери в вашу инфраструктуру. Сервис, который слушает по ним запросы, обрабатывает входящие данные и реагирует на них в зависимости от заложенной логики. Из-за ошибок на этом уровне возникают уязвимости, которые хактивист может эксплуатировать для нелегитимного доступа к инфраструктуре.

Самый логичный способ обезопасить себя — ограничить сетевой доступ к сервису или инфраструктуре — например, через порты. Это можно сделать с помощью межсетевого экрана — инструмента для управления трафиком в сети и защиты от несанкционированного доступа. Решение позволяет описать, какие запросы будут проходить через определенные порты, к каким сервисам можно получить доступ и т. д.

Привет! Меня зовут Иван, я ведущий инженер по информационной безопасности в Selectel. Давно хотели научиться настраивать сетевые интерфейсы? Хорошая новость: мы в Selectel запускаем цикл статей по работе с портами в разрезе ИБ. В этом материале разберем, как с помощью различных межсетевых экранов: локальных, облачных и МСЭ в составе NGFW — обеспечить дополнительную защиту сервисов. Подробности под катом!
Читать дальше →
Всего голосов 37: ↑36 и ↓1+53
Комментарии4

Еще один способ передачи данных по радиоканалу

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров18K

Эта статья написана по мотивам вот этой. Чтобы повторить успех к имеющейся Baofeng uv-5r была приобретена Quansheng uv-k5, а потом и ещё одна uv-k5, потому что uv-5r очень долго активировал функцию VOX. Кейс очень интересный, но практически использовать его тяжеловато из-за низкой скорости передачи. Ниже описана попытка избавиться от этого недостатка.

Читать далее
Всего голосов 21: ↑21 и ↓0+29
Комментарии31

Передача данных по радиоканалу

Время на прочтение4 мин
Количество просмотров18K

Идея для этой статьи зародилась, когда мы проводили анализ защищенности в удаленном районе в условиях отсутствия Интернета и любых средств связи. У нас были только рации, через которые мы переговаривались. Но нам также нужно было удаленно обмениваться небольшими файлами. Так у нас появилась идея проверить, возможно ли передавать информацию с одного ноутбука на второй, используя рации.

Важно! Здесь не будет информации о юридических особенностях использования радиосвязи, а также о частотах, мощности передачи, позывных и т. п. Применение радиосвязи имеет ограничения и регулируется Федеральным законом N 126-ФЗ «О связи».

Читать далее
Всего голосов 36: ↑36 и ↓0+36
Комментарии63

Поднятие своего сервера minecraft на linux. Полный, подробный гайд

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров7.3K

Без лишних слов, если вы захотели запустить свой minecraft сервер, с полным доступом, кастомизацией, чтобы ни от кого не зависеть, в этой статье я подробно расскажу как это сделать.

Читать далее
Всего голосов 12: ↑6 и ↓6+3
Комментарии20

Как котята лапками настраивают GPU в Kubernetes и при чем тут эффект Манделы

Уровень сложностиСложный
Время на прочтение9 мин
Количество просмотров6.4K
image

Думаю, у каждого были ситуации, когда специальные инструменты помогали решать сложные рутинные задачи. Например, с помощью обжимки кабеля намного проще нарезать патчкорды, чем ножом и отверткой. Изоляция в Docker избавляет от беспорядка с зависимостями.

Привет, Хабр! Меня зовут Антон. Мне часто приходится настраивать инфраструктуру для обучения и инференсинга моделей на GPU в Kubernetes. Хочу поделиться волшебным инструментом, который позволяет это делать без костылей и велосипедов, если у вас лапки.

В этой статье расскажу и про боли при настройке GPU для ML-задач, и про лекарство — GPU-оператор. Разберемся на примере с GPU NVIDIA, но и для AMD общая концепция будет похожа. Ранее я выступал с этим материалом на конференции Pycon 2024.
Читать дальше →
Всего голосов 29: ↑29 и ↓0+41
Комментарии0

Рецепт идеальной разметки в Computer Vision

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров2.1K

За два года команда RnD CV из SberDevices выложила в открытый доступ три датасета для задач компьютерного зрения: HaGRID, EasyPortrait и Slovo. Чтобы достичь максимальной точности обработки данных, полученных с краудсорсинговых платформ, мы применили методы агрегации, которые позже объединили в фреймворк.

Привет, Хабр! На связи Карина Кванчиани и Александр Капитанов из SberDevices. В этой статье мы расскажем о фреймворке агрегации разметки данных, который использует наша команда и коллеги из других подразделений. AggregateMe помогает привести несколько разметок к одной и повысить её качество в случае, если исполнители где-то ошиблись. Скоро фреймворк появится в открытом доступе, а здесь расскажем, как он работает.

Читать далее
Всего голосов 10: ↑10 и ↓0+17
Комментарии1

Ничья в футболе, водное поло и двумерный Пуассон

Уровень сложностиСложный
Время на прочтение19 мин
Количество просмотров968

Данная статья является разбором статьи 2003 года Dimitris Karlis'а и Ioannis Ntzoufras'а "Analysis of sports data by using bivariate Poisson models".

Данная статья будет интересна в основном тем кто использует или понимает как использовать распределения Пуассона в моделях машинного обучения и для предобработки данных для прогнозирования результатов спортивных событий.

Для моделирования спортивных данных было использовано двумерное распределение Пуассона и его расширения. Двумерное распределение Пуассона позволяет получить корреляцию между результатами соревнующихся команд, что вполне вероятно для некоторых командных видов спорта.

Читать далее
Всего голосов 4: ↑2 и ↓2+4
Комментарии2

Как сделать и настроить собственный VPN

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров58K

В статье рассмотрим четыре способа создания собственного VPN. Начнем с самого простого варианта, что под силу даже начинающим пользователям ПК.

Читать далее
Всего голосов 36: ↑35 и ↓1+41
Комментарии67

Python на вынос: PyInstaller и Nuitka

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров2.1K

Недавно возникла необходимость предоставить нашему QA-отделу один из модулей на Python в виде автономного бинарика, который не требовал бы установки и настройки окружения. Следуя за необходимостью образовался интерес какие существуют для этого средства.

Один из вариантов был использовать Docker, но я от него отказался по причине того, что окружение для Docker тоже надо будет готовить. Потом надо будет правильно запуск этот образ и правильно с ним взаимодействовать. Конечно, для упрощения можно использовать docker compose, но это не сильно снижает сложность для конечного пользователя. Кроме того, образ будет достаточно большим.

Поэтому я после некоторых размышлений обратился к таким инструментам как Python Compilers, а именно - Nuitka и PyInstaller и провёл небольшое исследование на предмет

Оба инструмента упаковывают Python-приложение со всеми зависимостями в один пакет таким образом, что конечный пользователь приложения может обойтись без установки Python на свою машину.

Есть два варианта того, что мы получаем от их работы в качестве результата (кроме эмоциональных ощущений):

Читать далее
Всего голосов 6: ↑6 и ↓0+8
Комментарии13

Дообучаем Llama 3.1 у себя дома

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров14K

Привет, чемпионы!

С каждым днем появляется все больше и больше LLM. Их метрики растут с таким же бешеным темпом. Но в узких областях знаний они до сих пор дают осечку. Почему это происходит и как с эти бороться? - Разбираем универсальный код для дообучения LLM на своих данных!

Дообучать LLM!
Всего голосов 24: ↑21 и ↓3+24
Комментарии16

Разреженные автоэнкодеры и интерпретируемость нейросетей

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров1K

На заре развития искусственного интеллекта исследователи часто могли проследить логику процесса принятия решений моделью, но с появлением deep learning и, в частности, с выходом AlexNet в 2012 году, эта прозрачность начала исчезать. Прорывная производительность AlexNet в распознавании изображений ознаменовала не только технологический скачок, но и поворотный момент, когда сложность нейронных сетей опередила нашу способность понимать процессы, происходящие внутри. Успех модели, обусловленный миллионами параметров и слоями вычислительных блоков, положил начало эпохе, когда акцент был смещен в сторону максимизации производительности, зачастую в ущерб интерпретируемости. Сегодня эта проблема только усугубилась, поскольку нейронные сети стали еще больше и сложнее. Эти модели работают как «черные ящики», принимая решения, причины которых практически невозможно расшифровать.

Давайте поговорим о том, как вообще исследователи в области ии пытаются решить растущую проблему интерпретируемости моделей, в частности, поговорим о разреженных автоэнкодерах Anthropic.

Читать далее
Всего голосов 3: ↑2 и ↓1+3
Комментарии0
1
23 ...

Информация

В рейтинге
Не участвует
Откуда
Петропавловск, Северо-Казахстанская обл., Казахстан
Дата рождения
Зарегистрирован
Активность