Pull to refresh
0
0
Send message

Топ 3 привычки для улучшенного обучения

Level of difficultyEasy
Reading time4 min
Views6.5K

Едва ли не у каждого из нас случались в жизни периоды, когда нужно было быстро обучаться чему-то новому. Будь-то адаптация на новом рабочем месте, купленный интенсив или желание выйти на бюджет в универе или получить премию. Ниже приведен гайд по базовым инструментам, которые помогают улучшить обучение.

Читать далее
Total votes 10: ↑6 and ↓4+6
Comments4

Регулярные выражения простыми словами. Часть 1

Level of difficultyEasy
Reading time7 min
Views35K

Разработчики делятся на два типа: тех, кто уже понимает регулярные выражения и порой решает сложные задачи одной строкой, и тех, кто все еще боится и всячески их избегает. Эта статья специально для вторых, чтобы им было проще стать первыми. Она либо поможет преодолеть «регекспофобию», либо усугубит ее. В любом случае, добро пожаловать под кат.
Читать дальше →
Total votes 162: ↑161 and ↓1+187
Comments55

Машинное обучение и криптография: знакомимся с CipherGAN

Level of difficultyEasy
Reading time7 min
Views1.3K

Машинное обучение в большей или меньшей степени сейчас используется в различных отраслях. Не стало исключением и направление криптографического анализа. В этой статье мы рассмотрим генеративно‑состязательную сеть CipherGAN, используемую для определения базового шифровального отображения по банкам непарного зашифрованного текста и открытого текста.

Читать далее
Total votes 10: ↑10 and ↓0+14
Comments0

Как мотивировать себя на правильные вещи

Level of difficultyEasy
Reading time4 min
Views9.7K

Мотивационных советов можно дать миллион. Но обычно они упираются в то, что себя нужно заставить как-то сделать первый шаг - перейти на новые принципы тайм-менеджмента, заняться спортом или перестать есть на ночь. Летом где-то между отпусками мы в Максилекте собрались, чтобы обсудить, как именно мы делаем этот первый шаг. 

Надо отметить, что у опытных удаленщиков с самодисциплиной и мотивацией все хорошо. Но даже у нас бывают временные кризисы. В этой статье - о том, что мы с коллегами предпринимаем, когда “само не получается” и нужно все-таки заставить себя заниматься правильными вещами.

Читать далее
Total votes 19: ↑13 and ↓6+11
Comments4

Простой мини-чат на FastApi: Современный интерфейс, вебсокеты и SQLAlchemy с деплоем

Reading time40 min
Views15K

Привет, друзья! Сегодня я подготовил для вас увлекательную практическую статью о создании мини-чата на FastApi. Мы погрузимся в мир вебсокетов, узнаем, зачем они нужны и как применяются в реальных приложениях. Также я продемонстрирую работу с асинхронной SQLAlchemy на примере взаимодействия с базой данных SQLite.

Для создания современного интерфейса мы обратимся к интересному и бесплатному сервису Websim.ai, который за пару минут сгенерирует нам интерфейс, включая страничку для входа/регистрации и страницу самого чата.

Чтобы наш чат мог обслуживать множество пользователей одновременно, мы выполним деплой нашего FastApi приложения. Для этого воспользуемся сервисом Amvera Cloud. Нам нужно будет подготовить файлы приложения, написать код, создать файл с настройками (можно сгенерировать на сайте или скопировать мой код), а затем доставить файлы на сервис. Для доставки можно использовать встроенный терминал или GIT, используя стандартные команды PUSH/PULL.

Но прежде чем мы погрузимся в код, давайте кратко обсудим, что такое вебсокеты и как они работают в контексте FastApi.

Читать далее
Total votes 18: ↑18 and ↓0+23
Comments5

Введение в Weight & Biases

Level of difficultyEasy
Reading time5 min
Views1.4K

В практике любого инженера машинного обучения обязательно присутствует инструмент для управления жизненным циклом машинного обучения: отслеживание экспериментов, управление и деплой моделей и проектов. В этой статье я кратко расскажу о таком инструменте компании Weight & Biases, незаслуженно обойденным вниманием на просторах рускоязычного пространства.

Работа в современных реалиях требуют быстрой разработки и оценки моделей. Существует множество компонентов: изучение обучающих данных, обучение различных моделей, объединение обученных моделей в различные комбинации (ансамблирование) и т. д.

Много компонентов = много мест, где можно ошибиться = много времени, потраченного на отладку. Вы можете упустить важные детали, и вам придется заново обучать модель, или вы можете обучиться на неправильных данных (утечка информации). Или вы можете использовать неправильную модель для генерации представления.

Именно здесь на помощь приходит W&B.

Читать далее
Total votes 7: ↑7 and ↓0+11
Comments1

Введение в MLflow

Level of difficultyMedium
Reading time19 min
Views8.9K

MLflow - это инструмент для управления жизненным циклом машинного обучения: отслеживание экспериментов, управление и деплой моделей и проектов. В этом руководстве мы посмотрим, как организовать эксперименты и запуски, оптимизировать гиперпараметры с помощью optuna, сравнивать модели и выбирать лучшие параметры. Также рассмотрим логирование моделей, использование их в разных форматах, упаковку проекта в MLproject и установку удаленного Tracking Server MLflow.

Читать далее
Total votes 12: ↑12 and ↓0+18
Comments4

Из лингвиста в дата-сайентисты: личный опыт и детальный трек

Reading time8 min
Views10K

Освоить новую профессию и начать работать в сфере ИТ сейчас хотят многие. Моя история доказывает, что переквалифицироваться реально, хотя и очень сложно. Расскажу о своем входе в сферу Data Science с несколько нестандартной исходной точки. Шесть лет учёбы филологии, преподавания языков и разработки игр привели к тому, что к тридцати годам я поняла, что хочу всё поменять, и отныне моё призвание – Data Science. В этой статье в блоге ЛАНИТ - подробно о том, какой путь мне пришлось пройти и чему я училась на каждом из этапов. Все пароли-явки курсов и полезных учебных материалов вы найдете под катом. 

Читать далее
Total votes 40: ↑38 and ↓2+45
Comments4

Пошаговое руководство по созданию синтетических данных в Python

Level of difficultyEasy
Reading time7 min
Views4.5K

Простое руководство для новичков: как самому генерировать данные для анализа и тестирования

Представьте: вы только что написали модель машинного обучения и вам нужно протестировать её работу в конкретном сценарии. Или вы собираетесь опубликовать научную статью о пользовательском решении в области Data Science, но имеющиеся датасеты нельзя использовать из-за юридических ограничений. А может быть, в рамках проекта машинного обучения вы занимаетесь отладкой и исправлением ошибок и вам нужны данные, чтобы идентифицировать и устранить проблемы.

В этих, да и во многих других ситуациях могут пригодиться синтетические данные. Реальные данные часто недоступны: уже кому-то принадлежат или дорого стоят. Так что умение создавать синтетические данные — важный навык для дата-сайентистов.

В этой статье я расскажу, с помощью каких приёмов и методов можно с нуля создать в Python синтетические данные, игрушечные датасеты и фиктивные значения. В некоторых решениях применяются методы из библиотек Python, в других — приёмы, основанные на встроенных функциях Python.

Читать далее
Total votes 11: ↑11 and ↓0+14
Comments2

Кратко про low-code библиотеку для ML Pycaret

Level of difficultyEasy
Reading time5 min
Views1.7K

Привет, Хабр!

PyCaret — это open-source библиотека, которая предлагает low-code подход к созданию, обучению и внедрению моделей ML. Она позволяет провести весь процесс — от подготовки данных до развертывания модели в продакшн — всего за несколько строк кода.

Читать далее
Total votes 5: ↑5 and ↓0+10
Comments1

Топ 5 продвинутых инструментов Data Science. Изучи за выходные и будешь выделяться

Level of difficultyMedium
Reading time10 min
Views15K

Привет, чемпионы! Сегодня рассмотрим, как облегчить себе жизнь, применяя 5 инструментов в своих проектах. Эти инструменты улучшат ваш код, сделают ваш pipeline более стабильным и позволят не писать один код по 10 раз. Круто? Погнали!

Изучать новое!
Total votes 13: ↑11 and ↓2+13
Comments14

Вы нас просили и мы сделали. VPN на собственном сервере с XRay Reality за 5 минут с помощью Amnezia

Reading time4 min
Views183K

Всем привет! Это команда Amnezia. 

Мы читаем комментарии под нашими постами и знаем, что один из самых частых вопросов – когда будет XRay? Так вот, мы добавили XRay в приложение AmneziaVPN, а точнее протокол Reality от XRay для всех платформ -  IOS, Android, Windows, Linux и MacOS. Если у вас еще нет последнего релиза, скорее скачивайте и создавайте VPN на собственном сервере в пару кликов с одним из самых защищенных и быстрых протоколов в мире, ниже мы немного о нем расскажем, а в конце статьи будет пошаговая  инструкция как это сделать.

Почему XRay Reality так популярен ?

Все дело в том, что Reality подходит для стран с самым высоким уровнем интернет-цензуры, сейчас его используют в Китае и Иране, он защищен от детектирования методами active probing. 

Распознать цензоров REALITY может еще на этапе TLS-хендшейка. Если REALITY видит, что к нему приходит его клиент, то сервер запускает для него VPN туннель, а если приходит любой другой запрос на 443 порт, то TLS-подключение передается на какой-нибудь другой реальный сайт, например, google.com, где цензор получит настоящий TLS-сертификат от google.com и вообще все настоящие данные с этого сайта.

Со стороны систем анализа трафика это выглядит как подключение к настоящему сайту, сервер отдает настоящий TLS-сертификат этого сайта, и вообще все (включая TLS fingerprint сервера) выглядит очень по-настоящему и не вызывает подозрений. 

Особенно приятно, что при этом производительность REALITY и скорость подключения у протокола действительно хороши, в сравнении, например, со связкой OpenVPN over Cloak.

Читать далее
Total votes 151: ↑147 and ↓4+166
Comments138

Создание меню/кнопок в pyTelegramBotAPI на основе SQL запроса

Reading time5 min
Views4.4K

В данной статье планирую поделиться с вами своей наработкой, которая позволяет создавать меню и кнопки вашего Telegram бота на основе данных хранящихся в БД.

Реализовывать все это будем на Python и нам потребуются библиотеки.

Читать далее
Total votes 7: ↑5 and ↓2+5
Comments4

Как работать со смещениями онлайн-панелей: методы и ML-алгоритмы коррекции

Reading time6 min
Views5.9K

Если вы проводите панельные исследования, то обязательно столкнетесь с одним из главных вызовов – набрать выборку достаточного размера, которая будет достоверно отражать важные для исследования параметры генеральной совокупности. Набрать большую и качественную, а значит несмещенную выборку с применением оффлайн-рекрутмента дорого и проблематично. Однако существует альтернативный вариант – это онлайн-рекрутмент, который давно зарекомендовал себя как максимально быстрый, простой и дешевый способ привлечь респондентов для различных исследований. В то же время выборки, набранные в интернете, являются неслучайными и, как правило, искажены по ряду параметров, даже если процедура рекрутирования была хорошо  спланирована.  В этой статье мы расскажем о методе  Propensity Score Adjustment, который применили для коррекции смещений и улучшения данных, полученных на онлайн-панелях. Этот алгоритм помогает калибровать (уточнять) вклад респондентов, набранных в панель онлайн.

Читать
Total votes 2: ↑2 and ↓0+2
Comments0

Как подготовить будущих аналитиков данных и ML-специалистов к реальным бизнес-задачам

Level of difficultyEasy
Reading time6 min
Views6.5K

Будущие аналитики данных, BI-аналитики, ML-разработчики и Data Scientists используют готовые датасеты для выполнения студенческих заданий, чтобы научиться понимать принципы обработки данных, искать и валидировать гипотезы, строить предсказательные модели. 

Однако задачи, которые решают студенты, часто недостаточно полезны как для них самих, так и для владельцев данных. Студенты не получают опыт решения практических задач, а также понимания, что результат их работы может быть полезен для бизнеса. В статье разбираюсь, почему так происходит и как получить опыт, который пригодится в работе.

Читать далее
Total votes 26: ↑25 and ↓1+26
Comments10

Валидация моделей машинного обучения

Reading time14 min
Views30K

Всем привет!

На связи команда Advanced Analytics GlowByte и сегодня мы разберем валидацию моделей. 
Иногда термин «валидация» ассоциируется с вычислением одной точечной статистической метрики (например, ROC AUC) на отложенной выборке данных. Однако такой подход может привести к ряду ошибок.

В статье разберем, о каких ошибках идет речь, подробнее рассмотрим процесс валидации и дадим ответы на вопросы:

  1. на каком этапе жизненного цикла модели проводится валидация? Спойлер: это происходит больше одного раза;
  2. какие метрики обычно применяются при валидации и с какой целью?
  3. почему важно использовать не только количественные, но и качественные метрики?

Примеры в статье будут из финансового сектора. Финансовый сектор отличается от других областей (больше предписаний со стороны регулятора — Центрального банка), но в то же время в секторе большой опыт применения моделирования для решения бизнес-задач и есть широкий спектр опробованных на практике тестов по валидации моделей. Поэтому статья будет интересна как тем, кто работает в ритейле, телекоме, промышленности, так и специалистам любой другой сферы, где применяются модели машинного обучения.
Читать дальше →
Total votes 3: ↑2 and ↓1+1
Comments1

Как справиться с нехваткой открытых данных для обучения и тестирования ML-моделей

Reading time7 min
Views4.5K


Привет! Меня зовут Илларион, я аспирант ИТМО и член команды, которая занимается предсказанием временных рядов, порожденных графовыми структурами, и другими исследованиями. Однако в разработке новых методов для прогнозирования есть существенное препятствие — нехватка открытых данных для обучения и тестирования моделей.


Для решения проблемы мы создали открытый инструмент Time Series Generator. Я рассказал о нем на митапе, посвященном open source-разработке для научных задач. Под катом делюсь особенностями разработанного решения и рассматриваю реализуемые им задачи.

Читать дальше →
Total votes 30: ↑29 and ↓1+38
Comments5

Работа с YOLOV8. Детекция, сегментация, трекинг объектов, а также подготовка собственного датасета и обучение

Level of difficultyMedium
Reading time26 min
Views13K

Если вам кажется, что начать работу с нейросетями - это сложно, то этот материал для вас!

В статье подробно, с примерами кода, разберем основные функции базовой модели YOLOV8 - детекция, сегментация, трекинг объектов, а также создание собственного датасета и дообучение нейросети для работы с собственными объектами!

Читать далее
Total votes 15: ↑15 and ↓0+19
Comments6

Как хостить телеграм-бота (и другие скрипты на Python) на Repl.it бесплатно 24/7

Reading time3 min
Views140K

Очень часто возникающий вопрос: где можно разместить скрипты на Python, Flask-приложение, телеграм или дискорд ботов?

Один из вариантов — на своем компьютере при наличии внешнего IP-адреса и опыта в настройке проброса портов на роутере.

Цель этот статьи - подробная инструкция, как сделать хостинг Python-скриптов бесплатно и доступным 24/7 на примере телеграм-бота

Читать далее
Total votes 18: ↑17 and ↓1+17
Comments45

Information

Rating
Does not participate
Registered
Activity