Едва ли не у каждого из нас случались в жизни периоды, когда нужно было быстро обучаться чему-то новому. Будь-то адаптация на новом рабочем месте, купленный интенсив или желание выйти на бюджет в универе или получить премию. Ниже приведен гайд по базовым инструментам, которые помогают улучшить обучение.
User
Регулярные выражения простыми словами. Часть 1
Разработчики делятся на два типа: тех, кто уже понимает регулярные выражения и порой решает сложные задачи одной строкой, и тех, кто все еще боится и всячески их избегает. Эта статья специально для вторых, чтобы им было проще стать первыми. Она либо поможет преодолеть «регекспофобию», либо усугубит ее. В любом случае, добро пожаловать под кат.
Машинное обучение и криптография: знакомимся с CipherGAN
Машинное обучение в большей или меньшей степени сейчас используется в различных отраслях. Не стало исключением и направление криптографического анализа. В этой статье мы рассмотрим генеративно‑состязательную сеть CipherGAN, используемую для определения базового шифровального отображения по банкам непарного зашифрованного текста и открытого текста.
Как мотивировать себя на правильные вещи
Мотивационных советов можно дать миллион. Но обычно они упираются в то, что себя нужно заставить как-то сделать первый шаг - перейти на новые принципы тайм-менеджмента, заняться спортом или перестать есть на ночь. Летом где-то между отпусками мы в Максилекте собрались, чтобы обсудить, как именно мы делаем этот первый шаг.
Надо отметить, что у опытных удаленщиков с самодисциплиной и мотивацией все хорошо. Но даже у нас бывают временные кризисы. В этой статье - о том, что мы с коллегами предпринимаем, когда “само не получается” и нужно все-таки заставить себя заниматься правильными вещами.
Простой мини-чат на FastApi: Современный интерфейс, вебсокеты и SQLAlchemy с деплоем
Привет, друзья! Сегодня я подготовил для вас увлекательную практическую статью о создании мини-чата на FastApi. Мы погрузимся в мир вебсокетов, узнаем, зачем они нужны и как применяются в реальных приложениях. Также я продемонстрирую работу с асинхронной SQLAlchemy на примере взаимодействия с базой данных SQLite.
Для создания современного интерфейса мы обратимся к интересному и бесплатному сервису Websim.ai, который за пару минут сгенерирует нам интерфейс, включая страничку для входа/регистрации и страницу самого чата.
Чтобы наш чат мог обслуживать множество пользователей одновременно, мы выполним деплой нашего FastApi приложения. Для этого воспользуемся сервисом Amvera Cloud. Нам нужно будет подготовить файлы приложения, написать код, создать файл с настройками (можно сгенерировать на сайте или скопировать мой код), а затем доставить файлы на сервис. Для доставки можно использовать встроенный терминал или GIT, используя стандартные команды PUSH/PULL.
Но прежде чем мы погрузимся в код, давайте кратко обсудим, что такое вебсокеты и как они работают в контексте FastApi.
Введение в Weight & Biases
В практике любого инженера машинного обучения обязательно присутствует инструмент для управления жизненным циклом машинного обучения: отслеживание экспериментов, управление и деплой моделей и проектов. В этой статье я кратко расскажу о таком инструменте компании Weight & Biases, незаслуженно обойденным вниманием на просторах рускоязычного пространства.
Работа в современных реалиях требуют быстрой разработки и оценки моделей. Существует множество компонентов: изучение обучающих данных, обучение различных моделей, объединение обученных моделей в различные комбинации (ансамблирование) и т. д.
Много компонентов = много мест, где можно ошибиться = много времени, потраченного на отладку. Вы можете упустить важные детали, и вам придется заново обучать модель, или вы можете обучиться на неправильных данных (утечка информации). Или вы можете использовать неправильную модель для генерации представления.
Именно здесь на помощь приходит W&B.
Введение в MLflow
MLflow - это инструмент для управления жизненным циклом машинного обучения: отслеживание экспериментов, управление и деплой моделей и проектов. В этом руководстве мы посмотрим, как организовать эксперименты и запуски, оптимизировать гиперпараметры с помощью optuna, сравнивать модели и выбирать лучшие параметры. Также рассмотрим логирование моделей, использование их в разных форматах, упаковку проекта в MLproject и установку удаленного Tracking Server MLflow.
Из лингвиста в дата-сайентисты: личный опыт и детальный трек
Освоить новую профессию и начать работать в сфере ИТ сейчас хотят многие. Моя история доказывает, что переквалифицироваться реально, хотя и очень сложно. Расскажу о своем входе в сферу Data Science с несколько нестандартной исходной точки. Шесть лет учёбы филологии, преподавания языков и разработки игр привели к тому, что к тридцати годам я поняла, что хочу всё поменять, и отныне моё призвание – Data Science. В этой статье в блоге ЛАНИТ - подробно о том, какой путь мне пришлось пройти и чему я училась на каждом из этапов. Все пароли-явки курсов и полезных учебных материалов вы найдете под катом.
Пошаговое руководство по созданию синтетических данных в Python
Простое руководство для новичков: как самому генерировать данные для анализа и тестирования
Представьте: вы только что написали модель машинного обучения и вам нужно протестировать её работу в конкретном сценарии. Или вы собираетесь опубликовать научную статью о пользовательском решении в области Data Science, но имеющиеся датасеты нельзя использовать из-за юридических ограничений. А может быть, в рамках проекта машинного обучения вы занимаетесь отладкой и исправлением ошибок и вам нужны данные, чтобы идентифицировать и устранить проблемы.
В этих, да и во многих других ситуациях могут пригодиться синтетические данные. Реальные данные часто недоступны: уже кому-то принадлежат или дорого стоят. Так что умение создавать синтетические данные — важный навык для дата-сайентистов.
В этой статье я расскажу, с помощью каких приёмов и методов можно с нуля создать в Python синтетические данные, игрушечные датасеты и фиктивные значения. В некоторых решениях применяются методы из библиотек Python, в других — приёмы, основанные на встроенных функциях Python.
Кратко про low-code библиотеку для ML Pycaret
Привет, Хабр!
PyCaret — это open-source библиотека, которая предлагает low-code подход к созданию, обучению и внедрению моделей ML. Она позволяет провести весь процесс — от подготовки данных до развертывания модели в продакшн — всего за несколько строк кода.
Топ 5 продвинутых инструментов Data Science. Изучи за выходные и будешь выделяться
Привет, чемпионы! Сегодня рассмотрим, как облегчить себе жизнь, применяя 5 инструментов в своих проектах. Эти инструменты улучшат ваш код, сделают ваш pipeline более стабильным и позволят не писать один код по 10 раз. Круто? Погнали!
Вы нас просили и мы сделали. VPN на собственном сервере с XRay Reality за 5 минут с помощью Amnezia
Всем привет! Это команда Amnezia.
Мы читаем комментарии под нашими постами и знаем, что один из самых частых вопросов – когда будет XRay? Так вот, мы добавили XRay в приложение AmneziaVPN, а точнее протокол Reality от XRay для всех платформ - IOS, Android, Windows, Linux и MacOS. Если у вас еще нет последнего релиза, скорее скачивайте и создавайте VPN на собственном сервере в пару кликов с одним из самых защищенных и быстрых протоколов в мире, ниже мы немного о нем расскажем, а в конце статьи будет пошаговая инструкция как это сделать.
Почему XRay Reality так популярен ?
Все дело в том, что Reality подходит для стран с самым высоким уровнем интернет-цензуры, сейчас его используют в Китае и Иране, он защищен от детектирования методами active probing.
Распознать цензоров REALITY может еще на этапе TLS-хендшейка. Если REALITY видит, что к нему приходит его клиент, то сервер запускает для него VPN туннель, а если приходит любой другой запрос на 443 порт, то TLS-подключение передается на какой-нибудь другой реальный сайт, например, google.com, где цензор получит настоящий TLS-сертификат от google.com и вообще все настоящие данные с этого сайта.
Со стороны систем анализа трафика это выглядит как подключение к настоящему сайту, сервер отдает настоящий TLS-сертификат этого сайта, и вообще все (включая TLS fingerprint сервера) выглядит очень по-настоящему и не вызывает подозрений.
Особенно приятно, что при этом производительность REALITY и скорость подключения у протокола действительно хороши, в сравнении, например, со связкой OpenVPN over Cloak.
Создание меню/кнопок в pyTelegramBotAPI на основе SQL запроса
В данной статье планирую поделиться с вами своей наработкой, которая позволяет создавать меню и кнопки вашего Telegram бота на основе данных хранящихся в БД.
Реализовывать все это будем на Python и нам потребуются библиотеки.
Как работать со смещениями онлайн-панелей: методы и ML-алгоритмы коррекции
Если вы проводите панельные исследования, то обязательно столкнетесь с одним из главных вызовов – набрать выборку достаточного размера, которая будет достоверно отражать важные для исследования параметры генеральной совокупности. Набрать большую и качественную, а значит несмещенную выборку с применением оффлайн-рекрутмента дорого и проблематично. Однако существует альтернативный вариант – это онлайн-рекрутмент, который давно зарекомендовал себя как максимально быстрый, простой и дешевый способ привлечь респондентов для различных исследований. В то же время выборки, набранные в интернете, являются неслучайными и, как правило, искажены по ряду параметров, даже если процедура рекрутирования была хорошо спланирована. В этой статье мы расскажем о методе Propensity Score Adjustment, который применили для коррекции смещений и улучшения данных, полученных на онлайн-панелях. Этот алгоритм помогает калибровать (уточнять) вклад респондентов, набранных в панель онлайн.
Как подготовить будущих аналитиков данных и ML-специалистов к реальным бизнес-задачам
Будущие аналитики данных, BI-аналитики, ML-разработчики и Data Scientists используют готовые датасеты для выполнения студенческих заданий, чтобы научиться понимать принципы обработки данных, искать и валидировать гипотезы, строить предсказательные модели.
Однако задачи, которые решают студенты, часто недостаточно полезны как для них самих, так и для владельцев данных. Студенты не получают опыт решения практических задач, а также понимания, что результат их работы может быть полезен для бизнеса. В статье разбираюсь, почему так происходит и как получить опыт, который пригодится в работе.
Валидация моделей машинного обучения
Всем привет!
На связи команда Advanced Analytics GlowByte и сегодня мы разберем валидацию моделей.
Иногда термин «валидация» ассоциируется с вычислением одной точечной статистической метрики (например, ROC AUC) на отложенной выборке данных. Однако такой подход может привести к ряду ошибок.
В статье разберем, о каких ошибках идет речь, подробнее рассмотрим процесс валидации и дадим ответы на вопросы:
- на каком этапе жизненного цикла модели проводится валидация? Спойлер: это происходит больше одного раза;
- какие метрики обычно применяются при валидации и с какой целью?
- почему важно использовать не только количественные, но и качественные метрики?
Примеры в статье будут из финансового сектора. Финансовый сектор отличается от других областей (больше предписаний со стороны регулятора — Центрального банка), но в то же время в секторе большой опыт применения моделирования для решения бизнес-задач и есть широкий спектр опробованных на практике тестов по валидации моделей. Поэтому статья будет интересна как тем, кто работает в ритейле, телекоме, промышленности, так и специалистам любой другой сферы, где применяются модели машинного обучения.
Как справиться с нехваткой открытых данных для обучения и тестирования ML-моделей
Привет! Меня зовут Илларион, я аспирант ИТМО и член команды, которая занимается предсказанием временных рядов, порожденных графовыми структурами, и другими исследованиями. Однако в разработке новых методов для прогнозирования есть существенное препятствие — нехватка открытых данных для обучения и тестирования моделей.
Для решения проблемы мы создали открытый инструмент Time Series Generator. Я рассказал о нем на митапе, посвященном open source-разработке для научных задач. Под катом делюсь особенностями разработанного решения и рассматриваю реализуемые им задачи.
Работа с YOLOV8. Детекция, сегментация, трекинг объектов, а также подготовка собственного датасета и обучение
Если вам кажется, что начать работу с нейросетями - это сложно, то этот материал для вас!
В статье подробно, с примерами кода, разберем основные функции базовой модели YOLOV8 - детекция, сегментация, трекинг объектов, а также создание собственного датасета и дообучение нейросети для работы с собственными объектами!
Как хостить телеграм-бота (и другие скрипты на Python) на Repl.it бесплатно 24/7
Очень часто возникающий вопрос: где можно разместить скрипты на Python, Flask-приложение, телеграм или дискорд ботов?
Один из вариантов — на своем компьютере при наличии внешнего IP-адреса и опыта в настройке проброса портов на роутере.
Цель этот статьи - подробная инструкция, как сделать хостинг Python-скриптов бесплатно и доступным 24/7 на примере телеграм-бота
Нормально разбираемся в Нормальном распределении
Интуитивное понимание Нормального распределения
Information
- Rating
- Does not participate
- Registered
- Activity