Articles / Bookmarks / Profile of resetme / Habr

@resetme^{read⁠-⁠only}

Скромный пастух нулей и единиц…

ProfileComments196Bookmarks884

badcasedaily1 Sep 14 2023 at 10:16

Архитектура высоконагруженных телеграм-ботов на Python

Medium

22 min

39K

OTUS corporate blogPython*System Analysis and Design*Programming*

Review

Приветствую всех читателей Otus! Телеграм-боты стали незаменимым инструментом для автоматизации коммуникации, обработки данных и предоставления пользовательских услуг. Они не только сокращают нагрузку на живых операторов и повышают эффективность бизнес-процессов, но и дарят удивительные возможности для создания уникальных интерактивных продуктов.

Мессенджеры стали нашими неотъемлемыми спутниками, а их потенциал не ограничивается простым обменом сообщениями. Боты обеспечивают автоматические решения задач, которые ранее требовали участия человека. Они работают как виртуальные ассистенты, способные отвечать на вопросы, предоставлять информацию, обрабатывать заказы, делать рекомендации и многое другое.

Читать дальше →

+15

avbykov Sep 21 2023 at 06:39

Анализируем домен компании с помощью OSINT

6 min

11K

Nubes corporate blogInformation Security*IT Infrastructure*Domain names administrating*DNS*

✏️ Technotext 2023

В начале сентября мы перенесли облако NGcloud на новый домен. Перед миграцией проанализировали домен с помощью инструментов OSINT. Зачем? Потому что из сведений о домене хакеры могут добыть массу информации: начиная от данных владельца и заканчивая внутренними документами компании. В этой статье собрали все шаги и бесплатные OSINT-инструменты, которые помогут определить: какая информация о вашей компании есть в открытом доступе, как ее могут использовать злоумышленники и что можете сделать вы, чтобы предотвратить потенциальную атаку.

okolonasty Sep 20 2023 at 13:13

Как увеличить мощность A/B-теста, если мало данных и время поджимает

6 min

6.5K

Dodo Engineering corporate blogMobile App Analytics*Statistics in IT

Case

Привет, меня зовут Настя, я продуктовый аналитик в Dodo. Недавно мы провели A/B-тест по запросу геолокации у пользователей. Когда я приступила к анализу, то с ужасом обнаружила, что данных — кот наплакал, а бизнес уже очень ждёт результатов. Тогда мне пришлось пустить в ход свои «секретные техники» A/B-тестирования.

В этой статье расскажу, как мне удалось увеличить выборку без загадочного бутстрапа, причём тут раскатка и почему отсутствие результата — тоже результат. Статья может быть интересна как аналитикам и продакт оунерам, так и всем неравнодушным, интересующимся A/B-тестированием.

Погнали!

+17

alizar Feb 27 2023 at 09:00

Безграничные возможности FFmpeg на примерах

Easy

12 min

72K

RUVDS.com corporate blogOpen source*Video equipmentWorking with video*Software

FFmpeg — швейцарский нож для мультимедиа. Совершенно незаменимая программа, которую использует в повседневной жизни почти каждый, даже не зная об этом. Например, вы сняли видео и заливаете на видеохостинг — оно перекодируется и публикуется уже в другом разрешении/формате/размере. Как вы думаете, какая программа выполнила транскодирование? Вполне возможно, что под капотом на сервере работает FFmpeg.

FFmpeg объединяет более 300 видео/аудио/графических кодеков, декордеров, муксеров, демуксеров и фильтров. Благодаря ему вы можете написать собственный видеоплеер в тысячу строчек кода, не разбираясь с кишочками видеообработки.

Это «движок» почти всех современных инструментов для обработки/сжатия/редактирования видео. Они просто предлагают графический интерфейс с кнопками, а ffmpeg делает реальную работу.

Читать дальше →

+127

Mark_K Apr 18 2023 at 05:37

LangСhain: создаем свой AI в несколько строк

Medium

6 min

71K

Machine learning*Artificial Intelligence

Tutorial

В этой данной статье познакомимся с LangChain, перспективным фреймворком для работы с языковыми моделями. С его помощью можно создать свой собственный аналог ChatGPT всего в несколько строк кода. Благодаря модульной структуре, LangChain позволяет быстро и легко разрабатывать AI приложения различной сложности.

+13

badcasedaily1 Sep 18 2023 at 13:16

SymPy и симуляция физических процессов

Easy

11 min

14K

OTUS corporate blogPython*Programming*

Review

Физические процессы окружают нас повсюду, и понимание их характеристик и поведения имеет огромное значение в различных областях науки и инженерии. От прогнозирования погоды до разработки новых технологий, симуляция физических процессов позволяет нам лучше понять и контролировать мир вокруг нас. Важность этого инструмента нельзя недооценивать, и он становится все более востребованным в наши дни.

SymPy — это Python библиотека для символьных математических вычислений, которая предоставляет мощные инструменты для работы с символьными выражениями, уравнениями и системами уравнений. Она позволяет разработчикам и исследователям создавать и анализировать модели физических систем с высокой степенью точности и гибкости.

Читать дальше →

CatWithBlueHat Sep 16 2023 at 08:35

Как стать гуру или WiFi Cheat Sheet

Medium

21 min

52K

Information Security*Wireless technologies*

From sandbox

А что мы знаем про пентест Wi-Fi?

Кажется, что уже всё, но вот на offzone 2023 была представлена атака WPA‑E (Надеюсь, в скором времени выложат запись и pdf) и я задумался, а так ли всё хорошо с моими знаниями... Нет, я всё с концами оставил на старых ЖД и где‑то далеко в памяти, пришлось восстанавливать по крупицам всю информацию. Заметки, время и старания — главное составляющее статьи.

Этот документ больше похож на чек‑лист для самопроверки и может содержать полезные советы и хитрости, за основу я взял структуру «WiFi Penetration Testing Cheat Sheet». Я очень благодарен автору, но он забросил вести данную шпаргалку и многие вещи устарели.

Все было протестировано на Kali Linux v2023.1 (64-битной версии), а также проработано на реальном опыте проведения тестирования на проникновение Wi‑Fi и в лабораторных условиях.

Пора ознакомиться

+35

nikolay_frants Sep 16 2023 at 16:43

Разбираемся в отличии среднего чека от ARPU на примере одного интернет-магазина

Medium

10 min

8.1K

Python*Big Data*Data visualization*

Ко мне обратился коллега с вопросами про бизнес-метрики – средний чек и ARPU.

В этой статье я разобрался в бизнес-метриках и ответил на вопросы:

- Что такое ARPU и средний чек? Как их рассчитывать? На какие вопросы они отвечают и для чего нужны?

- Могут ли они ARPU и средний чек быть равны между собой? Будут ли отличаться в динамике месяц от месяца?

- Что если в бизнесе кол-во продуктов фиксировано и все они с одинаковой ценой? Будет ли показатель от месяца к месяцу одинаков? А если рассчитывать среднюю выручку?

А для наглядности – рассчитал данные метрики на реальных данных интернет-магазина.

CodeDroidX Sep 12 2023 at 13:00

Визуальное RPG с долговременной памятью, генерируемое из 3 нейросетей и LLamы

Easy

17 min

18K

RUVDS.com corporate blogMachine learning*Artificial IntelligencePython*Natural Language Processing*

Tutorial

Языковые модели (NLP) сейчас активно развиваются и находят себе всё больше интересных применений. Начиналась же их эпоха с классики жанра — D&D. Это настольная игра, где несколько друзей или просто знакомых синхронно галлюцинируют, представляя себя командой героев в некоем вымышленном мире. Прав же во внутриигровых выборах тот, кто выкинул большее число на игральной кости. Судить сейчас об их мотивации у меня нет никакого желания, да и статья вообще-то не об этом.

Важно только понимать, что движущей силой сюжета в их сессиях является лишь один из игроков, называемый Dungeon Master. Когда только начали появляться первые GPT-модели, одной из первых хотелок гиков оказалось желание сварить из нейросетей автоматического Dungeon Masterа.

Так и появился AIDungeon — уникальная для своего времени (2019 год) вещь, которая не сильно потеряла в популярности и по сей день. Однако, если вы любите смотреть глубже, то играть в него вам быстро надоест. Я же в своей серии из нескольких статей (посвящённых GPT) стараюсь показать простому обывателю механизм безболезненного использования нейросетевых моделей в простых проектах при помощи Python и Hugging Face Transformers.

Приступим

+64

GolovinDS Sep 12 2023 at 14:22

Моделирование биологических явлений с помощью Python

Medium

15 min

9.2K

OTUS corporate blogData visualization*BiologyPython*Programming*

Opinion

Автор статьи: Артем Михайлов

Моделирование биологических явлений позволяет нам лучше понимать и прогнозировать поведение живых систем, начиная от популяционных динамик до молекулярных взаимодействий. Биологические явления нередко слишком сложны, чтобы быть полностью понятыми на интуитивном уровне, и моделирование предоставляет нам мощный инструмент для их анализа.

Моделирование биологических систем позволяет ученым исследовать разнообразные аспекты биологии, такие как динамику популяций, структуру генных сетей, взаимодействие молекул внутри клеток и многое другое. Это полезно не только в фундаментальных исследованиях, но и в практических областях, таких как медицина, сельское хозяйство и экология.

Читать дальше →

+12

badcasedaily1 Sep 11 2023 at 09:49

Геоаналитика на Python

Easy

10 min

9.8K

OTUS corporate blogPython*Geoinformation services*

Review

Геоаналитика и пространственный анализ — это мощные инструменты, которые позволяют бизнесам принимать более обоснованные решения на основе пространственных данных и информации о местоположении. Геоаналитика связана с сбором, хранением, обработкой и визуализацией данных, связанных с географическими объектами и явлениями. Пространственный анализ, с другой стороны, фокусируется на изучении взаимосвязей и паттернов в пространстве для выявления возможных тенденций и аномалий.

Современный мир насыщен данными, и геоаналитика является ключевым инструментом для бизнесов, желающих оставаться конкурентоспособными и адаптироваться к изменяющимся условиям рынка.

Читать дальше →

ru_vds Sep 11 2023 at 13:00

Как выработать интуитивное понимание логарифмов

Hard

14 min

42K

RUVDS.com corporate blogMathematics*BrainPopular science

Tutorial

Translation

Я восхищаюсь способностью некоторых людей вычислять логарифмические функции в голове. Мне логарифмы всегда казались «чёрным ящиком», который невозможно познать. Они являются фундаментальным строительным блоком математики, однако каждый раз, когда я вижу логарифмическое выражение, то сразу хватаюсь за калькулятор, а не решаю его вручную. Последние полгода я уделял время совершенствованию понимания логарифмов и учился вычислять результаты логарифмических уравнений вручную. В статье я расскажу, как я это делал.

Зачем этому учиться?

Для меня способность вычисления логарифмов от руки — крайне нужный навык. Количество концепций, которые мы храним в рабочей памяти, ограничено, поэтому логично будет освоить максимально много концептуальных строительных блоков. Развив в себе хорошее интуитивное понимание логарифмических выражений, вы будете ощущать себя бесконечно увереннее в работе с уравнениями, включающими в себя логарифмы, и сможете справляться с уровнем сложности, который раньше считали немыслимым. А ещё они будут меньше пугать или отвлекать вас, когда встретятся в каком-то другом контексте.

Читать дальше →

+72

Takagi Sep 7 2023 at 09:11

Как (быстро) сделать русский локальный ChatGPT

Medium

7 min

49K

Programming*Machine learning*Artificial IntelligenceNatural Language Processing*

Retrospective

Эта история началась в начале марта этого года. ChatGPT тогда был в самом расцвете. Мне в Telegram пришёл Саша Кукушкин, с которым мы знакомы довольно давно. Спросил, не занимаемся ли мы с Сашей Николичем языковыми моделями для русского языка, и как можно нам помочь.

И так вышло, что мы действительно занимались, я пытался собрать набор данных для обучения нормальной базовой модели, rulm, а Саша экспериментировал с существующими русскими базовыми моделями и кустарными инструктивными наборами данных.

После этого мы какое-то время продолжали какое-то время делать всё то же самое. Я потихоньку по инерции расширял rulm новыми наборами данных. Посчитав, что обучить базовую модель нам в ближайшее время не светит, мы решили сосредоточиться на дообучении на инструкциях и почти начали конвертировать то, что есть, в формат инструкций по аналогии с Flan. И тут меня угораздило внимательно перечитать статью.

+88

mogwai87 Sep 6 2023 at 09:00

Переносим пользователей из AD в FreeIPA

3 min

13K

PowerShell*System administration*

From sandbox

В связи с уходом Microsoft из России у многих возник вопрос о переносе службы каталогов на open-source или решения из реестра отечественного ПО. Одним из доступных решений является FreeIPA. Проект живет при поддержке RedHat и доступен в репозиториях отечественных операционных систем.

В этой статье мы рассмотрим перенос учетных записей с нужными нам атрибутами из Active Directory в FreeIPA 4.10.1. В качестве инструмента мы будем использовать Microsoft PowerShell.

Читать целиком

Nikolay_nc Sep 2 2023 at 07:46

Пережевывая Матрицу Несоответствий — Confusion Matrix

Easy

7 min

20K

Machine learning*Statistics in ITInterview

From sandbox

Понятие Confusion Matrix является довольно простым в объяснении, но при этом начинающим Data Scientist-специалистам бывает порой нелегко разобраться в отношениях True Positive (TP), False Positive (FP), True Negative (TN), False Negative (FN) — кирпичиками, составляющими данную матрицу. Цель этой статьи познакомить читателя с альтернативным представлением Матрицы Ошибок. Данный способ, по мнению автора, является наиболее наивным методом графического восприятия самой Матрицы Несоответствий, не предполагающий запоминания самой таблицы матрицы. Данный подход позволит легко ориентироваться в выводах, основанных на комбинации элементов Confusion Matrix, глубже понять проблему дисбаланса классов в задачах классификации.

badcasedaily1 Aug 30 2023 at 10:29

Анализ музыкальных предпочтений с использованием аудиоаналитики на Python

15 min

7.8K

OTUS corporate blogData Mining*Python*Sound

Музыка, неотъемлемая часть человеческой культуры, всегда отражала дух времени. Однако с наступлением цифровой эры и быстрого развития технологий, музыкальная индустрия столкнулась с революцией, которая изменила не только способы создания и распространения музыки, но и сам способ, которым мы взаимодействуем с ней. Сегодня музыкальные платформы и сервисы предоставляют нам огромный выбор композиций, а важную роль в этом процессе играют технологии аудиоаналитики.

Что делает песню хитом? Какие элементы музыки заставляют нас нажимать "пропустить" или добавлять трек в свой плейлист? Ответы на эти вопросы лежат в понимании музыкальных предпочтений слушателей. Анализ этих предпочтений — это не только путь к более точным рекомендациям, но и ключ к пониманию наших эмоциональных реакций на музыку. Именно здесь на сцену выходит аудиоаналитика.

+12

ru_vds Aug 28 2023 at 13:00

Профилирование Python — почему и где тормозит ваш код

Medium

10 min

27K

RUVDS.com corporate blogPython*Data visualization*Debugging*

Tutorial

Translation

Представьте ситуацию: вы написали скрипт для обработки каких-то данных на ноутбуке, ушли попить кофе, а когда пятнадцать минут спустя вернулись, завершилось едва ли 10%.

Почему скрипт работает так медленно? Какая его часть тормозит? Дело в чтении данных, их обработке или сохранении? Как ускорить исполнение? Действительно ли скрипт вообще медленный?

Ответить на все эти вопросы поможет инструмент под названием «профилировщик» (profiler).

Читать дальше →

+66

badcasedaily1 Aug 28 2023 at 09:54

Анализ текстовых данных с использованием тематического моделирования

14 min

14K

OTUS corporate blogPython*System Analysis and Design*

Анализ текстовых данных становится все более важным в наше время, когда огромные объемы информации генерируются и обмениваются каждую секунду. От социальных медиа до новостных порталов, от клиентских отзывов до академических статей — текстовые данные содержат бесценные знания и инсайты. Однако извлечение значимой информации из таких объемов текста может быть огромным вызовом.

Компании хотят понимать общественное мнение о своих продуктах и брендах, но анализировать миллионы постов и комментариев вручную практически невозможно. Вот где анализ текстовых данных и тематическое моделирование приходят на помощь. Эти методы позволяют автоматически выявлять темы, тональность и структуру текста, делая процесс анализа эффективным и масштабируемым.

+10

badcasedaily1 Aug 28 2023 at 14:29

Применение преобразований PCA и t-SNE для снижения размерности данных

11 min

11K

OTUS corporate blogSystem Analysis and Design*

В высокоразмерных данных, одной из ключевых проблем является «проклятие размерности». Большое количество признаков в данных может привести к ухудшению производительности алгоритмов машинного обучения, замедлению вычислений и сложностям в визуализации результатов. В таких сценариях снижение размерности становится критически важным шагом. Оно позволяет уменьшить количество признаков, сохраняя при этом важные характеристики данных.

В этой статье мы рассмотрим методы снижения размерности данных, такие как: «Преобразование главных компонент» (PCA) и "t-SNE" (t-distributed Stochastic Neighbor Embedding). Оба метода обладают своими уникальными характеристиками и предназначены для разных типов данных и задач.

+10

JulliaShulga Aug 26 2023 at 09:30

Создайте свой клон с помощью Fine-tuned LLM

Medium

10 min

20K

Programming*Machine learning*Artificial Intelligence

From sandbox

Translation

Обретите цифрового двойника

Цель этой статьи - показать, как эффективно и с минимальными затратами настроить LLM на пользовательском датасет. Мы рассмотрим использование модели Falcon-7B с адаптерами LoRa, с использованием библиотеки Lit-GPT.

+14

1 2 ...

17 18

20 21 ...

43 44