Articles / Bookmarks / Profile of sunsexsurf / Habr

@sunsexsurf

IT, statistics & guitars

Profile Publications Comments 217Bookmarks 343

alizar Oct 25 2012 at 03:06

Определение доминирующих цветов: Python и метод k-средних

2 min

38K

Python*Algorithms*

^Assorium

На Хабре публиковалось несколько статей с алгоритмами и скриптами для выбора доминирующих цветов на изображении: 1, 2, 3. В комментариях к тем статьям можно найти ссылки ещё на десяток подобных программ и сервисов. Но нет предела совершенству — и почему бы не рассмотреть способ, который кажется самым оптимальным? Речь идёт об использовании кластеризации методом k-средних (k-means).

Читать дальше →

+49

AlanRobotics Dec 13 2023 at 16:10

LLMClone: как клонировать себя в Telegram

8 min

17K

Machine learning*Artificial IntelligenceNatural Language Processing*MTS AI corporate blog

✏️ Technotext 2023

У меня, как и у многих, довольно много чатов в телеграмме. Иногда просто нет времени (а иногда и не хочется) отвечать на некоторые сообщения. Именно так возникла идея создания виртуального клона. В статье рассматривается простая идея, состоящая в том, чтобы зафайнтюнить языковую модель на личных сообщениях, выгруженных из Telegram-чатов. Возможно, в дальнейшем такой клон сможет общаться за вас

+31

bartov-e Dec 2 2023 at 16:23

Краткий обзор техник векторизации в NLP

Easy

21 min

9.3K

Python*Natural Language Processing*

Review

Translation

Как переводчик-редактор, я интересуюсь темой NLP и автоматизации рутины бюро переводов. Изучая вопрос того, как смысл слов превращается в векторы, наткнулся на эту обзорную статью. Статья мне показалась изложенной доступно, поэтому я перевел ее для удобства других коллег. Работоспособность большей части кода проверял, вроде работает (см. Jupiter Notebook). Надеюсь, будет полезно.

===

Технологии NLP — Natural Language Processing, обработки естественного языка — позволяют компьютерам обрабатывать человеческий язык, понимать его значение и контекст, а также связанные с ним эмоциональную окраску и намерения, и далее, использовать эти данные для создания чего-то нового.

Как сделать слова понятными для компьютеров? Используется векторизация. Рассмотрим несколько техник такой векторизации.

+15

NewTechAudit Jul 21 2021 at 11:07

Streamlit. Поиск кратчайшего пути

3 min

24K

Python*Programming*Data visualization*Machine learning*

Самое длинное приключение начинается со слов «Я знаю короткую дорогу».

Интересно о чем это? Читай дальше!

Lunathecat Sep 22 2023 at 12:00

Жирный гитарный дисторшн ProCo RAT

Easy

8 min

6.6K

RUVDS.com corporate blogCircuit design*DIYSoundElectronics for beginners

Retrospective

Привет, Хабр! Знаете, какую педаль перегруза использовали Джеймс Хетфилд и Кирк Хэмметт в дебютном альбоме Металлики «Kill `Em All»? Пользовались ею и Дэвид Гилмор, и Крист Новоселич из группы Нирвана, да и сам Курт Кобейн. И многие другие.

Сегодня мы изучим и соберём педаль, которая успешно продаётся в течение 46 лет. Не только по той причине, что через неё играли знаменитости, но и потому, что она действительно создаёт настоящий классический дисторшн.

И всё-таки, чем дистршн отличается от овердрайва?

+44

badcasedaily1 Sep 22 2023 at 14:42

Как сделать вашего телеграм-бота лучше? Конечно, добавить ему аналитику

Easy

25 min

12K

Instant Messaging*Python*Programming*System Analysis and Design*OTUS corporate blog

Review

В наше время телеграм-боты стали незаменимыми инструментами для множества задач: от автоматизации рутиных операций до обеспечения высококачественного обслуживания клиентов. Успешное использование телеграм-ботов требует не только технической грамотности, но и понимания того, как пользователи взаимодействуют с вашим ботом и как можно улучшить этот процесс.

Аналитика для телеграм-ботов представляет собой ключевой инструмент для понимания того, как пользователи взаимодействуют с вашим ботом, какие запросы они делают, какие функции бота наиболее популярны, и какие моменты требуют оптимизации. Эти данные обеспечивают ценную информацию, которая позволяет вам принимать информированные решения и совершенствовать бота с течением времени.

В этой статье мы рассмотрим как реализовать аналитику для телеграм-бота.

+11

badcasedaily1 Sep 25 2023 at 13:47

9 архитектурных антипаттернов при разработке телеграм-ботов на Python

Easy

17 min

15K

Python*Programming*System Analysis and Design*Designing and refactoring*OTUS corporate blog

Review

Привет, Хабр! Если вас заинтересовал заголовок этой статьи, значит, вас интересует созданием телеграм-ботов, и вы стремитесь к совершенству в этом. Разработка телеграм-ботов требует не только креативности, но и правильной архитектуры. В этой статье мы рассмотрим 9 архитектурных антипаттернов, которые могут стать серьезными преградами на вашем пути к созданию бота.

Для многих начинающих разработчиков создание Телеграм бота может показаться достаточно простой задачей. Однако опытные знают, что успех в этой области зависит от многих факторов, включая архитектуру вашего приложения. Архитектурные решения могут определить, насколько ваш бот будет масштабируемым, надежным и легко поддерживаемым в будущем.

Vsevo10d Mar 18 2019 at 06:44

Как погрешность превращается в грех

7 min

30K

Mathematics*Popular science

Одна городская легенда гласит, что создатель сахарных пакетиков-палочек повесился, узнав, что потребители не разламывают их пополам над чашкой, а аккуратно отрывают кончик. Это, разумеется, не так, но если следовать такой логике, то один британский любитель пива "Гиннесс" по имени Уильям Госсет должен был не просто повеситься, но и своим вращением в гробу уже пробурить Землю до самого центра. А все потому, что его знаковое изобретение, опубликованное под псевдонимом Стьюдент, уже десятки лет используют катастрофически неправильно.

Рисунок выше приведен из книги С. Гланц. Медико-биологическая статистика. Пер. с англ. — М., Практика, 1998. — 459 с. Мне неизвестно, проверял ли кто-нибудь на статистические ошибки расчеты для этой диаграммы. Однако и ряд современных статей по теме, и мой собственный опыт говорят о том, что t-критерий Стьюдента остается самым известным, и оттого — самым популярным в применении, по поводу и без.

Читать дальше →

+64

Physics-for-Humanities May 8 2023 at 15:30

Вход в любительскую астрономию

5 min

14K

После начала работы космической обсерватории «Джеймса Уэбба» астрофотографии вошли в тренды. Самое крутое что сейчас можно запечатлеть находится в космосе. История помнит только два случая, когда умные парни становились популярными. Первый - изобретение кубика Рубика в 1973 году сделало королями дискотеки знатоков теории групп. Второй - астрономы любители покоряют социальные сети прямо сейчас.

Но если вам в детстве не дарили телескопы на каждый день рождения, а заглянуть в тайны космоса хочется, придется выбрать стартовый набор астрофотографа с минимальным порогом вхождения. Рассмотрим четыре варианта начальных наборов юного (по уму) астронома.

+37

rmq Oct 23 2013 at 16:19

Алгоритм Ахо-Корасик

8 min

97K

Programming*C++*Algorithms*

From sandbox

Вступление

В посте я постарался избежать сложных дефиниций и строгих матетематических доказательств, а некоторые вещи вообще понятны интуитивно. Алгоритм удобно разбивается на взаимосвязные части, поэтому и уловить принцип его работы не должно составлять труда.

Начальное описание

Алгоритм Ахо-Корасик реализует эффективный поиск всех вхождений всех строк-образцов в заданную строку. Был разработан в 1975 году Альфредом Ахо и Маргарет Корасик.
Опишем формально условие задачи. На вход поступают несколько строк pattern[i] и строка s. Наша задача — найти все возможные вхождения строк pattern[i] в s.

Суть алгоритма заключена в использование структуры данных — бора и построения по нему конечного детерминированного автомата. Важно помнить, что задача поиска подстроки в строки тривиально реализуется за квадратичное время, поэтому для эффективной работы важно, чтоб все части Ахо-Корасика ассимптотически не превосходили линию относительно длинны строк. Мы вернемся к оценке сложности в конце, а пока поближе посмотрим на составляющие алгоритма.

Читать дальше →

+63

Aleron75 Dec 9 2022 at 14:37

Мое первое серебро на Kaggle или как стабилизировать ML модель и подпрыгнуть на 700 мест вверх

6 min

9.5K

Python*Algorithms*Big Data*Machine learning*Artificial Intelligence

Привет, чемпион!

Летом прошел чемпионат на Kaggle - "American Express - Default Prediction", требовалось предсказывать - выйдет ли пользователь в дефолт или нет. Табличное соревнование в 5К участников с очень плотным лидербордом.

Вот ведь парадокс, все умеют решать табличные соревнования, все знают, что бустинги "стреляют" точнее всех, но почему-то все равно не все могут забраться в топ лидерборда. В чем проблема?! Мы с командой все-таки смогли забрать серебро🥈 и сейчас я расскажу, как можно было выиграть медаль в этом чемпионате.

+14

slivka_83 Dec 9 2022 at 19:23

Введение в библиотеку Transformers и платформу Hugging Face

17 min

48K

Python*Data Mining*Big Data*Machine learning*Artificial Intelligence

Tutorial

Technotext 2022

Библиотека Transformers предоставляет доступ к огромному кол-ву современных предобученных моделей глубокого обучения. В основном основаных на архитектуре трансформеров. Модели решают весьма разнообразный спектр задач: NLP, CV, Audio, Multimodal, Reinforcement Learning, Time Series.

В этой статье пройдемся по основным ее возможностям и попробуем их на практике.

+23

rikki_tikki Nov 3 2022 at 12:20

Методы обнаружения дрейфа данных. Часть 1: Многомерные методы обнаружения дрейфа табличных данных

6 min

1.6K

Machine learning*OTUS corporate blog

Translation

Это первая статья из серии, в которой мы исследуем задачу обнаружения дрейфа данных. Мы разбираем не только, почему это очень важная часть мониторинга моделей, но также обсуждаем методы и подходы, которые следует взять на заметку. В первой части этой серии мы обсуждаем дрейф в контексте табличных данных и описываем одномерные и многомерные методы решения этой задачи. В следующих постах мы рассмотрим неструктурированные данные, такие как изображения и документы, и обсудим, как мы можем построить системы обнаружения дрейфа в этих более сложных данных.

ANazarov Oct 26 2022 at 11:29

Регрессионный анализ в DataScience. Часть 2. Преобразование Бокса-Кокса. Проверка тренда и случайности

51 min

9.4K

Python*Data Mining*Mathematics*Studying in ITStatistics in IT

Tutorial

Обзор построения и анализа линейной регрессионной модели с использованием преобразования Бокса-Кокса

Cloud4Y Oct 24 2022 at 14:31

Прогнозирование качества шампанского с помощью Machine Learning. Опыт Bollinger

6 min

1.9K

Cloud4Y corporate blogMachine learning*Popular scienceArtificial Intelligence

Translation

Привет! Предлагаем немного отвлечься от сложных актуальных тем и поговорить о... шампанском. Точнее, о том, как его совершенствуют с помощью Mashine Learning.

Французский производитель шампанских вин Bollinger использует модель машинного обучения, чтобы предсказать годы хорошего урожая и противостоять проблемам изменения климата.

+25

NewTechAudit Oct 22 2021 at 09:26

Генерация признаков из временных рядов

8 min

11K

Python*Programming*Machine learning*

Заглянуть в будущее

Когда мы хотим рассчитать количество звонков в колл-центр через час, поставить в пятничную смену достаточно курьеров или предсказать потребление электроэнергии небольшим городком через 5 лет, мы обращаемся к теме обработки временных рядов. На тему обработки timeseries (временной ряд, англ.) написано множество статей и создано несчетное количество часов видео. Но попробуйте задать поисковой системе вопрос: как работать с временными рядами. Уверен, вы закопаетесь в многообразии ссылок, похожих по смыслу и содержанию. Однако, ни одна из них не ответит на вопрос полностью. Авторы выдают два или три метода обработки как панацею от всех проблем в работе со временем.

Мы попробуем собрать в одной статье все классические и современные методы обработки даты и времени.

Разберем случай, когда в нашем распоряжении имеются только даты с количеством завершенных событий. В ежедневных задачах прогнозирования мы можем подгрузить дополнительные данные или иметь в своем распоряжении сразу несколько показателей для временного периода. Мы же будем извлекать максимум данных из даты и единичного значения целевого события.

TL:DR

Основная цель статьи – создание новых признаков из временных периодов для решения бизнес-задач. Информация будет полезна новичкам и специалистам, которые редко работают со временными рядами. К тексту прилагается заметка на kaggle. Вы можете изучать статью и одновременно выполнять код. Мы не будем строить графики и рассматривать особенности временных рядов.

Ничего личного – просто бизнес

NewTechAudit Feb 16 2021 at 11:12

Подбор гиперпараметров ML-модели с помощью HYPEROPT

5 min

20K

Python*Programming*Machine learning*

В машинном обучении гиперпараметрами называют параметры модели, значения которых устанавливаются перед запуском процесса её обучения. Ими могут быть, как параметры самого алгоритма, например, глубина дерева в random forest, число соседей в knn, веса нейронов в нейронный сетях, так и способы обработки признаков, пропусков и т.д. Они используются для управления процессом обучения, поэтому подбор оптимальных гиперпараметров – очень важный этап в построении ML-моделей, позволяющий повысить точность, а также бороться с переобучением. На сегодняшний день существуют несколько популярных подходов к решению задачи подбора, например:

1.Поиск по решётке. В этом способе значения гиперпараметров задаются вручную, затем выполняется их полный перебор. Популярной реализацией этого метода является Grid Search из sklearn. Несмотря на свою простоту этот метод имеет и серьёзные недостатки:

Очень медленный т.к. надо перебрать все комбинации всех параметров. Притом перебор будет продолжаться даже при заведомо неудачных комбинациях.

Часто в целях экономии времени приходится укрупнять шаг перебора, что может привести к тому, что оптимальное значение параметра не будет найдено. Например, если задан диапазон значений от 100 до 1000 с шагом 100 (примером такого параметра может быть количество деревьев в случайном лесе, или градиентном бустинге), а оптимум находится около 550, то GridSearch его не найдёт.

2.Случайный поиск. Здесь параметры берутся случайным образом из выборки с указанным распределением. В sklearn он этот метод реализован как Randomized Search. В большинстве случаев он быстрее GridSearch, к тому же значения параметров не ограничены сеткой. Однако, даже это не всегда позволяет найти оптимум и не защищает от перебора заведомо неудачных комбинаций.

3.Байесовская оптимизация. Здесь значения гиперпараметров в текущей итерации выбираются с учётом результатов на предыдущем шаге. Основная идея алгоритма заключается в следующем – на каждой итерации подбора находится компромисс между исследованием регионов с самыми удачными из найденных комбинаций гиперпараметров и исследованием регионов с большой неопределённостью (где могут находиться ещё более удачные комбинации). Это позволяет во многих случаях найти лучшие значения параметров модели за меньшее количество времени.

vladbalv Oct 18 2022 at 10:01

Экзибит, прокачай мой трансформер или Основные идеи по улучшению модели трансформера с 2018 по 2020 год (часть 2)

10 min

2.6K

Machine learning*ГК ЛАНИТ corporate blogNatural Language Processing*

Translation

Представляю в блоге ЛАНИТ вторую часть моего пересказа статьи “A Survey of Transformers”, в которой приведены основные модификации архитектуры стандартного трансформера, придуманные за два года после ее появления. В первой части мы кратко вспомнили, из каких основных элементов и принципов состоит трансформер, и прошлись по различным схемам, меняющим или дополняющим механизм многоголового внимания. Целью большинства этих схем являлось преодоление квадратичной зависимости сложности вычислений от длины последовательности токенов, подающихся на вход. В этой части мы коснемся модификаций других элементов архитектуры, которые уже направлены или на улучшение способности сети извлекать больше информации из токенов, или применяются на большую длину последовательности, разделяя ее на сегменты.

+29

vladbalv Aug 23 2022 at 10:01

Экзибит, прокачай мой трансформер или Основные идеи по улучшению модели трансформера с 2018 по 2020 год (часть 1)

14 min

2.6K

Machine learning*ГК ЛАНИТ corporate blogNatural Language Processing*

Translation

В июне 2021 года вышла статья “A Survey of Transformers” - обзор различных нововведений, сделанных с применением архитектуры “трансформер” после ее появления в материале “Attention is all you need”.

Этот материал особенно актуален сейчас. Приведенные подходы и архитектуры начинают использоваться сообществом с большим опозданием и понимание их работы становится востребованным лишь сейчас, когда все уже понимают сильные и слабые стороны обычного трансформера и хотят его улучшить. Многие архитектуры, которые появляются сейчас, используют наработки, родившееся в первые три года после появления трансформеров.

Представляю в блоге ЛАНИТ обзор статьи “A Survey of Transformers”.

+22

PatientZero Oct 17 2022 at 09:42

Как работает Stable Diffusion: объяснение в картинках

9 min

90K

Image processing*Machine learning*Artificial Intelligence

Translation

Генерация изображений при помощи ИИ — одна из самых новых возможностей искусственного интеллекта, поражающая людей (в том числе и меня). Способность создания потрясающих изображений на основании текстовых описаний похожа на магию; компьютер стал ближе к тому, как творит искусство человек. Выпуск Stable Diffusion стал важной вехой в этом развитии, поскольку высокопроизводительная модель оказалась доступной широкой публике (производительная с точки зрения качества изображения, скорости и относительно низких требований к ресурсам и памяти).

Поэкспериментировав в генерацией изображений, вы можете задаться вопросом, как же она работает.

В этой статье я вкратце расскажу, как функционирует Stable Diffusion.

Читать дальше →

+29

2 3 ...

16 17

Определение доминирующих цветов: Python и метод k-средних

LLMClone: как клонировать себя в Telegram

Краткий обзор техник векторизации в NLP

Streamlit. Поиск кратчайшего пути

Жирный гитарный дисторшн ProCo RAT

Как сделать вашего телеграм-бота лучше? Конечно, добавить ему аналитику

9 архитектурных антипаттернов при разработке телеграм-ботов на Python

Как погрешность превращается в грех

Вход в любительскую астрономию

Алгоритм Ахо-Корасик

Вступление

Начальное описание

Мое первое серебро на Kaggle или как стабилизировать ML модель и подпрыгнуть на 700 мест вверх

Введение в библиотеку Transformers и платформу Hugging Face

Методы обнаружения дрейфа данных. Часть 1: Многомерные методы обнаружения дрейфа табличных данных

Регрессионный анализ в DataScience. Часть 2. Преобразование Бокса-Кокса. Проверка тренда и случайности

Прогнозирование качества шампанского с помощью Machine Learning. Опыт Bollinger

Генерация признаков из временных рядов

Подбор гиперпараметров ML-модели с помощью HYPEROPT

Экзибит, прокачай мой трансформер или Основные идеи по улучшению модели трансформера с 2018 по 2020 год (часть 2)

Экзибит, прокачай мой трансформер или Основные идеи по улучшению модели трансформера с 2018 по 2020 год (часть 1)

Как работает Stable Diffusion: объяснение в картинках

Information

Specialization