Articles / Bookmarks / Profile of resetme / Habr

How to become an author

@resetme^{read⁠-⁠only}

Скромный пастух нулей и единиц…

ProfileComments196Bookmarks890

Nikolay_nc Sep 2 2023 at 07:46

Пережевывая Матрицу Несоответствий — Confusion Matrix

Easy

7 min

20K

Machine learning*Statistics in ITInterview

Понятие Confusion Matrix является довольно простым в объяснении, но при этом начинающим Data Scientist-специалистам бывает порой нелегко разобраться в отношениях True Positive (TP), False Positive (FP), True Negative (TN), False Negative (FN) — кирпичиками, составляющими данную матрицу. Цель этой статьи познакомить читателя с альтернативным представлением Матрицы Ошибок. Данный способ, по мнению автора, является наиболее наивным методом графического восприятия самой Матрицы Несоответствий, не предполагающий запоминания самой таблицы матрицы. Данный подход позволит легко ориентироваться в выводах, основанных на комбинации элементов Confusion Matrix, глубже понять проблему дисбаланса классов в задачах классификации.

Читать далее

+6

badcasedaily1 Aug 30 2023 at 10:29

Анализ музыкальных предпочтений с использованием аудиоаналитики на Python

15 min

7.8K

OTUS corporate blogData Mining*Python*Sound

Музыка, неотъемлемая часть человеческой культуры, всегда отражала дух времени. Однако с наступлением цифровой эры и быстрого развития технологий, музыкальная индустрия столкнулась с революцией, которая изменила не только способы создания и распространения музыки, но и сам способ, которым мы взаимодействуем с ней. Сегодня музыкальные платформы и сервисы предоставляют нам огромный выбор композиций, а важную роль в этом процессе играют технологии аудиоаналитики.

Что делает песню хитом? Какие элементы музыки заставляют нас нажимать "пропустить" или добавлять трек в свой плейлист? Ответы на эти вопросы лежат в понимании музыкальных предпочтений слушателей. Анализ этих предпочтений — это не только путь к более точным рекомендациям, но и ключ к пониманию наших эмоциональных реакций на музыку. Именно здесь на сцену выходит аудиоаналитика.

Читать далее

+12

ru_vds Aug 28 2023 at 13:00

Профилирование Python — почему и где тормозит ваш код

Medium

10 min

27K

RUVDS.com corporate blogPython*Data visualization*Debugging*

Tutorial

Translation

Представьте ситуацию: вы написали скрипт для обработки каких-то данных на ноутбуке, ушли попить кофе, а когда пятнадцать минут спустя вернулись, завершилось едва ли 10%.

Почему скрипт работает так медленно? Какая его часть тормозит? Дело в чтении данных, их обработке или сохранении? Как ускорить исполнение? Действительно ли скрипт вообще медленный?

Ответить на все эти вопросы поможет инструмент под названием «профилировщик» (profiler).

Читать дальше →

+66

badcasedaily1 Aug 28 2023 at 09:54

Анализ текстовых данных с использованием тематического моделирования

14 min

15K

OTUS corporate blogSystem Analysis and Design*Python*

Анализ текстовых данных становится все более важным в наше время, когда огромные объемы информации генерируются и обмениваются каждую секунду. От социальных медиа до новостных порталов, от клиентских отзывов до академических статей — текстовые данные содержат бесценные знания и инсайты. Однако извлечение значимой информации из таких объемов текста может быть огромным вызовом.

Компании хотят понимать общественное мнение о своих продуктах и брендах, но анализировать миллионы постов и комментариев вручную практически невозможно. Вот где анализ текстовых данных и тематическое моделирование приходят на помощь. Эти методы позволяют автоматически выявлять темы, тональность и структуру текста, делая процесс анализа эффективным и масштабируемым.

Читать далее

+10

badcasedaily1 Aug 28 2023 at 14:29

Применение преобразований PCA и t-SNE для снижения размерности данных

11 min

11K

OTUS corporate blogSystem Analysis and Design*

В высокоразмерных данных, одной из ключевых проблем является «проклятие размерности». Большое количество признаков в данных может привести к ухудшению производительности алгоритмов машинного обучения, замедлению вычислений и сложностям в визуализации результатов. В таких сценариях снижение размерности становится критически важным шагом. Оно позволяет уменьшить количество признаков, сохраняя при этом важные характеристики данных.

В этой статье мы рассмотрим методы снижения размерности данных, такие как: «Преобразование главных компонент» (PCA) и "t-SNE" (t-distributed Stochastic Neighbor Embedding). Оба метода обладают своими уникальными характеристиками и предназначены для разных типов данных и задач.

Читать далее

+10

JulliaShulga Aug 26 2023 at 09:30

Создайте свой клон с помощью Fine-tuned LLM

Medium

10 min

20K

Programming*Machine learning*Artificial Intelligence

Translation

Обретите цифрового двойника

Цель этой статьи - показать, как эффективно и с минимальными затратами настроить LLM на пользовательском датасет. Мы рассмотрим использование модели Falcon-7B с адаптерами LoRa, с использованием библиотеки Lit-GPT.

Читать далее

+14

igumnov Aug 25 2023 at 15:41

Как легко перейти с Java на Rust: Особенности и советы

Medium

6 min

12K

Tutorial

После работы над двумя коммерческими проектами на Rust я получил хороший практический опыт в этом языке. Это были backend сервисы для веб-приложений, где Rust использовался для основной бизнес-логики и работы с базами данных.

Кроме того, я создал три open source библиотеки на Rust, которые публиковал на GitHub. Это позволило мне лучше изучить идиоматичный Rust, работу с асинхронностью и т. д.

В целом, после работы над этими проектами у меня как Java-разработчика накопился интересный опыт, которым хотелось бы поделиться для тех, кто только начинает изучать Rust, приходя из мира Java. Далее я привожу несколько полезных советов, которые помогут в переходе на Rust.

Читать далее

+20

I_a_sivkov Aug 24 2023 at 11:48

Строим пайплайн в sсikit-learn — пошаговое руководство

Medium

8 min

27K

Яндекс Практикум corporate blogPython*Machine learning*Data Engineering*

Tutorial

Привет, Хабр! Меня зовут Иван Сивков, я наставник на курсе «Специалист по Data Science» в Яндекс Практикуме. В этой статье покажу, как построить пайплайн в библиотеке scikit-learn на базе встроенных инструментов и сократить количество кода при преобразовании данных. Эта статья рассчитана на новичков, которые только начинают изучать Data Science, но уже знают основные понятия.

Читать далее

+5

badcasedaily1 Aug 24 2023 at 09:55

Статистические тесты и проверка гипотез в R

15 min

13K

OTUS corporate blogR*

Современный мир насыщен данными, анализ информации становится критически важным инструментом для принятия обоснованных решений. Однако просто иметь данные не достаточно – необходимо извлечь из них ценную информацию. В этом процессе статистические тесты и проверка гипотез играют важнейшую роль. Они позволяют нам сделать выводы на основе данных, опираясь на строгие методы анализа, и тем самым способствуют принятию обоснованных решений.

Статистические тесты – это мощный инструмент, который позволяет провести объективную оценку данных и проверить гипотезы, основанные на этой информации. Они позволяют определить, насколько вероятно, что наблюдаемые различия или закономерности случайны, а не реально существующие в популяции. Статистические тесты позволяют избежать ошибок и предоставляют научно обоснованный подход к анализу данных.

Читать далее

+11

badcasedaily1 Aug 21 2023 at 13:52

Обработка и анализ естественного языка с помощью Python-библиотеки spaCy

9 min

16K

OTUS corporate blogPython*Natural Language Processing*

Обработка естественного языка (NLP) представляет собой важную область исследований, объединяющую лингвистику, компьютерные науки и искусственный интеллект. Она посвящена разработке методов и инструментов для анализа, понимания и генерации текста человеческими искусственными системами. Важность NLP становится все более явной, поскольку она находит применение в различных сферах, включая автоматический перевод, анализ тональности, извлечение информации, вопросно-ответные системы и многое другое.

В мире обработки естественного языка существует множество инструментов и библиотек, предназначенных для упрощения этой сложной задачи. Однако библиотека spaCy выделяется своей эффективностью и производительностью. Она разработана с акцентом на скорость и точность, что делает ее предпочтительным выбором для многих разработчиков и исследователей в области NLP.

Читать далее

+8

badcasedaily1 Aug 22 2023 at 08:42

Извлечение признаков из текстовых данных с использованием TF-IDF

10 min

46K

OTUS corporate blogPython*System Analysis and Design*

Изучение текстовых данных является одной из фундаментальных задач в области анализа данных и машинного обучения. Однако тексты представляют собой сложные и многомерные структуры, которые не могут быть напрямую обработаны алгоритмами машинного обучения. В этом контексте извлечение признаков — это процесс преобразования текстовых данных в числовые векторы, которые могут быть использованы для обучения моделей и анализа. Этот шаг играет ключевую роль в предварительной обработке данных перед применением алгоритмов.

Term Frequency-Inverse Document Frequency (TF-IDF) — это один из наиболее распространенных и мощных методов для извлечения признаков из текстовых данных. TF-IDF вычисляет важность каждого слова в документе относительно количества его употреблений в данном документе и во всей коллекции текстов. Этот метод позволяет выделить ключевые слова и понять, какие слова имеют больший вес для определенного документа в контексте всей коллекции.

Читать далее

+11

Vadim170 Aug 16 2023 at 23:28

Как дообучить LLaMA бесплатно и без программирования: как создать тупого друга

Medium

5 min

69K

Python*Machine learning*Artificial Intelligence

Tutorial

В этой статье я расскажу как я смог бесплатно и без мощного железа дообучить LLaMA на диалогах с друзьями в ВК, чтобы сделать чат бота, который копирует наш стиль общения, оживляет разговор в чате и просто пишет странные и смешные вещи. В статье будет мало терминов, тут я простым языком расскажу как вы можете обучить большую языковую модель.

Читать далее

+14

DAN_SEA Aug 18 2023 at 09:00

Как выбрать нужное сечение провода?

Medium

9 min

34K

RUVDS.com corporate blogPopular sciencePhysicsEnergy and batteries

Tutorial

Картинка Freepik

Не знаю как у вас, а у меня есть одна проблема: каждый раз, когда дело доходит до приобретения проводов/кабелей на более-менее серьёзную нагрузку, у меня делаются страшные глаза, и я начинаю судорожно вспоминать, а какой конкретно кабель мне нужен на мою нагрузку и как его следует подбирать?

В какой-то момент мне это надоело, и я решил разобраться в вопросе, результаты чего приведены ниже и, возможно, будут полезны и вам.

Читать дальше →

+56

pzrnqt1vrss Aug 17 2023 at 09:15

Простая нейронная сеть без библиотек и матриц. Обучение с учителем

Easy

9 min

19K

Python*Machine learning*Artificial Intelligence

Tutorial

Руководство? Гайд? В общем ремейк описания моего опыта создания простой, а главное понятной любому новичку нейросети :)

Дисклеймер: хочу сказать, что смысл этой статьи не в правильном способе создания нейросетей, таких статей сотни, а в способе понять, что такое нейросети и наконец перейти от теории к практике.

Читать далее

+26

pzrnqt1vrss Aug 18 2023 at 09:15

Простая нейронная сеть без библиотек и матриц. Эволюционный алгоритм

Medium

15 min

12K

Artificial IntelligenceMachine learning*Python*

Tutorial

Руководство? Гайд? В общем вторая часть описания моего опыта в создании простой, а главное понятной любому новичку нейросети :)

В этот раз поговорим про эволюционный/генетический алгоритм и заставим нейросеть балансировать мячи.

Читать далее

+20

jaroslau Aug 16 2023 at 10:49

Повербанк для ноутбука на стероидах или DIY выходного дня

Easy

3 min

29K

М.Видео-Эльдорадо corporate blogLaptopsDIYEnergy and batteriesRemote work

Tutorial

Многие летом работают с дачи, а некоторые даже находят уединенные уголки в лесу с доступом к 4G. И все бы хорошо, но на даче иногда «пропадает свет», а в лесу его и вовсе нет. Я расскажу, как сделать на скорую руку power bank для ноутбука, который обеспечит дни, а при желании и недели свободы от розетки.

Читать далее

+75

kath_vyunova Aug 13 2023 at 08:46

Обучение YOLOv8s на Google Colab: детектим дорожные знаки

Easy

6 min

9.5K

Python*Algorithms*Machine learning*

Tutorial

Всем привет! Решила я вернуться на Хабр с новым мини-проектом. Сегодня попробуем детектить дорожные знаки используя YOLOv8 на Google colab. Что ж, приступим!

Поехали!

+7

Wladradchenko Aug 11 2023 at 05:57

Основные ресурсы нейронных сетей для начинающих и энтузиастов

Easy

4 min

13K

Studying in ITReading roomArtificial IntelligenceMachine learning*

Review

Собрал все в одном месте! Выбор образовательных материалов в области нейронных сетей, а также различные проекты с открытым исходным кодом с нейронными сетями, которые могут быть полезны для разработки сервисов

Ознакомиться

+21

MaxRokatansky Aug 9 2023 at 03:30

10 правил, которые выполняют успешные тимлиды

Easy

8 min

19K

OTUS corporate blogPersonnel Management*

Translation

Возможно, вы скажете, что в команде нет место слову "я", тем не менее у каждой серьезной команды есть лидер - он же тимлид. Тимлиды отвечают за все, начиная от повседневной работы и заканчивая оказанием своевременной поддержки команды для достижения поставленных целей.

В зависимости от структуры компании, может быть непонятно, что именно включает в себя роль тимлида, и как она отличается от роли проджект-менеджера. В данной статье мы расскажем о том, кто такой тимлид на самом деле, чем он занимается, и как эта роль отличается от роли проджект-менеджера. Также мы дадим 10 советов, которые помогут вам стать успешным тимлидом.

Читать далее

+7

dima_yiu Aug 1 2023 at 09:21

Самое понятное объяснения CFG Scale в нейросетях. Как эта штука повлияла на появление Stable Diffusion

Medium

4 min

24K

Artificial IntelligenceMachine learning*Algorithms*Python*Data Engineering*

Меня поразил тот факт, что метод CFG Scale и позволил диффузным моделям родиться. До них были GAN-модели, которые совмещали в себе генератор и дискриминатор. Т.е. моделька сначала генерирует изображение, а потом вторая полноценная модель оценивает его на вшивость и корректирует вместе с первой.

Читать далее

+5

1 2 ...

20

21 22 ...