Обновить
0
@Ducksread⁠-⁠only

Пользователь

Отправить сообщение

5 золотых правил разметки данных

Время на прочтение6 мин
Охват и читатели6.3K

Роберт Рождественский писал: «Все начинается с любви…». Если бы Роберт Иванович погрузился в мир машинного обучения (ML), то наверняка продолжил свое произведение словами «Все начинается с любви к данным». 

Надо сказать, что никто не любит данные так, как их разметчики или аннотаторы. Такие специалисты являются своеобразным первым учителем, передающим свои знания модели. Ведь недочеты на этапе разметки данных просачиваются на каждый последующий, разрушая выстроенную модель, как карточный домик. 

Читать далее

Корреляции для начинающих

Время на прочтение6 мин
Охват и читатели228K
Апдейт для тех, кто сочтет статью полезной и занесет в избранное. Есть приличный шанс, что пост уйдет в минуса, и я буду вынужден унести его в черновики. Сохраняйте копию!

Краткий и несложный материал для неспециалистов, рассказывающий в наглядной форме о различных методах поиска регрессионных зависимостей. Это все и близко не академично, зато надеюсь что понятно. Прокатит как мини-методичка по обработке данных для студентов естественнонаучных специальностей, которые математику знают плохо, впрочем как и автор. Расчеты в Матлабе, подготовка данных в Экселе — так уж повелось в нашей местности


Введение


Зачем это вообще надо? В науке и около нее очень часто возникает задача предсказания какого-то неизвестного параметра объекта исходя из известных параметров этого объекта (предикторов) и большого набора похожих объектов, так называемой учебной выборки. Пример. Вот мы выбираем на базаре яблоко. Его можно описать такими предикторами: красность, вес, количество червяков. Но как потребителей нас интересует вкус, измеренный в попугаях по пятибалльной шкале. Из жизненного опыта нам известно, что вкус с приличной точностью равен 5*красность+2*вес-7*количество червяков. Вот про поиск такого рода зависимостей мы и побеседуем. Чтобы обучение пошло легче, попробуем предсказать вес девушки исходя из ее 90/60/90 и роста.
Читать дальше →

ANOVA, или кто комментирует?

Время на прочтение8 мин
Охват и читатели26K

В комментариях проскальзывала мысль, что люди мало комментируют статьи на Habrahabr, т.к. боятся потерять карму. Получается, что в основном пишут те, у кого карма побольше. Попробуем исследовать эту гипотезу подробнее и получить результаты, подкрепленные не только интуитивно, но и статистически.
Читать дальше →

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность