yurij_volkov Feb 10 2017 at 02:46

Как получать пятёрки с помощью анализа данных?

4 min

17K

Data visualization*Machine learning*

+15

Comments 18

3aicheg Feb 10 2017 at 03:15

Я думал, вы расскажете, как правильно шпоры писать…

charypopper Feb 18 2017 at 22:05

Шпоры нужно писать, чтобы было кратко и понятно, и можно было сформулировать ответ из выдержки. А пользоваться шпорами — плохо и недопустимо для человека, который не обмануть себя.

Meklon Feb 10 2017 at 08:33

Seaborn+pandas?

yurij_volkov Feb 10 2017 at 13:39

Да, ещё numpy, sklearn и другие python пакеты

Zenitchik Feb 10 2017 at 11:13

Как-то слабо. Логика в поиске корреляций между оценками за разные работы — понятна. Однако, не изложен принцип оптимизации, которым нужно руководствоваться, чтобы получить хорошую итоговую оценку. Я, конечно, могу догадаться, но, мне кажется, это должно быть частью темы статьи.

yurij_volkov Feb 10 2017 at 14:20

Да, идеи оптимизации я старался выделить, но видимо сделал это не очень хорошо.
Две основные идеи оптимизации:
1. Проранжировав работы по степени сложности, мы можем верно расставить приоритеты
2. Зная корреляции между работами, мы можем выделить наиболее сильно коррелирующие, и повторить материалы этих лаб при подготовке к исследуемой

Zenitchik Feb 10 2017 at 15:26

Я правильно понял, что новая лаба даётся «врасплох» и заранее материалы по ней получить невозможно?

Oxoron Feb 10 2017 at 11:18

В первый раз вижу студента, настолько серьезно подошедшего к разделу «цели и задачи курса». Респект.

Zinkalla Feb 10 2017 at 14:25

Я вот немного не понял, как прогнозирование среднестатистической оценки может помочь среднестатистическому студенту? Как был отделен субъективный подход преподавателя к постановке оценок?

yurij_volkov Feb 10 2017 at 14:36

Ответ на 1-й вопрос: тут я нашёл две причины:
1. Человеку свойственно сравнивать себя с другими, а благодаря средней оценке, можно сравнить свои представления о собственном уровне с реальным положением дел.
2. Это является способом оценить предмет на «сложность» относительно другого. Ведь если по одному предмету 80% народу получает 5, а по-другому эти же 80% получают 4, то резонно предположить, что второй предмет сложнее. А это даёт основания для расстановки приоритетов.

2-й вопрос: Никак, это излишняя сложность и она не требовалась. К тому же «субъективные» — это трудно формализуемое понятие, возможно вы сможете конкретизировать?

Labunsky Feb 10 2017 at 14:58

Ведь если по одному предмету 80% народу получает 5, а по-другому эти же 80% получают 4, то резонно предположить, что второй предмет сложнее.

Это, конечно, логично, но ведь для такого анализа компьютер даже включать не надо

yurij_volkov Feb 10 2017 at 15:06

Получить распределение величины без компьютера? Да, можно это сделать на листике

Labunsky Feb 10 2017 at 15:36

Да и листочка не надо. Все выводы из статьи обычно легко делаются с помощью пары вопросов старшему курсу

yurij_volkov Feb 10 2017 at 15:08

Стоп, извиняюсь, я перечитал изначальный вопрос. «Прогнозирование среднестатистической величины». Разумеется в этом нет смысла, но я этого и не делаю. Я прогнозирую оценку конкретного студента, основываясь на его предыдущих оценках

J_K Feb 11 2017 at 04:26

помогло мне сдать один из самых сложных предметов в семестре на пятёрку

О каком предмете идет речь? По моему опыту, самый сложный предмет там — это философия, и я не знаю, можно ли его сдать с помощью анализа данных...

ivanicki-i Feb 11 2017 at 12:08

А как вы получили абсолютную погрешность?
Делили студентов (aka объекты) на две выборки — тестовую и обучающую? использовали кросс-валидацию?

Пробовали ли вы строить решающее дерево? кажется, что для этой задачи оно будет очень показательным + его просто визуализировать)

yurij_volkov Feb 11 2017 at 12:12

Погрешность считал на кросс-валидации. При такой маленькой выборке, hold-out метод ненадёжен.
Дерево не визуализировал, хотя согласен, оно может оказаться весьма интересным, обязательно построю, спасибо.

mkm565 May 4 2023 at 09:29

Моя история использования биг дата в обучении

Давным-давно, когда деревья были большими, а интернет делал пи-пип-пи-пшшшшшш, мне надо было здать экзамен под названием GRE на техащине. Экзамен состоял из вопросов и выбора ответов. Математическая часть меня не волновала, хотя подвохи там были.
Меня волновала языковая часть. Это не TOEFL. Это полярный пушной зверек. Говорить-писать по-английски я мог нормально. Проблема в том, что в повседневной жизни вполне хватало достаточно небольшого запаса слов. В повседневной жизни словарный запас небольшой. Кино-телевидение не используют заумных слов (кто их будет слушать тогда). Тем не менее, слов в английском намного больше, чем в русском (2 раза?). И вербальная часть GRE использует слова, которые я отродясь не слышал и не услышу. Например, вы знаете, что синонимом к recreancy будет apostasy и tergiversation. Если бы я услышал recreancy, то я бы подумал, что это что-то похожее на recreation. Агащасблин. Как в цитате с баша (или откуда-то еще)

В инязе идет экзамен по переводу с английского.
Чувачок слушает текст (на английском).
Что-то про большую любовь. Довольно прилично переводит. И тут слышит следующую фразу: «She really venerated Jim».
Чувачок, не моргнув глазом, переводит: «Она действительно заразила Джима венерической болезнью».
Преподы и присутствующий народ начинают медленно сползать на пол от хохота.
Ведь на самом деле сия фраза гласит: «Она просто боготворила Джима (англ. to venerate)».
Об этом сообщают чувачку и слышат в ответ: «Одно другому не мешает!»

На таком и построена вербальная часть теста.

Кстати, интересная история была около 2000 года в Вашингтоне (я там жил недалеко в то время). Детали истории легко википедятся. Один чиновник употребил слово (в смысле дешевка) в разговоре про бюджет. Кое-кто обиделся (ну вы поняли). Что тут началось. Мужика затоптали и потащили за сарай расстреливать. Но кто-то, прочитавший в жизни более чем одну книжку, помимо комиксов, сказал "вы… ли? Это слово из древне-английского времен Шекспира, когда то, о чем вы все подумали, еще ваще не существовало". Ясен пень, что мужика тут же отвели от стенки, сказали, ошибка вышла, вручили ковер и телевизор. Не знаю, расстреляли ли за сараем того, кто поднял шум. Вряд ли. Глупость не осуждается в чиновничьей среде. Иначе там никого не останется. Понятно, что мужик получил урок — не хрен показывать, что ты такой умный. Будь, как все.

Увеличить словарный запас за две недели на 100500 слов — наверное, можно, но сложно. Онлайн словарей не было. Надо было за каждым словом лезть в толстый словарь. Я решил пойти другим путем. Благо надо выбирать из вариантов ответов, если не знаешь правильного. Я раздобыл результаты экзаменов предыдущих лет — тогда издавались книги. Забил в комп. И прогнал статистику верных ответов. Оказалось, что вариант А был (цифры условные — за давностью лет) — 5%, вариант Б — 25%, В — 50%, Д- 20%. Почему такая неравномерность распределения — не знаю. Вероятно, верные ответы писались вручную.
Типа, подсознательно хотели завалить тех, кто, не думая, ставит галку в первом ответе. Поэтому, я выбирал ответы так, чтобы примерно соответствовать этим вероятностям. Никаких ручных генераторов случайных чисел не использовал (например, написать длинное число от балды и найти остаток от деления на три — быстро и просто). Не было времени (тест ограничен во времени). Понятно, что подкидывать монету или что-то подобное мне никто бы не разрешил. Просто смотрел, чтобы гистограмма случайных ответов соответствовала распределению. Я не знал чуть меньше половины вопросов. Так что мне эта методика помогла перевалить за необходимый минимум.

Вывод: составляя подобные тесты, обязательно ставьте правильный ответ случайным образом.