Pull to refresh

Лингвистический анализ показал резкий рост депрессивных настроений в обществе с 2007 года

Statistics in IT Brain Health

Исследователи Школы информатики и вычислительной техники и кафедры физиологии и нейрофизиологии Индианского университета провели анализ более 14 миллионов книг, опубликованных в период с 1855 по 2019 год. Авторы обнаружили, что за последние два десятилетия частота текстовых аналогов когнитивных искажений резко выросла. Они связывают это с недавними социально-экономическими изменениями, новыми технологиями и социальными сетями.

Читать далее
Total votes 22: ↑22 and ↓0 +22
Views 4.6K
Comments 6

Ближайшие курсы CS клуба: статистика, аукционы и игры

Образовательные проекты JetBrains corporate blog Mathematics *Statistics in IT

С начала пандемии почти все курсы Computer Science клуба проходят онлайн режиме. Для клуба такой формат подходит плохо, т.к. почти отсутствует неформальное общение между участниками. Но есть и плюсы. Теперь для посещения курсов клуба не обязательно жить в Санкт-Петербурге, Казани или Новосибирске. Все курсы доступны онлайн бесплатно для всех желающих.

Далее я расскажу вам про два курса этого семестра, в которых ещё можно успеть поучаствовать.

Читать далее
Total votes 7: ↑7 and ↓0 +7
Views 601
Comments 0

Среда статистических вычислений R: опыт использования в преподавании

R *
Хочу рассказать об использовании свободной среды статистического анализа R. Рассматриваю ее как альтернативу статистических пакетов типа SPSS Statistics. К моему глубокому сожалению, она совершенно неизвестна на просторах нашей Родины, а зря. Полагаю, что возможность написания дополнительных процедур статистического анализа на языке S делает систему R полезным инструментом анализа данных.
Читать дальше →
Total votes 11: ↑10 and ↓1 +9
Views 22K
Comments 7

Практические рекомендации по выбору паролей по результатам взлома antichat.ru

Information Security *
Как вы уже слышали Брайан Кребс недавно проводил аудит паролей, полученных после взлома antichat.ru (сама база была получена где-то год назад и уже не актуальна!). Честно говоря, не очень понимаю чем занимались его видеокарты 18 дней, победив только 44% паролей. Мне на довольно скромном железе удалось подобрать 77% паролей за 8 часов. Исходя из таких несколько пугающих цифр, особенно для сайта тематически связанного с информационной безопасностью, у меня есть несколько рекомендаций о том какие пароли никогда не следует использовать, дабы они не были подобраны за пару минут.
Читать дальше →
Total votes 148: ↑134 and ↓14 +120
Views 23K
Comments 185

Обновление по онлайн-курсам Stanford University

Studying in IT
Понимаю, что все заинтересованные уже получили оповещение по почте, но для тех кто не в танке — объявление: онлайн курсы от Stanford University наконец-то начинаются.

Probabilistic Graphical Models — начинается 19 марта, лекции пока не доступны.

По данным курсам доступны первые лекции и задания

Natural Language Processing — начало с 12 марта, первое задание Spamlord должно быть уже выполнено к 19 марта, так что регистрируемся.

Design and Analysis of Algorithms I — курс по проектированию и анализу алгоритмов.

Cryptography — доступны видео первой недели обучения.

Game theory — начало 19 марта, материалов на сайт пока нет, но первая порция будет доступна 10 марта.

SaaS уже начался, но для того, чтобы плодотворно учить этот курс, необходима книга (10$). Этот курс от University of California, Berkeley.

Model thinking уже идет практически целый месяц (на самом деле курс основан на материалах University of Michigan, а не Stanford).

Другие курсы в процессе доработки

Computer Science 101, Computer Vision (University of California, Berkeley), Machine Learning, Making Green Buildings, Anatomy, Computer Security

Да, все курсы переехали на платформу Coursera. Поэтому теперь эти лекции смело можно называть «Обучение от Coursera», тем более спектр университетов увеличился.

Update:

Information theory — 12 марта появится первая порция лекций, тоже самое для Human-Computer Interaction.

За апдейтом апдейт: новый виток Machine learning тоже начинается 12 марта.
Total votes 58: ↑53 and ↓5 +48
Views 5.7K
Comments 52

Обработка сложных событий с помощью цепочек

Programming *Algorithms *
В статье описывается метод обработки сложных событий с помощью цепочек. В качестве практического приложения была выбрана относительно простая задача — прогнозирование движения валютного курса.

При построении цепочек использовалась методология, описанная в статье “Автоматический анализ текстов без модераторов” и в комментариях к ней. После описания алгоритма будут предложена стратегия с положительным математическим ожиданием прибыли.
Читать дальше →
Total votes 19: ↑17 and ↓2 +15
Views 5.7K
Comments 18

О сортировке контента на основе оценок пользователей: Часть 2

Website development *Algorithms *Mathematics *
Прошлая статья привлекла большой интерес. И даже, на некоторое время, стала лучшей за 24 часа. У меня появилось несколько идей и на часть вопросов в комментариях нужно ответить более развернуто.
image

Читать дальше →
Total votes 67: ↑52 and ↓15 +37
Views 10K
Comments 36

О сортировке контента на основе оценок пользователей: Часть 3

Website development *Algorithms *Mathematics *
В прошлой статье я вывел формулу, которая прогнозирует рейтинг на основе оценок статьи и средней оценки по сайту. Думал в этой статье, я покажу качество ее прогноза, улучшу прогноз за счет дисперсии. Однако, появилась еще одна проблема.
image
Читать дальше →
Total votes 58: ↑44 and ↓14 +30
Views 14K
Comments 4

О создании персональных рейтингов. Вроде IMHO.net

Website development *Algorithms *Mathematics *
В прошлых статьях я затрагивал тему простых рейтингов. В комментариях меня попросили расписать тему рейтингов, которые выдают для каждого пользователя свои.
Читать дальше →
Total votes 31: ↑27 and ↓4 +23
Views 6.7K
Comments 1

Статистические тесты в R. Часть 3: Тесты количественных данных

Mathematics *R *
Tutorial
Это третья статья в серии о применении R для статистического анализа данных, в которой будут разбираться представление и тестирование количественных данных. Вы узнаете как быстро и наглядно представить данные, а также как использовать t-тест в R.

Часть 1: Бинарная классифиация
Часть 2: Анализ качественных данных

Поехали!
Читать дальше →
Total votes 22: ↑21 and ↓1 +20
Views 22K
Comments 0

Частота отправляемых рассылок: чаще не всегда лучше!

Pechkin.com corporate blog
В последнее время, я часто слышу мнения, что “Объем отправки писем это ключ к успеху в email-маркетинге!”. По своей сути, они означают, что отправка дополнительных email приводит к большей активности подписчиков, зарабатыванию большего числа денег, и, вообще, лучше (вне зависимости от того, что “лучше” значит для вас).

Их аргументы просты:
  1. Мои данные показывают, что чем больше получает/открывает/кликает мою рассылку, тем больше денег я зарабатываю.
  2. Так как я не могу волшебным образом “наколдовать” новые email-адреса, поэтому я должен чаще отправлять рассылки тем, кто уже есть.

Ведь если у вас есть адресная база в 10 000 адресов и каждый раз, когда вы отправляете по ним email, вы получите 100 заказов, то, отправив email на эти адреса два раза в месяц, а не один, вы ожидаете получить на 100 заказов больше, верно? Деньги у вас в кармане! Почему бы не пойти на это?

Безусловно, рассуждения верные. Но не все так просто.

Может быть, вы сможете увеличить частоту ваших рассылок для роста продаж, а может и не сможете. И вот почему: Активность подписчика (открытия, клики) зависит от частоты отправки рассылок. Чем больше вы отправляете, тем меньше подписчиков открывают ваши рассылки и кликают по ссылкам в них. А значит должна быть точка равновесия, в которой определенная частота рассылки максимизирует активность подписчика (а, следовательно, и ваши продажи).

Подробнее про расчет оптимального количества email-рассылок в месяц
Total votes 18: ↑11 and ↓7 +4
Views 7K
Comments 0

Манускрипт Войнича. Маньчжурский кандидат

Cryptography *
Манускрипт Войнича (МВ или VMS) называют чашей Грааля криптографии. За несколько сотен лет тысячи человеко-дней были потрачены и продолжают тратиться в попытках разгадать его смысл и перевод. Причем пытались люди очень разные, в том числе выдающиеся мировые криптографы. Пока что получается не очень. Две с небольшим сотни пергаментных страниц, неизвестный алфавит, неизвестный язык, каллиграфический уверенный почерк, десятки рисунков неизвестных растений и обнаженных женщин, купающихся в странных каналах, зодиакальные астрологические диаграммы — множество зацепок, но пока ничего, что позволило бы дешифровать рукопись. Для любого, кто хоть чуть-чуть попробовал поразгадывать крючки, МВ представляется идеальной головоломкой — не имеющей пока известной разгадки.

image

Страница 16v


Видел несколько месяцев назад пост на Хабре про ацтекский язык и ботаников, опознавших несколько центрально-американских растений, но всё-таки достану из черновиков свои записи. Их цель — познакомить читателей с миром разгадывателей VMS и моим не очень глубоким анализом одной из относительно недавних гипотез — о маньчжурском языке манускрипта.

Читать далее: Fachys ykal ar ytaiin
Total votes 185: ↑182 and ↓3 +179
Views 82K
Comments 45

Data Mining в музыке. Определяем музыкальный инструмент при помощи Деревьев Классификации

Sound
Sandbox
Приветствую Вас, уважаемые читатели и писатели Хабра!
Так сложилось, что я меломан и программист – и мне однажды захотелось совместить это.
Попробую рассказать, что из этого вышло.
В данной статье будет описано, как я пытался создать алгоритм, который бы мог определять на каком инструменте сыграна мелодия.

Итак, поехали

Наши исходные данные:
  • 550 записей по 5 минут для 10 инструментов – по 55 записей на инструмент.
  • Музыкальные инструменты: пианино, виолончель, домбра, флейта, дудка, гитара, аккордеон, кларнет, альт, скрипка.
  • 9 признаков музыкального звукового сигнала.

Читать дальше →
Total votes 25: ↑16 and ↓9 +7
Views 24K
Comments 12

Лингвистическая загадка. Переводим с «мертвого» языка

Cryptography *
Ответ можно найти здесь — Лингвистическая загадка. Переводим с «мертвого» языка. [§2] Разбор полётов.

Навеяло постом «Продолжение дилетанта».

Хотя оригинал «Манускрипт Войнича. Маньчжурский кандидат» по своему шедеврален, с подходом с лингвистической стороны, изложенной makondo, я бы местами пожалуй не согласился. Но сам разбор полетов прочитал запоем. В отличии от «Продолжение дилетанта», имхо.

К слову, я никогда не понимал людей, пытающихся вот так — нахрапом брать подобные «лингвистические» задачи, и делать на основании (иногда даже огромной) проделанной работы, но базирующейся на сомнительных исходных выкладках, далекоидущие выводы.
А некоторые методы вообще доставляют, в криптографии их назвали бы — брутфорсом и серьезно к анализу «чего либо» так никто не подходит.

Все же, критиковать и холиварить здесь совсем не хочу, в качестве прикладного примера, накидал на коленке текст, написаный неизвестным «мертвым» языком. Это достаточно известная цитата из книги, которую, имхо, каждый «лингвист» должен как минимум поверхностно прочитать.
Ну и в общем-то совсем не шифр, просто набор правил морфемики и немного семантики (в части словообразования).

Скажем так, тот язык за многие лета претерпел некоторые изменения.

Собственно текст

მეაგ პგლოეზგასელ პაგდლრეოლმელეოგ გილრაგლახაგ მოლ კეუგლზდლიმეილ პეალკგლეგ სფაგიხაგ, ეპეალ ფაგსცლგიბიშჩულდგ პაგდლრეოლეუგლშჩეილ, დოლ ფაგშცელეოგეუგლტ პაგდლრეოლინეგილ. გილრაგელეო კეუგლზდლოლ სტიკეალ პაგდლრეოლმეუგლრეოლ პეალკგლეგ ელ კეუგლლდეოჩედგეგ პეალკლეამკეოლეგ. დოლ მეაგ პაგდლიტ უგ პეალკგლეგ კეუგლზდლეგ, ოლ უგ კეუგლზდლეგ პეალკგლეგ ბლგიდ რეცინოგ ნაენოგ, ეპეალ ეოგლ სცლგოშმაგ პაგდლრეოლმეუგლრ, ელ ნმაეუგლ ტოხგ პაგდლრეოლმეუგლგტაგ.

Задача — то же, но по-русски.

Все совпадения с действующими алфавитами случайны (и я ни в коем случае не хотел назвать какой-либо существующий язык — мертвым).
Читать дальше →
Total votes 38: ↑31 and ↓7 +24
Views 27K
Comments 64

Лингвистическая загадка. Переводим с «мертвого» языка. [§2] Разбор полётов

Cryptography *
Это — продолжение, вернее ответ на задачу из статьи "Лингвистическая загадка. Переводим с мертвого языка".

Времени нет катастрофически, но как известно его никогда не бывает, а раз уж обещал, статью приходится писать. Засим еще раз извиняюсь за опоздание.

Ответ

Для нетерпеливых сразу ответ, который кстати на момент написания статьи, кроме единственного человека (не с хабра), полностью не разгадал никто. Но об этом ниже…
Упомянутая известная фраза про «Глокую куздру» (привет AndreyDmitriev), что есть цитата из книги Успенского «Слово о словах», была коварно помещена мной в середину текста. Остальное, как уже говорилось, добил другими из той же темы, причем немного даже в «старорусской» манере…
Читать дальше →
Total votes 36: ↑32 and ↓4 +28
Views 15K
Comments 19

Как мы А/Б тесты проводим

Interfaces *Usability *
Sandbox
В последнее время на Хабре появляется все больше постов о целесообразности проведения А/Б тестирований (об их пользе, увеличении конверсий). Если внимательно следовать инструкциям — получается очень интересная вещь: незначительное изменение интерфейса и логики вывода информации может привести к значительному изменению конверсии, если перемножить все цифры конверсий под подобным катом — то можем получить рост и в 2 раза.

Уже представляю себе десятки, а то и сотни вебмастером и менеджеров, которые проверяют с помощью А/Б тестов каждое изменение своего проекта, заказывают аудит в usability-лабораториях и ждут роста конверсий в пресловутые 2 раза. Что происходит на самом деле — давайте разберемся…
Читать дальше →
Total votes 25: ↑23 and ↓2 +21
Views 25K
Comments 59

Освоение специальности Data Science на Coursera: личный опыт (ч.1)

IBS corporate blog Programming *Data Mining *Algorithms *Big Data *


Недавно Владимир Подольский vpodolskiy, аналитик в департаменте по работе с образованием IBS, закончил обучение по специализации Data Science на Coursera. Это набор из 9 курсеровских курсов от Университета Джонса Хопкинса + дипломная работа, успешное завершение которых дает право на сертификат. Для нашего блога на Хабре он написал подробный пост о своей учебе. Для удобства мы разбили его на 2 части. Добавим, что Владимир  стал еще и редактором проекта по переводу специализации Data Science на русский язык, который весной запустили IBS и ABBYY LS.

Часть 1. О специальности Data Science в общих чертах. Курсы: Инструменты анализа данных (программирование на R); Предварительная обработка данных; Документирование процесса обработки данных.

Привет, Хабр!


Не так давно закончился мой 7-месячный марафон по освоению специализации «Наука о данных» (Data Science) на Coursera. Организационные стороны освоения специальности очень точно описаны тут. В своём посте я поделюсь впечатлениями от контента курсов. Надеюсь, после прочтения этой заметки каждый сможет сделать для себя выводы о том, стоит ли тратить время на получение знаний по аналитике данных или нет.
Читать дальше →
Total votes 30: ↑29 and ↓1 +28
Views 71K
Comments 17

Освоение специальности Data Science на Coursera: личный опыт (ч.2)

IBS corporate blog Programming *Data Mining *Algorithms *Big Data *


Мы публикуем вторую часть поста Владимира Подольского vpodolskiy, аналитика в департаменте по работе с образованием IBS, который закончил обучение по специализации Data Science  на Coursera. Это набор из 9 курсеровских  курсов от Университета Джонса Хопкинса + дипломная работа, успешное завершение которых дает право на сертификат.

Читайте в первой части: О специальности Data Science в общих чертах. Курсы: Инструменты анализа данных (программирование на R); Предварительная обработка данных; Документирование процесса обработки данных.

Часть 2
Читать дальше →
Total votes 14: ↑13 and ↓1 +12
Views 29K
Comments 4