Pull to refresh
  • by relevance
  • by date
  • by rating

Алгоритм кластеризации данных FTCA

Algorithms *
Sandbox

Предисловие


Гуляя по англоязычным просторам интернета в поисках решения одной из наболевших тем на работе, наткнулся на очень интересный алгоритм под названием «Fast Threshold Clustering Algorithm». Данный алгоритм кластеризации, что примечательно, появился сравнительно недавно, а именно в ноябре этого года и автором является Дэвид Варади. Ссылка на первоисточник будет доступна в конце статьи.
Читать дальше →
Total votes 29: ↑21 and ↓8 +13
Views 13K
Comments 9

Как запутать аналитика — 4. Вероятность и точность

Semantics *System Analysis and Design *IT Standards *Mathematics *
В прошлой статье я сказал, что числовые атрибуты напрямую связаны с операциями, которые мы проводим над объектами. При этом натуральные числа – самый простой из рассматриваемых нами атрибутов. Есть и более сложные. Например, матрицы. Если мы говорим о свойстве линейного преобразования в трехмерном пространстве, то оно записывается 9-ю числовыми значениями, из которых удобно сформировать матрицу размером 3 на 3. Причина этого в том, что два преобразования, выполненных последовательно, — тоже преобразование, числовые атрибуты которого могут быть получены путем перемножения двух матриц. В этом сила моделирования преобразования при помощи матрицы.

Я бы много отдал, чтобы преподавание математики строилось именно таким способом: через практическую задачу, через ввод нужных объектов (чисел, матриц, волновых функций) и объяснение, как операции над ними помогают решать конкретные задачи. Именно так строилось обучение в физмат школе, в которой мне довелось учиться – в интернате №18 при МГУ, спасибо преподавателям!
Читать дальше →
Total votes 21: ↑14 and ↓7 +7
Views 6.2K
Comments 15

Почему DataScientist-ы не используют ошибки первого и второго рода

System Analysis and Design *Big Data *Mathematics *Machine learning *
Tutorial

Вчера мне в очередной раз пришлось объяснять почему DataScientist-ы не используют ошибки первого и второго рода и зачем же ввели полноту и точность. Вот прямо заняться нам нечем, лишь бы новые критерии вводить.


И если ошибка второго рода выражается просто:


$O_2 = 1 - \Pi$


где Π — это полнота;


то вот ошибка первого рода весьма нетривиально выражается через полноту и точность (см.ниже).


Но это лирика. Самый важный вопрос:


Почему в DataScience используют полноту и точность и почти никогда не говорят об ошибках первого и второго рода?

Кто не знает или забыл — прошу под кат.


Дальше читать
Total votes 16: ↑13 and ↓3 +10
Views 15K
Comments 6

Как использовать трамваи, чтобы водителю такси стало проще вас найти

Global Positioning Systems *Data Mining *Big Data *
Sandbox
В продолжение дискуссии вокруг статьи о методе повышения точности позиционирования, разработанном в Uber, мне хотелось бы поделиться о проводимых в своей небольшой компании исследованиях и рассказать о технологии, с помощью которой мы пытаемся решить аналогичную задачу. Сразу отмечу, что здесь не будет никаких математических выкладок и глубоких технических подробностей, все пояснения постараюсь сделать максимально доступным языком. Если стало интересно узнать, а причем здесь собственно трамваи, то прошу под кат.
Читать дальше →
Total votes 10: ↑8 and ↓2 +6
Views 4.3K
Comments 15

Использование поляризованного света вместе с Kinect увеличивает точность 3D-сканирования в 1000 раз

ua-hosting.company corporate blog Popular science Physics Games and game consoles

Алгоритмы поляризации света позволили создать серийные датчики глубины с разрешением, в 1000 раз превышающим показатели их предшественников.


image
Исследователи из Массачусетского технологического института (MIT) выяснили, что поляризация света — физическое явление, лежащее в основе технологии создания поляризационных солнцезащитных очков и большинства 3D-фильмов — позволит увеличить разрешение привычных устройств 3D-визуализации в 1000 раз.

Благодаря данной технологии в мобильных телефонах появятся высококачественные встроенные 3D-камеры и можно будет делать фото, сразу же отправляя их на печать с 3D-принтера.

Один из разработчиков новой системы Ахута Кадамби, аспирант лаборатории MIT Media Lab, отметил: «Уже сегодня можно уменьшить 3D-камеру до размеров, соответствующих параметрам мобильных телефонов. Но это сказывается на чувствительности 3D-датчиков, что приводит к весьма грубому воспроизведению геометрических форм. Мы используем естественные механизмы поляризации. Так благодаря поляризационным фильтрам даже при эксплуатации датчиков низкого качества мы получаем результаты, по качеству заметно превосходящие изображения объектов с лазерных сканеров, применяемых в машиностроении».
Читать дальше →
Total votes 29: ↑27 and ↓2 +25
Views 15K
Comments 5

Точность измерений

LampTest corporate blog Gadgets Energy and batteries
Я столкнулся с фактом, который удивил меня и скорее всего удивит и вас. Оказывается, измерить напряжение в сети с точностью хотя бы до одного вольта — почти невыполнимая задача.



Шесть приборов на этом фото показывают разные значения, причём максимальное отличается от минимального, более чем на 6 вольт.

Читать дальше →
Total votes 45: ↑41 and ↓4 +37
Views 47K
Comments 180

Сэмплирование и точность вычислений

Data Mining *Mobile App Analytics *Product Management *

Ряд моих коллег сталкиваются с проблемой, что для расчета какой-то метрики, например, коэффициента конверсии, приходится кверить всю базу данных. Или нужно провести детальное исследование по каждому клиенту, где клиентов миллионы. Такого рода квери могут работать довольно долго, даже в специально сделанных для этого хранилищах. Не очень-то прикольно ждать по 5-15-40 минут, пока считается простая метрика, чтобы выяснить, что тебе нужно посчитать что-то другое или добавить что-то еще.


Одним из решений этой проблемы является сэмплирование: мы не пытаемся вычислить нашу метрику на всем массиве данных, а берем подмножество, которое репрезентативно представляет нам нужные метрики. Это сэмпл может быть в 1000 раз меньше нашего массива данных, но при этом достаточно хорошо показывать нужные нам цифры.


В этой статье я решил продемонстрировать, как размеры выборки сэмплирования влияют на ошибку конечной метрики.

Читать дальше →
Total votes 15: ↑14 and ↓1 +13
Views 9.3K
Comments 4

Краеугольные камни уничтожения медленного кода в Wolfram Language: ускоряем код в десятки, сотни и тысячи раз

Wolfram Research corporate blog Programming *Algorithms *Debugging *Functional Programming *
Tutorial
Скачать файл с кодом и данные можно в оригинале поста в моем блоге

Картинка к вебинару и посту взята не просто так: в определенном смысле символьное ядро Wolfram Language можно сравнить с Таносом — если бы его мощь была бы направлена в правильное русло, он мог бы стать самым мощным и полезным «добряком». Так же и с символьным ядром Wolfram — его чудовищную мощь нужно правильно использовать, а если это делать не так, оно может стать настоящим «злом», замедляющим все очень сильно. Начинающие разработчики не знают многих важнейших парадигм, идей и принципов языка Wolfram Language, пишут код, который на самом деле дико неэффективен и после этого разочаровываются, хотя тут нет вины Wolfram Language. Эту ситуацию призвана исправить эта статья.

Мне довелось работать с Wolfram Language начиная с (уже довольно далекого) 2005 года (тогда еще была версия Mathematica 5.2, сейчас уже 12-я). За эти почти 15 лет произошло очень много: добавились тысячи новых встроенных функций и областей, в которых они работают (машинное обучение, точная геометрия, работа с аудио, работа в вебе, облачные возможности, глубокая поддержка единиц измерения, интеграция с базами данных Wolfram|Alpha, географические вычисления, поддержка работы с CUDA, Python, распараллеливание операций и многое многое другое), появились новые сервисы — облако Wolfram Cloud, широко известная система вычислительных значeний Wolfram|Alpha, репозиторий функций, репозиторий нейросетей и пр.
Total votes 22: ↑21 and ↓1 +20
Views 7.8K
Comments 20

Неуловимый эталон времени: новый тип сверхточных атомных часов

ua-hosting.company corporate blog Reading room Manufacture and development of electronics *Popular science Physics


Поиски идеала это бесконечный поход по пустыне. Мы идем по бескрайнему морю песка, пересекая бархан за барханом, пока палящее солнце медленно, но верно отбирает у нас последние запасы воли и надежды. И вот на горизонте мы видим нечто прекрасное, нечто, что мы так надеялись найти. Но пустыня обманчива и коварна, а образ, увиденный нами, всего лишь мираж. И мы продолжаем идти дальше, пока горячий ветер заметает наши следы, не оставляя возможности вернутся назад. Идеал это мираж, к которому мы постоянно стремимся, и который ускользает от нас, как только мы к нему приближается. Каждый раз когда кто-то создает что-то идеально, оно существует в таком статусе недолго, ибо всегда есть куда расти, всегда есть место для совершенствования. Эта пустыня не имеет конца.

Еще один аспект бытия, который мы по своей наивности считаем подконтрольным нам, это время. Мы его уделяем, коротаем, экономим, измеряем и отсчитываем, но по большей степени мы его теряем. Атомные часы считаются идеальным инструментом измерения времени. Но с каждым новым таким устройством предыдущее теряет свой «эталонный» статус, а идеал, как ему это свойственно, становится на шаг ближе и на два шага дальше.

Сегодня мы познакомимся с исследованием ученых из МТИ (Массачусетский технологический институт, США), в котором они описывают новый тип атомных часов, способных отсчитывать время точнее своих предшественников. Каковы фундаментальные физические принципы, заложенные в данное устройство, как оно работает, и насколько точно в этот ученые отмеряют время? Ответы на эти вопросы ждут нас в докладе ученых. Поехали.
Читать дальше →
Total votes 17: ↑17 and ↓0 +17
Views 5.3K
Comments 1