Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Алгоритм кластеризации данных FTCA

Алгоритмы *
Из песочницы

Предисловие


Гуляя по англоязычным просторам интернета в поисках решения одной из наболевших тем на работе, наткнулся на очень интересный алгоритм под названием «Fast Threshold Clustering Algorithm». Данный алгоритм кластеризации, что примечательно, появился сравнительно недавно, а именно в ноябре этого года и автором является Дэвид Варади. Ссылка на первоисточник будет доступна в конце статьи.
Читать дальше →
Всего голосов 29: ↑21 и ↓8 +13
Просмотры 13K
Комментарии 9

Как запутать аналитика — 4. Вероятность и точность

Семантика *Анализ и проектирование систем *IT-стандарты *Математика *
В прошлой статье я сказал, что числовые атрибуты напрямую связаны с операциями, которые мы проводим над объектами. При этом натуральные числа – самый простой из рассматриваемых нами атрибутов. Есть и более сложные. Например, матрицы. Если мы говорим о свойстве линейного преобразования в трехмерном пространстве, то оно записывается 9-ю числовыми значениями, из которых удобно сформировать матрицу размером 3 на 3. Причина этого в том, что два преобразования, выполненных последовательно, — тоже преобразование, числовые атрибуты которого могут быть получены путем перемножения двух матриц. В этом сила моделирования преобразования при помощи матрицы.

Я бы много отдал, чтобы преподавание математики строилось именно таким способом: через практическую задачу, через ввод нужных объектов (чисел, матриц, волновых функций) и объяснение, как операции над ними помогают решать конкретные задачи. Именно так строилось обучение в физмат школе, в которой мне довелось учиться – в интернате №18 при МГУ, спасибо преподавателям!
Читать дальше →
Всего голосов 21: ↑14 и ↓7 +7
Просмотры 6.2K
Комментарии 15

Почему DataScientist-ы не используют ошибки первого и второго рода

Анализ и проектирование систем *Big Data *Математика *Машинное обучение *
Tutorial

Вчера мне в очередной раз пришлось объяснять почему DataScientist-ы не используют ошибки первого и второго рода и зачем же ввели полноту и точность. Вот прямо заняться нам нечем, лишь бы новые критерии вводить.


И если ошибка второго рода выражается просто:


$O_2 = 1 - \Pi$


где Π — это полнота;


то вот ошибка первого рода весьма нетривиально выражается через полноту и точность (см.ниже).


Но это лирика. Самый важный вопрос:


Почему в DataScience используют полноту и точность и почти никогда не говорят об ошибках первого и второго рода?

Кто не знает или забыл — прошу под кат.


Дальше читать
Всего голосов 16: ↑13 и ↓3 +10
Просмотры 15K
Комментарии 6

Как использовать трамваи, чтобы водителю такси стало проще вас найти

Глобальные системы позиционирования *Data Mining *Big Data *
Из песочницы
В продолжение дискуссии вокруг статьи о методе повышения точности позиционирования, разработанном в Uber, мне хотелось бы поделиться о проводимых в своей небольшой компании исследованиях и рассказать о технологии, с помощью которой мы пытаемся решить аналогичную задачу. Сразу отмечу, что здесь не будет никаких математических выкладок и глубоких технических подробностей, все пояснения постараюсь сделать максимально доступным языком. Если стало интересно узнать, а причем здесь собственно трамваи, то прошу под кат.
Читать дальше →
Всего голосов 10: ↑8 и ↓2 +6
Просмотры 4.3K
Комментарии 15

Использование поляризованного света вместе с Kinect увеличивает точность 3D-сканирования в 1000 раз

Блог компании ua-hosting.company Научно-популярное Физика Игры и игровые консоли

Алгоритмы поляризации света позволили создать серийные датчики глубины с разрешением, в 1000 раз превышающим показатели их предшественников.


image
Исследователи из Массачусетского технологического института (MIT) выяснили, что поляризация света — физическое явление, лежащее в основе технологии создания поляризационных солнцезащитных очков и большинства 3D-фильмов — позволит увеличить разрешение привычных устройств 3D-визуализации в 1000 раз.

Благодаря данной технологии в мобильных телефонах появятся высококачественные встроенные 3D-камеры и можно будет делать фото, сразу же отправляя их на печать с 3D-принтера.

Один из разработчиков новой системы Ахута Кадамби, аспирант лаборатории MIT Media Lab, отметил: «Уже сегодня можно уменьшить 3D-камеру до размеров, соответствующих параметрам мобильных телефонов. Но это сказывается на чувствительности 3D-датчиков, что приводит к весьма грубому воспроизведению геометрических форм. Мы используем естественные механизмы поляризации. Так благодаря поляризационным фильтрам даже при эксплуатации датчиков низкого качества мы получаем результаты, по качеству заметно превосходящие изображения объектов с лазерных сканеров, применяемых в машиностроении».
Читать дальше →
Всего голосов 29: ↑27 и ↓2 +25
Просмотры 15K
Комментарии 5

Точность измерений

Блог компании LampTest Гаджеты Энергия и элементы питания
Я столкнулся с фактом, который удивил меня и скорее всего удивит и вас. Оказывается, измерить напряжение в сети с точностью хотя бы до одного вольта — почти невыполнимая задача.



Шесть приборов на этом фото показывают разные значения, причём максимальное отличается от минимального, более чем на 6 вольт.

Читать дальше →
Всего голосов 45: ↑41 и ↓4 +37
Просмотры 47K
Комментарии 180

Сэмплирование и точность вычислений

Data Mining *Аналитика мобильных приложений *Управление продуктом *

Ряд моих коллег сталкиваются с проблемой, что для расчета какой-то метрики, например, коэффициента конверсии, приходится кверить всю базу данных. Или нужно провести детальное исследование по каждому клиенту, где клиентов миллионы. Такого рода квери могут работать довольно долго, даже в специально сделанных для этого хранилищах. Не очень-то прикольно ждать по 5-15-40 минут, пока считается простая метрика, чтобы выяснить, что тебе нужно посчитать что-то другое или добавить что-то еще.


Одним из решений этой проблемы является сэмплирование: мы не пытаемся вычислить нашу метрику на всем массиве данных, а берем подмножество, которое репрезентативно представляет нам нужные метрики. Это сэмпл может быть в 1000 раз меньше нашего массива данных, но при этом достаточно хорошо показывать нужные нам цифры.


В этой статье я решил продемонстрировать, как размеры выборки сэмплирования влияют на ошибку конечной метрики.

Читать дальше →
Всего голосов 15: ↑14 и ↓1 +13
Просмотры 9.2K
Комментарии 4

Краеугольные камни уничтожения медленного кода в Wolfram Language: ускоряем код в десятки, сотни и тысячи раз

Блог компании Wolfram Research Программирование *Алгоритмы *Отладка *Функциональное программирование *
Tutorial
Скачать файл с кодом и данные можно в оригинале поста в моем блоге

Картинка к вебинару и посту взята не просто так: в определенном смысле символьное ядро Wolfram Language можно сравнить с Таносом — если бы его мощь была бы направлена в правильное русло, он мог бы стать самым мощным и полезным «добряком». Так же и с символьным ядром Wolfram — его чудовищную мощь нужно правильно использовать, а если это делать не так, оно может стать настоящим «злом», замедляющим все очень сильно. Начинающие разработчики не знают многих важнейших парадигм, идей и принципов языка Wolfram Language, пишут код, который на самом деле дико неэффективен и после этого разочаровываются, хотя тут нет вины Wolfram Language. Эту ситуацию призвана исправить эта статья.

Мне довелось работать с Wolfram Language начиная с (уже довольно далекого) 2005 года (тогда еще была версия Mathematica 5.2, сейчас уже 12-я). За эти почти 15 лет произошло очень много: добавились тысячи новых встроенных функций и областей, в которых они работают (машинное обучение, точная геометрия, работа с аудио, работа в вебе, облачные возможности, глубокая поддержка единиц измерения, интеграция с базами данных Wolfram|Alpha, географические вычисления, поддержка работы с CUDA, Python, распараллеливание операций и многое многое другое), появились новые сервисы — облако Wolfram Cloud, широко известная система вычислительных значeний Wolfram|Alpha, репозиторий функций, репозиторий нейросетей и пр.
Всего голосов 22: ↑21 и ↓1 +20
Просмотры 7.8K
Комментарии 20

Неуловимый эталон времени: новый тип сверхточных атомных часов

Блог компании ua-hosting.company Читальный зал Производство и разработка электроники *Научно-популярное Физика


Поиски идеала это бесконечный поход по пустыне. Мы идем по бескрайнему морю песка, пересекая бархан за барханом, пока палящее солнце медленно, но верно отбирает у нас последние запасы воли и надежды. И вот на горизонте мы видим нечто прекрасное, нечто, что мы так надеялись найти. Но пустыня обманчива и коварна, а образ, увиденный нами, всего лишь мираж. И мы продолжаем идти дальше, пока горячий ветер заметает наши следы, не оставляя возможности вернутся назад. Идеал это мираж, к которому мы постоянно стремимся, и который ускользает от нас, как только мы к нему приближается. Каждый раз когда кто-то создает что-то идеально, оно существует в таком статусе недолго, ибо всегда есть куда расти, всегда есть место для совершенствования. Эта пустыня не имеет конца.

Еще один аспект бытия, который мы по своей наивности считаем подконтрольным нам, это время. Мы его уделяем, коротаем, экономим, измеряем и отсчитываем, но по большей степени мы его теряем. Атомные часы считаются идеальным инструментом измерения времени. Но с каждым новым таким устройством предыдущее теряет свой «эталонный» статус, а идеал, как ему это свойственно, становится на шаг ближе и на два шага дальше.

Сегодня мы познакомимся с исследованием ученых из МТИ (Массачусетский технологический институт, США), в котором они описывают новый тип атомных часов, способных отсчитывать время точнее своих предшественников. Каковы фундаментальные физические принципы, заложенные в данное устройство, как оно работает, и насколько точно в этот ученые отмеряют время? Ответы на эти вопросы ждут нас в докладе ученых. Поехали.
Читать дальше →
Всего голосов 17: ↑17 и ↓0 +17
Просмотры 5.3K
Комментарии 1