Комментарии / Профиль dimview / Хабр

Дмитрий Майоров@dimview

Неправильные, но полезные модели

ПрофильСтатьи5ПостыНовостиКомментарии296

Уже 2016 год, а будущее всё никак не наступает. Кто виноват и что делать?

dimview 5 июн 2016 в 15:02

Статей не было потому, что IQ не имеет отношения к уровню интеллекта. Он меряет умение быстро решать простые задачки нескольких заранее определённых типов. Гугл наверняка может натренировать нейронную сеть, которая наберёт IQ выше потолка, только толку от такой сети не будет.

Уже 2016 год, а будущее всё никак не наступает. Кто виноват и что делать?

dimview 4 июн 2016 в 12:49

Давайте лучше цифры сравнивать. В Европе и Штатах смертность от туберкулёза была от 800 до 1000 на 100 тысяч населения в год. В 2006 году эта цифра упала до 0,47.

По аналогии посмотрите на цифры для остальных упомянутых болезней. Например, сколько было случаев оспы после 1977 года.

Уже 2016 год, а будущее всё никак не наступает. Кто виноват и что делать?

dimview 4 июн 2016 в 01:04

> Есть хоть 1 болезнь, которую мы можем вылечить полностью, без тяжелейших последствий и простого удаления всего до чего можем добраться?

Про туберкулёз слышали? Сифилис, сибирская язва, оспа, чума, бешенство, далее по списку.

Security Week 16: взлом мыши с 225 метров, детектор криптолокеров в Mac OS X, миллион долларов за взлом iPhone

dimview 24 апр 2016 в 18:32

А вы часто видите диски, которые заняты меньше чем наполовину? Если все файлы увеличить в два раза, их будет некуда писать.

Security Week 16: взлом мыши с 225 метров, детектор криптолокеров в Mac OS X, миллион долларов за взлом iPhone

dimview 23 апр 2016 в 13:56

> Есть только один способ — не шифровать.

К сожалению, дурное дело нехитрое. Криптолокеру необязательно шифровать весь файл. Чтобы файл испортить, достаточно зашифровать только его часть — например, заголовок и псеводослучайно выбранные байты в середине. Энтропия возрастёт незначительно, а исправить будет сложно.

Security Week 16: взлом мыши с 225 метров, детектор криптолокеров в Mac OS X, миллион долларов за взлом iPhone

dimview 23 апр 2016 в 13:48

При использовании стеганографии увеличится размер файла, причём не на проценты, а в разы. Зашифровать таким образом много файлов не получится.

Зачем инженеру книги, когда есть интернет

dimview 22 апр 2016 в 00:04

Одно дело отношение количества материала к воде, другое дело — размер произведения. Они необязательно связаны. Есть которкие статьи в интернете, состоящие преимущественно из воды. Есть книжки вроде Кнута, где объём большой, но при этом воды нет вообще.

Та же история с авторитетом и опытом автора. Когда в СССР издательство Мир выбирало, какие технические книги переводить, это делалось не наугад, поэтому среди старых книг соотношение сигнал/шум лучше. Сейчас же печатается всё, что покупается, «C++ для чайников за 24 часа» покупается хорошо, а PageRank на бумаге не работает.

Зачем инженеру книги, когда есть интернет

dimview 20 апр 2016 в 20:46

Почему же глупо? Это просто особенность носителя информации. Есть твит в 140 символов, статья, рассказ, повесть, роман и так далее. Если тему можно осветить на паре страниц, нет смысла пытаться сделать из этого книгу.

Зачем инженеру книги, когда есть интернет

dimview 20 апр 2016 в 20:29

Потому что оплата производится за авторский лист. В контракте написано N авторских листов, автор добавляет материал, пока не наберёт заданный объём.

Вы ж не будете платить одинаковую цену за книгу на 80 страницах и за книгу на 1200 страницах.

Как нельзя делать рекомендации контента

dimview 25 мар 2016 в 02:52

Так в том-то и дело, что можно обойтись без залезания в дебри. Просто разбить текст по пробелам и всё. При этом даже неважно, на каком языке текст (в некоторых пределах, конечно, с японским и китайским будет сложнее, там даже разбить текст на слова не так просто). Народная мудрость гласит, что more data beats better algorithms.

Как нельзя делать рекомендации контента

dimview 25 мар 2016 в 02:48

Статья про рекомендации контента, поэтому и мои комментарии были про этот случай. Полнотекстовый анализ для решения этой конкретной задачи не только не нужен, но и зачастую вреден. По крайней мере если есть достаточно данных. А если недостаточно, то и полнотекстовый анализ вряд ли поможет.

Как нельзя делать рекомендации контента

dimview 24 мар 2016 в 22:10

нужно, но потом нужно каким-то образом бороться

То есть сами себе создаём сложности, а потом не всегда успешно их преодолеваем.

Как нельзя делать рекомендации контента

dimview 24 мар 2016 в 22:08

Вы рассказываете про преимущества стеммера, а я рассказываю про его недостатки. Одно другому не противоречит.
То же самое касается и других аспектов статьи. Тот же tf, например — если у нас заголовки статей или твиты, то пользы от tf никакой. Слово или встречается раз, или не встречается вообще. Если слово встречается два раза в одном твите, то оно скорее всего из стоп-листа.
Или idf — слово этилоксиэтилпарафенилентриопечаткисделалнаверноедиаминсульфат встречается только в этом комментарии, поэтому idf у него отличный, но похожие комментарии нужно искать по другим словам, у которых idf хуже.
Это я всё к тому, что слово "обязательно" к подобным задачам неприменимо. На каждый случай, где разные падежи надо воссоединять, найдётся случай, где не надо. Например, потому что падежей вообще нет, или потому что данных столько, что слово во всех падежах встречается в товарных количествах.

Как нельзя делать рекомендации контента

dimview 24 мар 2016 в 01:23

неплохо бы (на самом деле обязательно) привести все слова в тексте к словарным формам или хотя бы лемматизировать

Вот так прям и обязательно. А потом система не может отличить фильм The Terminator от фильма The Terminal, потому что после портера они совершенно одинаковы. Я уж не говорю про добавление нового языка, к каждому из которых надо писать или искать свой стеммер.

Алгоритмы — это лишь одна из переменных в уравнении

dimview 19 мар 2016 в 18:20

Необходимо определить, о какой именно разработке идёт речь. Есть CRUD, есть shrinkwrap, есть внутренний софт, одноразовый, микроконтроллеры, научный, игры — у них у всех разные требования.

Переводчику с китайского на французский необязательно знать арабский, а переводчику с арабского — нужно.

Математика на пальцах: методы наименьших квадратов

dimview 17 мар 2016 в 23:38

Как из квадратных метров получается энергия?

Умножением на коэффициент. Например, энергия пружины k * x ^ 2 / 2.

Почему я пишу свои алгоритмы в 95% случаев, и буду и дальше разрабатывать кодовые велосипеды

dimview 16 мар 2016 в 13:25

Вы ~~изобрели~~ независимо открыли вот этот велосипед. Программирование — единство и борьба противоположностей:

Желание сократить избыточность (не повторяться)
Желание сократить зависимости

Избыточность — плохо, но зависимости — ещё хуже.

Почему я пишу свои алгоритмы в 95% случаев, и буду и дальше разрабатывать кодовые велосипеды

dimview 16 мар 2016 в 13:13

jmp может быть не только результатом goto, но также и результатом else, не считая более изысканных случаев.

Кроме того, jmp вперёд и jmp назад — совершенно разные по степени запутывания кода.

А нужно ли знать программисту алгоритмы?

dimview 13 мар 2016 в 12:48

Приведённый контрпример таковым не является. Понятно, что не в любом не-CRUD проекте нужно знание алгоритомов. Тем не менее такие проекты существуют, я выше в этой ветке даже примеры приводил.

Знакомьтесь, линейные модели

dimview 13 мар 2016 в 12:38

ответ — это функция от линейной комбинации вектора весов на входные признаки

Вы используете определение обобщённой линейной модели. А я говорю про линейную модель. Линейные модели — частный случай обобщённых линейных моделей, а не наоборот.

3 4 ...

14 15