Как стать автором
Обновить
65
0
Дмитрий Майоров @dimview

Неправильные, но полезные модели

Отправить сообщение
Статей не было потому, что IQ не имеет отношения к уровню интеллекта. Он меряет умение быстро решать простые задачки нескольких заранее определённых типов. Гугл наверняка может натренировать нейронную сеть, которая наберёт IQ выше потолка, только толку от такой сети не будет.
Давайте лучше цифры сравнивать. В Европе и Штатах смертность от туберкулёза была от 800 до 1000 на 100 тысяч населения в год. В 2006 году эта цифра упала до 0,47.

По аналогии посмотрите на цифры для остальных упомянутых болезней. Например, сколько было случаев оспы после 1977 года.
> Есть хоть 1 болезнь, которую мы можем вылечить полностью, без тяжелейших последствий и простого удаления всего до чего можем добраться?

Про туберкулёз слышали? Сифилис, сибирская язва, оспа, чума, бешенство, далее по списку.
А вы часто видите диски, которые заняты меньше чем наполовину? Если все файлы увеличить в два раза, их будет некуда писать.
> Есть только один способ — не шифровать.

К сожалению, дурное дело нехитрое. Криптолокеру необязательно шифровать весь файл. Чтобы файл испортить, достаточно зашифровать только его часть — например, заголовок и псеводослучайно выбранные байты в середине. Энтропия возрастёт незначительно, а исправить будет сложно.
При использовании стеганографии увеличится размер файла, причём не на проценты, а в разы. Зашифровать таким образом много файлов не получится.
Одно дело отношение количества материала к воде, другое дело — размер произведения. Они необязательно связаны. Есть которкие статьи в интернете, состоящие преимущественно из воды. Есть книжки вроде Кнута, где объём большой, но при этом воды нет вообще.

Та же история с авторитетом и опытом автора. Когда в СССР издательство Мир выбирало, какие технические книги переводить, это делалось не наугад, поэтому среди старых книг соотношение сигнал/шум лучше. Сейчас же печатается всё, что покупается, «C++ для чайников за 24 часа» покупается хорошо, а PageRank на бумаге не работает.
Почему же глупо? Это просто особенность носителя информации. Есть твит в 140 символов, статья, рассказ, повесть, роман и так далее. Если тему можно осветить на паре страниц, нет смысла пытаться сделать из этого книгу.
Потому что оплата производится за авторский лист. В контракте написано N авторских листов, автор добавляет материал, пока не наберёт заданный объём.

Вы ж не будете платить одинаковую цену за книгу на 80 страницах и за книгу на 1200 страницах.
Так в том-то и дело, что можно обойтись без залезания в дебри. Просто разбить текст по пробелам и всё. При этом даже неважно, на каком языке текст (в некоторых пределах, конечно, с японским и китайским будет сложнее, там даже разбить текст на слова не так просто). Народная мудрость гласит, что more data beats better algorithms.
Статья про рекомендации контента, поэтому и мои комментарии были про этот случай. Полнотекстовый анализ для решения этой конкретной задачи не только не нужен, но и зачастую вреден. По крайней мере если есть достаточно данных. А если недостаточно, то и полнотекстовый анализ вряд ли поможет.
нужно, но потом нужно каким-то образом бороться

То есть сами себе создаём сложности, а потом не всегда успешно их преодолеваем.
Вы рассказываете про преимущества стеммера, а я рассказываю про его недостатки. Одно другому не противоречит.
То же самое касается и других аспектов статьи. Тот же tf, например — если у нас заголовки статей или твиты, то пользы от tf никакой. Слово или встречается раз, или не встречается вообще. Если слово встречается два раза в одном твите, то оно скорее всего из стоп-листа.
Или idf — слово этилоксиэтилпарафенилентриопечаткисделалнаверноедиаминсульфат встречается только в этом комментарии, поэтому idf у него отличный, но похожие комментарии нужно искать по другим словам, у которых idf хуже.
Это я всё к тому, что слово "обязательно" к подобным задачам неприменимо. На каждый случай, где разные падежи надо воссоединять, найдётся случай, где не надо. Например, потому что падежей вообще нет, или потому что данных столько, что слово во всех падежах встречается в товарных количествах.
неплохо бы (на самом деле обязательно) привести все слова в тексте к словарным формам или хотя бы лемматизировать

Вот так прям и обязательно. А потом система не может отличить фильм The Terminator от фильма The Terminal, потому что после портера они совершенно одинаковы. Я уж не говорю про добавление нового языка, к каждому из которых надо писать или искать свой стеммер.
Необходимо определить, о какой именно разработке идёт речь. Есть CRUD, есть shrinkwrap, есть внутренний софт, одноразовый, микроконтроллеры, научный, игры — у них у всех разные требования.

Переводчику с китайского на французский необязательно знать арабский, а переводчику с арабского — нужно.
Как из квадратных метров получается энергия?

Умножением на коэффициент. Например, энергия пружины k * x ^ 2 / 2.
Вы изобрели независимо открыли вот этот велосипед. Программирование — единство и борьба противоположностей:

  • Желание сократить избыточность (не повторяться)
  • Желание сократить зависимости

Избыточность — плохо, но зависимости — ещё хуже.
jmp может быть не только результатом goto, но также и результатом else, не считая более изысканных случаев.

Кроме того, jmp вперёд и jmp назад — совершенно разные по степени запутывания кода.
Приведённый контрпример таковым не является. Понятно, что не в любом не-CRUD проекте нужно знание алгоритомов. Тем не менее такие проекты существуют, я выше в этой ветке даже примеры приводил.
ответ — это функция от линейной комбинации вектора весов на входные признаки

Вы используете определение обобщённой линейной модели. А я говорю про линейную модель. Линейные модели — частный случай обобщённых линейных моделей, а не наоборот.

Информация

В рейтинге
Не участвует
Откуда
США
Зарегистрирован
Активность