Статей не было потому, что IQ не имеет отношения к уровню интеллекта. Он меряет умение быстро решать простые задачки нескольких заранее определённых типов. Гугл наверняка может натренировать нейронную сеть, которая наберёт IQ выше потолка, только толку от такой сети не будет.
К сожалению, дурное дело нехитрое. Криптолокеру необязательно шифровать весь файл. Чтобы файл испортить, достаточно зашифровать только его часть — например, заголовок и псеводослучайно выбранные байты в середине. Энтропия возрастёт незначительно, а исправить будет сложно.
Одно дело отношение количества материала к воде, другое дело — размер произведения. Они необязательно связаны. Есть которкие статьи в интернете, состоящие преимущественно из воды. Есть книжки вроде Кнута, где объём большой, но при этом воды нет вообще.
Та же история с авторитетом и опытом автора. Когда в СССР издательство Мир выбирало, какие технические книги переводить, это делалось не наугад, поэтому среди старых книг соотношение сигнал/шум лучше. Сейчас же печатается всё, что покупается, «C++ для чайников за 24 часа» покупается хорошо, а PageRank на бумаге не работает.
Почему же глупо? Это просто особенность носителя информации. Есть твит в 140 символов, статья, рассказ, повесть, роман и так далее. Если тему можно осветить на паре страниц, нет смысла пытаться сделать из этого книгу.
Так в том-то и дело, что можно обойтись без залезания в дебри. Просто разбить текст по пробелам и всё. При этом даже неважно, на каком языке текст (в некоторых пределах, конечно, с японским и китайским будет сложнее, там даже разбить текст на слова не так просто). Народная мудрость гласит, что more data beats better algorithms.
Статья про рекомендации контента, поэтому и мои комментарии были про этот случай. Полнотекстовый анализ для решения этой конкретной задачи не только не нужен, но и зачастую вреден. По крайней мере если есть достаточно данных. А если недостаточно, то и полнотекстовый анализ вряд ли поможет.
Вы рассказываете про преимущества стеммера, а я рассказываю про его недостатки. Одно другому не противоречит.
То же самое касается и других аспектов статьи. Тот же tf, например — если у нас заголовки статей или твиты, то пользы от tf никакой. Слово или встречается раз, или не встречается вообще. Если слово встречается два раза в одном твите, то оно скорее всего из стоп-листа.
Или idf — слово этилоксиэтилпарафенилентриопечаткисделалнаверноедиаминсульфат встречается только в этом комментарии, поэтому idf у него отличный, но похожие комментарии нужно искать по другим словам, у которых idf хуже.
Это я всё к тому, что слово "обязательно" к подобным задачам неприменимо. На каждый случай, где разные падежи надо воссоединять, найдётся случай, где не надо. Например, потому что падежей вообще нет, или потому что данных столько, что слово во всех падежах встречается в товарных количествах.
неплохо бы (на самом деле обязательно) привести все слова в тексте к словарным формам или хотя бы лемматизировать
Вот так прям и обязательно. А потом система не может отличить фильм The Terminator от фильма The Terminal, потому что после портера они совершенно одинаковы. Я уж не говорю про добавление нового языка, к каждому из которых надо писать или искать свой стеммер.
Необходимо определить, о какой именно разработке идёт речь. Есть CRUD, есть shrinkwrap, есть внутренний софт, одноразовый, микроконтроллеры, научный, игры — у них у всех разные требования.
Переводчику с китайского на французский необязательно знать арабский, а переводчику с арабского — нужно.
Приведённый контрпример таковым не является. Понятно, что не в любом не-CRUD проекте нужно знание алгоритомов. Тем не менее такие проекты существуют, я выше в этой ветке даже примеры приводил.
ответ — это функция от линейной комбинации вектора весов на входные признаки
Вы используете определение обобщённой линейной модели. А я говорю про линейную модель. Линейные модели — частный случай обобщённых линейных моделей, а не наоборот.
По аналогии посмотрите на цифры для остальных упомянутых болезней. Например, сколько было случаев оспы после 1977 года.
Про туберкулёз слышали? Сифилис, сибирская язва, оспа, чума, бешенство, далее по списку.
К сожалению, дурное дело нехитрое. Криптолокеру необязательно шифровать весь файл. Чтобы файл испортить, достаточно зашифровать только его часть — например, заголовок и псеводослучайно выбранные байты в середине. Энтропия возрастёт незначительно, а исправить будет сложно.
Та же история с авторитетом и опытом автора. Когда в СССР издательство Мир выбирало, какие технические книги переводить, это делалось не наугад, поэтому среди старых книг соотношение сигнал/шум лучше. Сейчас же печатается всё, что покупается, «C++ для чайников за 24 часа» покупается хорошо, а PageRank на бумаге не работает.
Вы ж не будете платить одинаковую цену за книгу на 80 страницах и за книгу на 1200 страницах.
То есть сами себе создаём сложности, а потом не всегда успешно их преодолеваем.
То же самое касается и других аспектов статьи. Тот же tf, например — если у нас заголовки статей или твиты, то пользы от tf никакой. Слово или встречается раз, или не встречается вообще. Если слово встречается два раза в одном твите, то оно скорее всего из стоп-листа.
Или idf — слово этилоксиэтилпарафенилентриопечаткисделалнаверноедиаминсульфат встречается только в этом комментарии, поэтому idf у него отличный, но похожие комментарии нужно искать по другим словам, у которых idf хуже.
Это я всё к тому, что слово "обязательно" к подобным задачам неприменимо. На каждый случай, где разные падежи надо воссоединять, найдётся случай, где не надо. Например, потому что падежей вообще нет, или потому что данных столько, что слово во всех падежах встречается в товарных количествах.
Вот так прям и обязательно. А потом система не может отличить фильм The Terminator от фильма The Terminal, потому что после портера они совершенно одинаковы. Я уж не говорю про добавление нового языка, к каждому из которых надо писать или искать свой стеммер.
Переводчику с китайского на французский необязательно знать арабский, а переводчику с арабского — нужно.
Умножением на коэффициент. Например, энергия пружины k * x ^ 2 / 2.
изобрелинезависимо открыли вот этот велосипед. Программирование — единство и борьба противоположностей:Избыточность — плохо, но зависимости — ещё хуже.
Кроме того, jmp вперёд и jmp назад — совершенно разные по степени запутывания кода.
Вы используете определение обобщённой линейной модели. А я говорю про линейную модель. Линейные модели — частный случай обобщённых линейных моделей, а не наоборот.