Через 100 лет не только ишак, но и все остальные не увидят результатов такого прогноза.
Вряд ли стоит что-либо прогнозировать на такой срок.
Ведь на другие планеты мы сейчас не летаем, как считали 50 лет назад, того же термояда нет, подводных городов, да и летающих автомобилей тоже не предвидится, про ИИ разговор (среди специалистов, а не фантастов) идет тоже уже лет 40.
А вот закон Мура работает.
Как говорили в популярном фильме «Жить захочешь — не так раскорячишься» :)
А если серьезно, то человек не слишком представляет, какие у него возможности могут проявиться, когда речь заходит о жизни и смерти. Есть известная байка о парашютисте, который разорвал руками прочнейшую сумку с парашютом, когда тот не выходил штатным образом. Знаю хорошую книгу В.Санина «Одержимый» о капитане, который рисковал судном и жизнью, экспериментируя с обледенением.
Отношение было действительно простое, но чуть иное: государство США — враг. Там было симметрично: Империя Зла.
А вот отношение к рядовым американцам, тем более, к космонавтам, очень хорошее.
Думаю, и у американцев было что-то похожее. Не зря «Москва слезам не верит» получил Оскара.
Ученые наши серьезно сотрудничали и в космосе, и в медицине, и в метеорологии, несмотря на серьезнейшую конкуренцию.
Сейчас о конкуренции давно забыли. Правда, космос и ВПК еще держатся, но с научным прогрессом никак.
Отличная работа, коллега!
По Вашему условию пример нашего проекта в этой области.
А по поводу Вашего алгоритма одно предложение: Вы используете тф*идф для предложений, тогда, может, стоит применить его для оценки слов документа, чтобы выкинуть совсем незначащие. Таким образом можно сократить количество шинглов. Также можно оптимизировать количество запросов к поисковикам, запрашивая в первую очередь наиболее значимые шинглы.
Плюс основной один: исключаются потери при транспортировке электроэнергии.
Это полный аналог «водородной энергетики».
Водород, конечно, выгоднее и чище сжигать, но опять же трудно транспортировать, да и не слишком безопасно.
Дальше можно и углубиться в это исследование.
Построить аналогичные словари для различных срезов Хабра.
Например, для популярных тегов, или плодовитых авторов, блогов компаний.
Здесь будет интересный вопрос, по чему взвешивать: по НКРЯ или всему Хабру. Во втором случае мы получим отличие словаря автора от словаря Хабра. Минус в этом случае — меньшая устойчивость результатов из-за меньшего объема текстов Хабра по сравнению с НКРЯ.
Аппетит приходит во время еды, пардон за банальность.
Может, у Вас руки дойдут и до тф*идф, ведь абсолютная частотность, как мы видим из Вашего примера (большое спасибо за работу!), практически не показывает реального лексикона, кроме тривиального.
Для определения «контрасности» слов используется мера TF-IDF, или ее модификации, одной из лучших считается BM25.
Конечно, результат сильно зависит от покрывающего множества (корпуса) текстов, он должен быть достаточно большим и тематически взвешенным. Для последнего, к сожалению, сколь-нибудь продуктивного определения нет.
В качестве такого корпуса можно взять НКРЯ. Здесь его самые частотные словоформы.
Интересно таким же образом посчитать и биграммы Хабра.
И Яндекс и Гугл давно уже используют анализ поведения пользователей, в частности, заход на сайты и время, проведенное на отдельных страницах для ранжирования результатов. Инструменты для этого — браузеры Хром и Яндекс, Я.Элементы.
Чем Ваш подход лучше?
Это не совсем то, что Вы утверждали.
Согласно Вашей цитате в группировке (а Анонимусы — группировка), одни агенты. Зачем там кого-то ловить?
А вот для выполнения заказов такая группировка вполне годится.
Согласно этой логике Анонимусы состоят почти сплошь из шпиков, поскольку они — несомненная цель для спецслужб. Следовательно, выполняют заказы. Не противоречит ли это фактам?
А еще цена определяется монополией.
Киндл — такая же монополия, как РЖД. Вроде, есть альтернативы (самолет, автомобиль), но для большого класса людей — нет.
Вряд ли стоит что-либо прогнозировать на такой срок.
Ведь на другие планеты мы сейчас не летаем, как считали 50 лет назад, того же термояда нет, подводных городов, да и летающих автомобилей тоже не предвидится, про ИИ разговор (среди специалистов, а не фантастов) идет тоже уже лет 40.
А вот закон Мура работает.
А если серьезно, то человек не слишком представляет, какие у него возможности могут проявиться, когда речь заходит о жизни и смерти. Есть известная байка о парашютисте, который разорвал руками прочнейшую сумку с парашютом, когда тот не выходил штатным образом. Знаю хорошую книгу В.Санина «Одержимый» о капитане, который рисковал судном и жизнью, экспериментируя с обледенением.
А вот отношение к рядовым американцам, тем более, к космонавтам, очень хорошее.
Думаю, и у американцев было что-то похожее. Не зря «Москва слезам не верит» получил Оскара.
Ученые наши серьезно сотрудничали и в космосе, и в медицине, и в метеорологии, несмотря на серьезнейшую конкуренцию.
Сейчас о конкуренции давно забыли. Правда, космос и ВПК еще держатся, но с научным прогрессом никак.
С Росфинмониторингом играться себе дороже.
По Вашему условию пример нашего проекта в этой области.
А по поводу Вашего алгоритма одно предложение: Вы используете тф*идф для предложений, тогда, может, стоит применить его для оценки слов документа, чтобы выкинуть совсем незначащие. Таким образом можно сократить количество шинглов. Также можно оптимизировать количество запросов к поисковикам, запрашивая в первую очередь наиболее значимые шинглы.
Это полный аналог «водородной энергетики».
Водород, конечно, выгоднее и чище сжигать, но опять же трудно транспортировать, да и не слишком безопасно.
Построить аналогичные словари для различных срезов Хабра.
Например, для популярных тегов, или плодовитых авторов, блогов компаний.
Здесь будет интересный вопрос, по чему взвешивать: по НКРЯ или всему Хабру. Во втором случае мы получим отличие словаря автора от словаря Хабра. Минус в этом случае — меньшая устойчивость результатов из-за меньшего объема текстов Хабра по сравнению с НКРЯ.
Может, у Вас руки дойдут и до тф*идф, ведь абсолютная частотность, как мы видим из Вашего примера (большое спасибо за работу!), практически не показывает реального лексикона, кроме тривиального.
Конечно, результат сильно зависит от покрывающего множества (корпуса) текстов, он должен быть достаточно большим и тематически взвешенным. Для последнего, к сожалению, сколь-нибудь продуктивного определения нет.
В качестве такого корпуса можно взять НКРЯ. Здесь его самые частотные словоформы.
Интересно таким же образом посчитать и биграммы Хабра.
Чем Ваш подход лучше?
Согласно Вашей цитате в группировке (а Анонимусы — группировка), одни агенты. Зачем там кого-то ловить?
А вот для выполнения заказов такая группировка вполне годится.
Киндл — такая же монополия, как РЖД. Вроде, есть альтернативы (самолет, автомобиль), но для большого класса людей — нет.