Да, я довольно нечётко выразился. «Органику» и воду действительно нынче можно найти даже и просто в космосе, это не редкость. И наверняка в глубинах Марса и Европы скоро найдут какие-то простые формы жизни, условия там для этого были/есть. Но для сложных форм жизни скорее всего нужна атмосфера, для атмосферы нужно магнитное поле, для магнитного поля нужно железное ядро. Ну и т.д. Тому же Марсу не повезло, у него слабое магнитное поле и он лишился атмосферы раньше, чем там успела развиться сложная жизнь.
Кроме всего прочего, Земля довольно уникальна по своим параметрам (в том числе благодаря столкновению с Теей с образованием Луны). Вполне может быть, что такие хорошие условия для зарождения жизни встречаются слишком редко во Вселенной и ещё и поэтому, учитывая космические масштабы, источники жизни находятся слишком уж далеко друг от друга, чтобы видеть друг-друга и тем более как-то коммуницировать.
Статья скорее не про логику нейросетей, а про аппроксимацию распределений. Видно, что писал человек, который силён статистике, простым людям читать тяжеловато. Тут могли бы помочь наглядные блок-схемы, чтобы можно было понять, что за «логику» мы пытаемся приблизить нейросетью.
Ну вот вы основываясь на чём так утверждаете? Я не спорю, что XGBoost хорош почти всегда (редкий кернел на Каггле обходится без него), но и судя по разным тестам моделей, которые я читал, и по личному опыту работы с текстами, NB как ни странно с текстами работает и быстро и достаточно качественно. Бустинги на больших объёмах текстов требуют очень много памяти и работают довольно медленно. И при этом дают качество не сильно то лучшее. Именно поэтому NB всё ещё актуален.
Для русского языка есть лемматизатор pymorphy2. Чтобы ускорить работу стеммера/лемматизатора, работающего с отдельными словами, можно обернуть его вызов в функцию с декоратором @lru_cache, это часто даёт 10-кратный прирост скорости.
Но, конечно, сейчас чаще используются такие языковые модели как BERT, FastText и т.д. Эмбединнги (в том числе на буквах, а не только на словах) гораздо эффективнее, чем BoW, TF/IDF и прочие статистические текстовые модели.
Электронный микроскоп показывает некую интерпретацию реальности. Он, насколько я понимаю, показывает некую условную визуализацию атома в месте его наиболее вероятного нахождения, но на основании этой картинки нельзя делать вывод о том, что атом реально «выглядит» таким образом и говорить, что «атом находится в этом месте». Это всё условность, основанная на вероятностях. Так понятно? :)
Ну понятно, что в NLP могут применяться разные методы машинного обучения, в том числе нейросети (и они сейчас вообще SOTA для NLP). Но сам по себе NLP не равно нейросетям от слова «никак».
Да ведь не в коде дело, а в явном непонимании концепций из области машинного обучения. Вижу, что есть стремление понять — это похвально. Но понимания пока нет, лучше на эту тему не писать.
Очень искусственное сопоставление. «Попытка натянуть сову на глобус.» Кроме одинаковой аббревиатуры (если не брать в расчёт разницу в языках), в этих понятиях нет ничего общего, на самом деле.
Судя по тексту, автор хорошо ориентируется в «НЛП», но очень поверхностно знаком с NLP в частности и вообще с DS/ML/DL, поэтому получился в общем-то ожидаемый псевдонаучный бред, извините.
Думаю, в ближайшем будущем практически все данные на каждого человека будут публично доступны и сделать с этим уже ничего нельзя в современном мире. Нужны какие-то другие механизмы — ну там неотвратимо карать за криминальное использование этих данных, например, и т.д. По типу как ты можешь купить ножик в любом хозяйственном, вопрос в том, как ты им дальше распорядишься. С информацией будет примерно так же.
Да, почему-то про Data Engineer тут забыли
И тем не менее, если не брать в расчёт нейросети, из «традиционных алгоритмов» именно наивный Байес с текстами работает очень неплохо.
Но, конечно, сейчас чаще используются такие языковые модели как BERT, FastText и т.д. Эмбединнги (в том числе на буквах, а не только на словах) гораздо эффективнее, чем BoW, TF/IDF и прочие статистические текстовые модели.
Судя по тексту, автор хорошо ориентируется в «НЛП», но очень поверхностно знаком с NLP в частности и вообще с DS/ML/DL, поэтому получился в общем-то ожидаемый псевдонаучный бред, извините.