Обновить
5
0
Alexander Gansior - Александр Гансиор@gansior_al

data scientist, Python, PySpark, Hadoop, Kafka

Отправить сообщение

Очень хороший стиль изложения у автора. Увлек. Дочитал до конца. Спасибо. Есть полезные идеи и мысли.

Сложно назвать word2vec более современным методом. Создан в 2013 году.

Спасибо за пост!!

Выбираю - NVIDIA (Performance Mode) или NVIDIA On-Demand - перестает работать HDMI. Перехожу на интегрированную карту все начинает работать. Как можно исправить?

Маленькая ошибочка в коде метода GET нужно писать
task = list(filter(lambda t: t['id'] == task_id, tasks))
В последнем примере кода маленькая error написано values=['MTL', 'SF'], а надо value=['MTL', 'SF']. В общем спасибо за статью.
При обработке текстов создается словарь. Как правило на 200 Gb текста словарь составляет всего 1-2 M слов во всех словоформах. После устранения всех ошибок, и лемматизации и т.д. словарь уменьшается до 70-150 К. Полная матрица отношений займет примерно 30 Gb. Но для расчетов ее не применяют т.к. она практически пустая. Поэтому «комбинаторный взрыв» не происходит.
Конечно может. Но надо четко понимать, что первый шаг — это дать алгоритму поработать на массиве данных в которых будет осуществляться поиск. Он создаст все эти калибровочные слои — которые в общем- то представляют из себя своеобразные фильтры.

Если мошенник может обмануть обученную модель, значит проблема в полноте данных?
Модель надо дообучать. (Условие — мошенник не имеет доступ к данным)

Это правильно. Т.к. в некоторых компаниях уже осознают, что у них есть данные, но что с ними делать еще не знают.

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность

Специализация

Фулстек разработчик, Инженер по данным
Старший
От 400 000 ₽
Python
Docker
Linux
SQL
Git
PostgreSQL
Apache Kafka
Kubernetes
Высоконагруженные системы
Проектирование архитектуры приложений