Pull to refresh
68
0
Anton Sukhachev @mrsuh

Web Developer

Send message
По поводу актуализации данных: на сайте представлены данные только за последние две недели(каждый день объявления старше двух недель переносятся в холодную БД). Остальные объявления доступны только по прямой ссылке.

https://vk.com/licence
Размещая информацию в Социальной сети, в том числе учетные и иные данные, Лицензиат соглашается, что такая информация может быть доступна другим пользователям сети Интернет с учетом существующего функционала Социальной сети (который может изменяться время от времени Лицензиаром), а также что Лицензиар может ограничивать использование третьими лицами информации из Социальной сети, в том числе в коммерческих целях


По поводу ркн спасибо, нужно еще почитать и посоветоваться с знающими людьми.
Спасибо. Читал обе эти статьи. Пока что борюсь с агентами вручную с помощью черных списков.
Что вы подразумеваете под актуализацией?
Весь контент взят из публичных источников( в том числе имена и телефоны).
Мне казалось, что по статье можно повторить опыт. Скажите, что именно вам непонятно, и я постараюсь рассказать об этом подробней.

На хабре уже были статьи про классификацию текстов
https://habrahabr.ru/company/meanotek/blog/256593/
https://habrahabr.ru/post/130278/

Обычно используется преобразование слов в векторы с помощью word2vec и результат не превышает 80%. В моем случае так было сделать нельзя из за свободной формы написания объявлений(часто с ошибками и различными сокращениями)
Он уже доступен. Просто я ссылку не оставлял в самой статье(Зато они указаны в репо на github).
Здорово. Нужно попробовать AWS
По паролю никто и не ходит(для надежности, вдруг кто захочет sudo su сделать).
Можете рассказать, как создать виртуалку сразу с моим ключем(это бы упростило мне жизнь)?
Сервер с Ansible можно было бы настроить самим Ansible (хотя на самом деле не всё, вроде смены пароля от рута и установки самого Ansible. Поэтому все равно прийдется руками что то настраивать)
На сервер с проектом все равно нужно сначала настроить доступ, чтобы Ansible смог туда подключиться.
Приватные ключи шифруются утилитой travis cli. Так что все норм
У нас значения в redis обновляются каждые 1-5 минут с помощью php. Поэтому данные нужно забирать именно от туда. Но про shared_dict хорошее замечание, посмотрю, можно ли его будет где применить.
Мне повезло, бандлы, которые использовались в проекте все еще существуют и развиваются. Некоторые поменяли свои названия или были разбиты на более мелкие бандлы. Конечно, если репозиторий бандла более не существует, то логично функицонал, который использовался с этим бандлом, переписать на другой, более новый, либо оставить старую версию прямо в папке vendors. Если мы будет подтягивать зависимости composer'ом, то папку этого бандла он не затрет.

Information

Rating
Does not participate
Registered
Activity