All streams
Search
Write a publication
Pull to refresh
13
0
oauth2 @mc_dir

User

Send message
Все верно. Но на первых парах даже примитивные действия заняли много времени. Что уж говорить о коде, который будет выбирать часть речи, опираясь на контекст. Но для выявления общих закономерностей статистика вполне годится, тем более что еде то на 100 000 повторения структуры предложения почти закончились, а из 90 000 000 это уже результат.
Я б настоятельно не советовал с такими базами — моя 21G работать через кого-то типа Google Fusion Tables или слабый хостинг. Конфигурация моего сервера думаю не из самых слабых. Я так понял, что когда таблицы переваливают за какой-то порог вопросы быстродействия железа, канала доступа, настроек сервера становятся очень остро. Цена ошибки — сутки, а в моем случае месяцы работы сервера. В частности — php скрипт который собирал статистку был запущен с включенным zend_debuger без оптимизаторов типа xcache и прочих. В итоге, думаю задержки которые при прочих условиях дали бы секунды простоя вылились в часы и сутки добавочного времени. При чем в моем случае я сделал вывод что задержки были еще и из-за IO (медленный винт)

Information

Rating
Does not participate
Location
Минск, Минская обл., Беларусь
Registered
Activity