oauth2 @mc_dir
User
Наиболее часто встречающаяся структура предложений в русском языке по версии библиотеки Флибуста

Все верно. Но на первых парах даже примитивные действия заняли много времени. Что уж говорить о коде, который будет выбирать часть речи, опираясь на контекст. Но для выявления общих закономерностей статистика вполне годится, тем более что еде то на 100 000 повторения структуры предложения почти закончились, а из 90 000 000 это уже результат.
0
LookНаиболее часто встречающаяся структура предложений в русском языке по версии библиотеки Флибуста

Я б настоятельно не советовал с такими базами — моя 21G работать через кого-то типа Google Fusion Tables или слабый хостинг. Конфигурация моего сервера думаю не из самых слабых. Я так понял, что когда таблицы переваливают за какой-то порог вопросы быстродействия железа, канала доступа, настроек сервера становятся очень остро. Цена ошибки — сутки, а в моем случае месяцы работы сервера. В частности — php скрипт который собирал статистку был запущен с включенным zend_debuger без оптимизаторов типа xcache и прочих. В итоге, думаю задержки которые при прочих условиях дали бы секунды простоя вылились в часы и сутки добавочного времени. При чем в моем случае я сделал вывод что задержки были еще и из-за IO (медленный винт)
+2
LookHere
123
4There
Information
- Rating
- Does not participate
- Location
- Минск, Минская обл., Беларусь
- Registered
- Activity