Как стать автором
Обновить
3
0
Тюлькин Олег @Tiulkin

Пользователь

Отправить сообщение

Уменьшение словаря до 390К, карта "соседских" двоек и троек, блум и ещё что-то читайте через неделю.

Во второй части будет описание, как я уменьшил словарь до 390000 без потерь.

Напишите обязательно! Я делал почти тоже самое, и тоже дошел до уменьшения слов до около 300К+ для скармливания их блуму, но так и не успел разобраться, как сохранить результат в <64k. В лучшем случае получал 120. Напишу об этом во второй части статьи.

Я просто раньше с Azure ML не работал и не знаю что в нём есть и чего от него ожидать, поэтому пошел по более-менее понятному мне пути.

Значит Вы учли что-то, чего не учёл я. Но вроде как, кроме количества согласных подряд, я скормил тот же набор данных.

SQL база у меня была локальная. Я хотел попробовать Azure ML, но споткнулся о существенную разницу в скорости выполнения запросов между азуровским и локальным SQL-серверами. В частности, создания таблицы с несуществующими четвёрками согласных, на азуре я так и не смог дождаться. Понимаю, что можно было поработать над оптимальностью запросов, но задача была другой.

Это мало, и это те же грабли, которые я опишу во второй части. Из-за того, что в реальных тестах много повторов, 65% на уникальных словах опустятся до 50%.

На каком объеме данных? Слова были уникальными, или так, как спарсили, так и передавали, включая повторы?

Да, только она сейчас неполная. Перед тем, как скармливать данные майнингу, я убрал из неё то, что отсекается описанными в этой статье простыми фильтрами. Сейчас в ней порядка 38М слов.

А хотя бы с порядком не сориентируете(тысячи/десятки тысяч/сотни тысяч/миллионы)?
Ok. Допустим, я — гик, которого вы ищете. Вы меня, наконец, нашли. Что мы делаем дальше?
Технические статьи тоже будут. Полного раскрытия «внутренностей» я не сделаю, т.к. там есть несколько «ноу-хау» которые я не хотел бы выносить в паблик, но все этапы разработки «с нуля», включая выбор инструментария, постараюсь осветить. А вот насколько я в этом разбираюсь и насколько «грамотными» были мои решения – я и сам понятия не имею, т.к. ориентиров не было. Именно поэтому первая статья была именно о том, о чём она была. А вообще, кроме технического, оттенок в большинстве статей всё-таки будет ещё и эмоциональный, как и в этой статье, т.к. не имея опыта в этих технологиях и руководствуясь исключительно здравым смыслом в создании с нуля чего-то совершенно нового я постоянно находился (и нахожусь) в сомнениях относительно принятых как технических, так и стратегических решений. Я не верю, что подобные вопросы беспокоят только меня, поэтому решил не игнорировать эмоциональную часть этого процесса.
Уж как-то очень быстро вы перешли на личности, навесили на меня ярлык и начали осуждать согласно этого ярлыка. Поверьте, я в состоянии освоить практически любую технологию в достаточно короткий срок (и освоил множество), и доказательство этому – выпущенный единолично продукт, для разработки которого пришлось с нуля разбираться и с разработкой под IOS, и с разработкой под Android, и со всем, что надо для создания сложного бэкенда, включая продвинутое администрирование Linux.

И лейтмотивом статьи была скорее констатация того, что появилось (и не только в IT) огромное количество навязываемых в виде различных курсов и сертификаций знаний и правил, за которыми иногда уже теряется здравый смысл. Причём без глубокого анализа довольно тяжело (а иногда практически невозможно) понять, впаривают ли банальщину с целью срубить денег на обучении, или дают что-то реальное (то, что вы называете «экспертизой»).

Может, вы не поняли о чём я написал, может я с Майкрософтом в статье задел вас за «живое» (не переживайте, в одной из следующих статей я наоборот буду его хвалить), а может просто у вас было плохое настроение, и вы искали с кем «пободаться» – в любом случае я не навязываю никому своего мнения, а, как я и написал в начале статьи, цель написанного (конечно, кроме пиара своего продукта:-) ) – сократить количество вопросов относительно моих «неправильных» решений, которые будут описаны в последующих статьях.
Не совсем понял что вы хотели сказать этим комментарием. То, что три windows-сервера для одного рабочего места – это всё-таки логично, или что «нельзя, но если очень хочется, то можно» со простыми адресами – это тоже «ок»? И, кстати, технологию не дают, а продают за хорошие деньги. Это, заметьте, две большие разницы. Также ничего печального не вижу в том, что я не прочитал ещё одну статью про ещё одну технологию, которую я не планирую использовать.
Рекламу фэйсбука постоянно вижу в adwords. Одноклассники много лет назад проплатили рекламу на новогоднем «огоньке» по телевизору, там звёзды эстрады логинились и искали друзей. Бигборды с рекламой яндекса пару лет назад точно видел.

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность