Напишите обязательно! Я делал почти тоже самое, и тоже дошел до уменьшения слов до около 300К+ для скармливания их блуму, но так и не успел разобраться, как сохранить результат в <64k. В лучшем случае получал 120. Напишу об этом во второй части статьи.
SQL база у меня была локальная. Я хотел попробовать Azure ML, но споткнулся о существенную разницу в скорости выполнения запросов между азуровским и локальным SQL-серверами. В частности, создания таблицы с несуществующими четвёрками согласных, на азуре я так и не смог дождаться. Понимаю, что можно было поработать над оптимальностью запросов, но задача была другой.
Это мало, и это те же грабли, которые я опишу во второй части. Из-за того, что в реальных тестах много повторов, 65% на уникальных словах опустятся до 50%.
Да, только она сейчас неполная. Перед тем, как скармливать данные майнингу, я убрал из неё то, что отсекается описанными в этой статье простыми фильтрами. Сейчас в ней порядка 38М слов.
Технические статьи тоже будут. Полного раскрытия «внутренностей» я не сделаю, т.к. там есть несколько «ноу-хау» которые я не хотел бы выносить в паблик, но все этапы разработки «с нуля», включая выбор инструментария, постараюсь осветить. А вот насколько я в этом разбираюсь и насколько «грамотными» были мои решения – я и сам понятия не имею, т.к. ориентиров не было. Именно поэтому первая статья была именно о том, о чём она была. А вообще, кроме технического, оттенок в большинстве статей всё-таки будет ещё и эмоциональный, как и в этой статье, т.к. не имея опыта в этих технологиях и руководствуясь исключительно здравым смыслом в создании с нуля чего-то совершенно нового я постоянно находился (и нахожусь) в сомнениях относительно принятых как технических, так и стратегических решений. Я не верю, что подобные вопросы беспокоят только меня, поэтому решил не игнорировать эмоциональную часть этого процесса.
Уж как-то очень быстро вы перешли на личности, навесили на меня ярлык и начали осуждать согласно этого ярлыка. Поверьте, я в состоянии освоить практически любую технологию в достаточно короткий срок (и освоил множество), и доказательство этому – выпущенный единолично продукт, для разработки которого пришлось с нуля разбираться и с разработкой под IOS, и с разработкой под Android, и со всем, что надо для создания сложного бэкенда, включая продвинутое администрирование Linux.
И лейтмотивом статьи была скорее констатация того, что появилось (и не только в IT) огромное количество навязываемых в виде различных курсов и сертификаций знаний и правил, за которыми иногда уже теряется здравый смысл. Причём без глубокого анализа довольно тяжело (а иногда практически невозможно) понять, впаривают ли банальщину с целью срубить денег на обучении, или дают что-то реальное (то, что вы называете «экспертизой»).
Может, вы не поняли о чём я написал, может я с Майкрософтом в статье задел вас за «живое» (не переживайте, в одной из следующих статей я наоборот буду его хвалить), а может просто у вас было плохое настроение, и вы искали с кем «пободаться» – в любом случае я не навязываю никому своего мнения, а, как я и написал в начале статьи, цель написанного (конечно, кроме пиара своего продукта:-) ) – сократить количество вопросов относительно моих «неправильных» решений, которые будут описаны в последующих статьях.
Не совсем понял что вы хотели сказать этим комментарием. То, что три windows-сервера для одного рабочего места – это всё-таки логично, или что «нельзя, но если очень хочется, то можно» со простыми адресами – это тоже «ок»? И, кстати, технологию не дают, а продают за хорошие деньги. Это, заметьте, две большие разницы. Также ничего печального не вижу в том, что я не прочитал ещё одну статью про ещё одну технологию, которую я не планирую использовать.
Рекламу фэйсбука постоянно вижу в adwords. Одноклассники много лет назад проплатили рекламу на новогоднем «огоньке» по телевизору, там звёзды эстрады логинились и искали друзей. Бигборды с рекламой яндекса пару лет назад точно видел.
Уменьшение словаря до 390К, карта "соседских" двоек и троек, блум и ещё что-то читайте через неделю.
Проверил. Не даёт. На 1000 блоках 55.27%
Во второй части будет описание, как я уменьшил словарь до 390000 без потерь.
Напишите обязательно! Я делал почти тоже самое, и тоже дошел до уменьшения слов до около 300К+ для скармливания их блуму, но так и не успел разобраться, как сохранить результат в <64k. В лучшем случае получал 120. Напишу об этом во второй части статьи.
Я просто раньше с Azure ML не работал и не знаю что в нём есть и чего от него ожидать, поэтому пошел по более-менее понятному мне пути.
Значит Вы учли что-то, чего не учёл я. Но вроде как, кроме количества согласных подряд, я скормил тот же набор данных.
SQL база у меня была локальная. Я хотел попробовать Azure ML, но споткнулся о существенную разницу в скорости выполнения запросов между азуровским и локальным SQL-серверами. В частности, создания таблицы с несуществующими четвёрками согласных, на азуре я так и не смог дождаться. Понимаю, что можно было поработать над оптимальностью запросов, но задача была другой.
Это мало, и это те же грабли, которые я опишу во второй части. Из-за того, что в реальных тестах много повторов, 65% на уникальных словах опустятся до 50%.
На каком объеме данных? Слова были уникальными, или так, как спарсили, так и передавали, включая повторы?
Да, только она сейчас неполная. Перед тем, как скармливать данные майнингу, я убрал из неё то, что отсекается описанными в этой статье простыми фильтрами. Сейчас в ней порядка 38М слов.
Решение не отправил, но решил поделиться опытом.
И лейтмотивом статьи была скорее констатация того, что появилось (и не только в IT) огромное количество навязываемых в виде различных курсов и сертификаций знаний и правил, за которыми иногда уже теряется здравый смысл. Причём без глубокого анализа довольно тяжело (а иногда практически невозможно) понять, впаривают ли банальщину с целью срубить денег на обучении, или дают что-то реальное (то, что вы называете «экспертизой»).
Может, вы не поняли о чём я написал, может я с Майкрософтом в статье задел вас за «живое» (не переживайте, в одной из следующих статей я наоборот буду его хвалить), а может просто у вас было плохое настроение, и вы искали с кем «пободаться» – в любом случае я не навязываю никому своего мнения, а, как я и написал в начале статьи, цель написанного (конечно, кроме пиара своего продукта:-) ) – сократить количество вопросов относительно моих «неправильных» решений, которые будут описаны в последующих статьях.