Комментарии / Профиль Don

Попробовал другой вероятностный алгоритм,HyperLogLog, который к сожалению показал плохие результаты
HyperLogLog is an algorithm for the count-distinct problem, approximating the number of distinct elements in a multiset

Идея была в том чтоб хранить весь словарь в hll, в тесте добавлять туда слово и проверять если изменился общий счетчик. Для 64Кб hll ошибается на 0.15% в оценке общего кол-ва слов, но для проверки одного слова этого недостаточно

Посмотреть

Конкурс по программированию на JS: Классификатор слов

Don_Eric 15 мая 2016 в 15:18

но идея очень красивая, я уже порадовался за вас, 80% это хороший результат

Посмотреть

Конкурс по программированию на JS: Классификатор слов

Don_Eric 14 мая 2016 в 10:13

Весь код решения должен находиться в единственном файла на JS

уважаемый feldgendler, разрешено хранить часть кода в файле данных?

Посмотреть

Конкурс по программированию на JS: Классификатор слов

Don_Eric 12 мая 2016 в 13:40

я думаю в этой задаче приемлемая точность будет гораздо ниже 99%, и почти уверен что меньше 85%.

Посмотреть

Что такое «Нативное приложение»?

Don_Eric 11 мая 2016 в 23:17

Чем Титаниум лучше Хамарина?

Посмотреть

Конкурс по программированию на JS: Классификатор слов

Don_Eric 10 мая 2016 в 09:22

тут описан интересный алгоритм , который ужимает префиксное дерево:

Step 1:

Several steps later:

Посмотреть

Конкурс по программированию на JS: Классификатор слов

Don_Eric 8 мая 2016 в 14:13

из-за того, что 50% не-слов очень похожи на словарь, то универсальное решение не будет самым лучшим.
наиболее оптимальным, на мой взгляд, будет что-то типа:
отсеять непохожие слова с помощью эвристики, регулярок, сетей ит.д. | проверить похожие слова в Блуме

Посмотреть

Конкурс по программированию на JS: Классификатор слов

Don_Eric 8 мая 2016 в 11:58

в условиях не сказано, но могут ли организаторы поменять алгоритм генерации во время конкурса?

Посмотреть

Конкурс по программированию на JS: Классификатор слов

Don_Eric 8 мая 2016 в 02:52

Пока что я пришел к выводу, что никакие хитрые алгоритмы не помогут отфильтровать похожие слова, и это натолкнуло меня на мысль посмотреть сколько есть похожих слов, насколько они похожи, может даже понять как они генерируются и можно ли это использовать.
Похожесть я смотрел по Levenshtein distance, и вот некоторые результаты:
29% не-слов отличаются от словаря на одну букву, 20% на 2, 12% на 3, и так по убыванию…
В случаях когда есть одно отличие, то в 60% поменяли букву, 30% добавили букву, и в 10% убрали.
В 17% меняли букву а, 9% букву b, 7% d,c,e. потом r 5.5%,l 5.3%,' 5.3%,n 4.3%,s 4.2%…
В 43% менялась первая буква, 11% 2 и 3я, 9% 4я…
В тех случаях когда добавляли или удаляли букву, то значимых отличий не наблюдается. Буквы s,e,a,i,' добавляются чаще остальных, e,a,i удаляются.

Очень любопытный факт, что если смотреть на похожесть слов в словаре между собой, то в 72% слов она равна 1, 24% равна 2, 3% равна 3, 1% 4, и гораздо меньше 1% в остальных случая.

Интересно будет посмотреть на такой граф, и сколько будет ключевых слов, которые порождают остальные.

Посмотреть

Конкурс по программированию на JS: Классификатор слов

Don_Eric 7 мая 2016 в 21:01

Я думаю что нейронные сети смогут эффективно отличить только шум и слишком непохожие слова. Чтоб отличать похожие слова, они должны их запомнить, а тут уже места не хватит.

Посмотреть

Конкурс по программированию на JS: Классификатор слов

Don_Eric 6 мая 2016 в 08:33

я начал с самого простого — задал каждую букву как параметр. Получилось 67%

Интересно попробовать adversarial networks

Посмотреть

Конкурс по программированию на JS: Классификатор слов

Don_Eric 5 мая 2016 в 19:46

Trie дерево, которое вместит в себя 75% слов, содержит 1 миллион дуг. В 64Кб вряд ли влезет :/

Посмотреть

Конкурс по программированию на JS: Классификатор слов

Don_Eric 3 мая 2016 в 20:50

смотря что называть «приемлимой точностью»

300Кб для блюма дает точность больше 90%
60Kb — около 70%