Думаю, что его можно применить для анализа исходного файла с разных сторон, а не в самом решении.
Да даже те же регулярки, если их будет столько много что они не будут умещаться в 64к, то можно будет подобрать такую комбинацию регулярок, которая будет покрывать больше всего правильных слов и давать меньшее кол-во ошибок на не словах.
Странно, что про генетическое программирование народ молчит.
А ведь в самом топе будет жесточайшая битва, где победит тот кто лучше сбалансирует все свои словари, фичи и прочие признаки, и ужмёт их в 64 КиБ, вместе с исходником.
Факт, что не получится.
Исходный файл со словами занимает 6906809 Байт, а требуется ужать всё вместе с кодом до 65535, т.е. чуть более чем в 100 раз.
Что-то мне не верится что из менее чем 1% знаний о исходном наборе данных можно восстановить гарантированно все 100%, какой бы при этом язык не был использован.
В качестве инструмента использовал FANN ( leenissen.dk ).
С помощью подсчёта корреляций участков данных сгруппировал и рассортировал эти данные по группам.
Далее использовал рекуррентные нейронные сети и бустинг, для получания output данных, и получение первой из более чем 60 требуемых колонок данных потребовало примерно 5 дней работы алгоритма на моём домашнем компьютере. Понял что такими темпами к сроку не успеть и мой алгоритм ориентировочно бы работал порядка не менее 300 дней. В итоге так и не закончил свою разработку, но желание всё же довести дело до конца осталось.
Может кто знает, есть ли бесплатные или недорогие сервисы/песочницы/площадки/API, где можно было бы поэксперементировать и погонять свои идеи такого плана в облаке или на кластере?
До сих пор не залатали доступ.
По ссылке traveladmin.ru/admin/ext_images даже уже кто-то текст с приветствием сообществу Хабра и geektimes туда зафигачил.
А в чём преимущество использования сторонних сервисов для почтовых рассылок?
Ведь можно настроить свой, а для сбора статистики использовать, например, Google Analytics (Measurement Protocol).
Просто если надо прикрутить бесплатную отправку писем, то можно пользоваться стандартными майлерами от хостинга, либо прикрутить почту для домена от yandex, mail.ru и т.п. Если надо отправлять больше писем, то можно поднять почтовик и пользовать его.
Да даже те же регулярки, если их будет столько много что они не будут умещаться в 64к, то можно будет подобрать такую комбинацию регулярок, которая будет покрывать больше всего правильных слов и давать меньшее кол-во ошибок на не словах.
А ведь в самом топе будет жесточайшая битва, где победит тот кто лучше сбалансирует все свои словари, фичи и прочие признаки, и ужмёт их в 64 КиБ, вместе с исходником.
Исходный файл со словами занимает 6906809 Байт, а требуется ужать всё вместе с кодом до 65535, т.е. чуть более чем в 100 раз.
Что-то мне не верится что из менее чем 1% знаний о исходном наборе данных можно восстановить гарантированно все 100%, какой бы при этом язык не был использован.
Решил попробовать свои силы в www.kaggle.com/c/the-winton-stock-market-challenge
В качестве инструмента использовал FANN ( leenissen.dk ).
С помощью подсчёта корреляций участков данных сгруппировал и рассортировал эти данные по группам.
Далее использовал рекуррентные нейронные сети и бустинг, для получания output данных, и получение первой из более чем 60 требуемых колонок данных потребовало примерно 5 дней работы алгоритма на моём домашнем компьютере. Понял что такими темпами к сроку не успеть и мой алгоритм ориентировочно бы работал порядка не менее 300 дней. В итоге так и не закончил свою разработку, но желание всё же довести дело до конца осталось.
Может кто знает, есть ли бесплатные или недорогие сервисы/песочницы/площадки/API, где можно было бы поэксперементировать и погонять свои идеи такого плана в облаке или на кластере?
В закладки себе добавил из нагугленного несколько ссылок:
bigml.com/accounts/login/?next=/dashboard/sources/new
cloud.google.com/prediction/docs
indico.io/product
Но это не совсем то что мне нужно.
Слышал, что есть hadoop, но пока не разбирался с тем что это из себя представляет.
Может оно как раз то что мне нужно?
Заранее благодарю за дельные советы.
По ссылке traveladmin.ru/admin/ext_images даже уже кто-то текст с приветствием сообществу Хабра и geektimes туда зафигачил.
Ведь можно настроить свой, а для сбора статистики использовать, например, Google Analytics (Measurement Protocol).
Просто если надо прикрутить бесплатную отправку писем, то можно пользоваться стандартными майлерами от хостинга, либо прикрутить почту для домена от yandex, mail.ru и т.п. Если надо отправлять больше писем, то можно поднять почтовик и пользовать его.