Pull to refresh
0
0
Вячеслав @pro_co_ru

Ведущий инженер-программист

Send message
Да и сами регулярки тоже можно мутировать, скрещивать, чтобы получилась популяция регулярок, которая не была бы избыточной.
Думаю, что его можно применить для анализа исходного файла с разных сторон, а не в самом решении.
Да даже те же регулярки, если их будет столько много что они не будут умещаться в 64к, то можно будет подобрать такую комбинацию регулярок, которая будет покрывать больше всего правильных слов и давать меньшее кол-во ошибок на не словах.
Странно, что про генетическое программирование народ молчит.
А ведь в самом топе будет жесточайшая битва, где победит тот кто лучше сбалансирует все свои словари, фичи и прочие признаки, и ужмёт их в 64 КиБ, вместе с исходником.
Факт, что не получится.
Исходный файл со словами занимает 6906809 Байт, а требуется ужать всё вместе с кодом до 65535, т.е. чуть более чем в 100 раз.
Что-то мне не верится что из менее чем 1% знаний о исходном наборе данных можно восстановить гарантированно все 100%, какой бы при этом язык не был использован.
В начале этого года обратил внимание на Kaggle.
Решил попробовать свои силы в www.kaggle.com/c/the-winton-stock-market-challenge

В качестве инструмента использовал FANN ( leenissen.dk ).
С помощью подсчёта корреляций участков данных сгруппировал и рассортировал эти данные по группам.
Далее использовал рекуррентные нейронные сети и бустинг, для получания output данных, и получение первой из более чем 60 требуемых колонок данных потребовало примерно 5 дней работы алгоритма на моём домашнем компьютере. Понял что такими темпами к сроку не успеть и мой алгоритм ориентировочно бы работал порядка не менее 300 дней. В итоге так и не закончил свою разработку, но желание всё же довести дело до конца осталось.

Может кто знает, есть ли бесплатные или недорогие сервисы/песочницы/площадки/API, где можно было бы поэксперементировать и погонять свои идеи такого плана в облаке или на кластере?

В закладки себе добавил из нагугленного несколько ссылок:
bigml.com/accounts/login/?next=/dashboard/sources/new
cloud.google.com/prediction/docs
indico.io/product

Но это не совсем то что мне нужно.

Слышал, что есть hadoop, но пока не разбирался с тем что это из себя представляет.
Может оно как раз то что мне нужно?

Заранее благодарю за дельные советы.
До сих пор не залатали доступ.
По ссылке traveladmin.ru/admin/ext_images даже уже кто-то текст с приветствием сообществу Хабра и geektimes туда зафигачил.
Добавлю ещё одну ссылочку к разделу «Дизайн»: Веб-дизайн: тренды 2016 года.
Скоро будем пересматривать старые чёрно-белые фильмы в цвете.
Интересно, дойдёт ли до того, что боты начнут объединяться друг с другом против более сильных ботов, или обойдётся тем, что каждый будет сам за себя…
А в чём преимущество использования сторонних сервисов для почтовых рассылок?
Ведь можно настроить свой, а для сбора статистики использовать, например, Google Analytics (Measurement Protocol).

Просто если надо прикрутить бесплатную отправку писем, то можно пользоваться стандартными майлерами от хостинга, либо прикрутить почту для домена от yandex, mail.ru и т.п. Если надо отправлять больше писем, то можно поднять почтовик и пользовать его.
Красивое у нас в Новосибирске здание технопарка, особенно ночью.
Получается, что теперь пометка у моего профилья «read-only» уже не актуальна.

Information

Rating
Does not participate
Location
Новосибирск, Новосибирская обл., Россия
Date of birth
Registered
Activity