Мне кажется я делаю достаточно очевидные утверждения. Разве в Советском Союзе не было хоть доли человечности? Как вы думаете зачем сейчас всем навязывают кредиты? Если вы лишитесь работы и у вас кредит на миллионы что вам останется делать? Думаете мобильную связь и интернет закроют? Как вы будете передвигаться если у вас не будет денег? Или вы будете долго выбирать место работы если вакансий для вас будет не очень много? Вы подождите — вам все популярно объяснят.
Вот как раз на практике и необходимо постоянно контролировать изменения в поведении цены. Кстати, вы, наверное, не обратили внимание на то, что информация поступает с достаточно большой задержкой. В предложенной стратегии эта задержка составляет 4 недели. При увеличении задержки до 8 недель качество прогнозирования почти не изменяется. Это можно посчитать за «форвард-тест»?
> «запомнить» все происходившее на рынке, а потом успешно торговать по «известным» данным способно много систем.
В том-то как раз и дело, что необходимо ПОСТОЯННО контролировать обстановку. Тактика «один раз запомнил, по шаблону всегда получаю прибыль» не работает по понятным причинам.
> Еще вот эта фраза забавна…
Я, действительно, считаю задачу прогнозирования на рынке FOREX гораздо проще задачи распознания речи. Или задачи автономного управления марсоходом или венероходом.
> ваша статья, в общем, ничего не доказывает, в частности, из нее никоим образом не следует вывод…
В подтверждение своих слов я, хотя бы, привел цифры.
Такой подход не проходит. Поведение цены изменяется чем дальше, тем больше. А в подгонке нет ничего плохого. Главное, чтобы подгонка была «честной». Вы же в повседневной жизни пользуетесь информацией не только за прошлый год, но учитываете и свежие новости, не правда ли? В любом случае, то, о чем вы говорите, я не делал.
Данные, конечно, же используются одни и те же и при обучении, и при оценке эффективности. Но обучение происходит постфактум, после того, как результат для системы станет известен и так.
Дело в том, что для проверки эффективности необходим материал для сравнения. Если я сделаю тест сегодняшнего момента, то я не смогу понять — правильный был дан прогноз или нет. Учитывая, что на тестах эксперт не видит реально произошедшее будущее, для него все тесты — форвард.
Что ж это за прибыль, если она меньше комиссии? Будет время — протестирую на фьючерсах и сырье. Но боюсь, что предсказуемость будет не лучше чем на EURUSD.
В приложении рынка FOREX — вы правильно описали задачу. Но область применения системы шире. Например, можно заставить алгоритм выявлять нестандартные/аварийные ситуации или доверить ему управление автономной самообучающейся системой. После определенной доработки алгоритма, конечно же.
Все таки, при n=512 нестандартные комбинации будут встречаться еще очень и очень долго. А если пустот, все таки, станет маловато, то n можно будет увеличить.
Кстати, говоря о сложности я имел ввиду, что n — это длина обрабатываемого текста вне зависимости от длин хранящихся в памяти цепочек. Впрочем, максимальную длину цепочки я все-таки ограничил. Поэтому, сложность алгоритма на больших объемах информации становится почти линейной.
По сути, рассказанная в анекдоте история не имеет права на жизнь, так как анекдот интересен своей неожиданностью. Ну, а раз так то история сама становится анекдотичной.
С другой стороны, даже при неограниченном n могут образовываться места скопления n-грамм. Если текст специальным образом подготовить (например, сделать преобразования Фурье), то места скопления будут более или менее систематическими и можно будет выявлять закономерности.
Дальше уже вопрос будет не в величине n, а в количестве действующих закономерностей. Размер базы данных, конечно будет достаточно большим, но:
1. От размера базы будет зависеть подготовленность алгоритма к распознанию новизны. А знание — это сила. Если же будет сила, то будет и возможность подбавить вычислительной мощности.
2. При необходимости, слишком редко встречающиеся или малозначимые комбинации можно удалять. И тогда количество юмора в хранилище уменьшится, а количество информации о закономерностях, соответственно, увеличится.
Но зря вы так скептически относитесь к юмору. В известном афоризме говорится, что добрым словом и пистолетом можно добиться значительно большего, чем одним только добрым словом. Так же и с юмором: знанием и юмором можно добиться значительно большего, чем одним только знанием. Так как юмор может помочь там, где знаний нет.
Нестандартные дестабилизирующие комбинации n-грамм — это юмор. А вот неожиданно всплывающая стабильная комбинация n-грамм — это уже идея. Вы так не думаете?
Кстати, у юмора тоже есть своя теоретическая основа. Тот же Петросян, составляя свои выступления, тоже действует по системе. Я об этом как-то читал.
Пока я еще не пришел к пониманию того, как можно пользоваться идеями, но я попытаюсь это понять. А как пойму, так и эффект будет.
По поводу трудности скажу, что сложность алгоритма n*log(n), где n — длинна текста. Мне кажется, что это не так уж и плохо. Например, у алгоритма быстрой сортировки сложность такого же уровня.
В принципе можно выбрать любой размер блока для анализа. Я выбрал блок размером в символ, так как при этом можно извлекать достаточно большое количество ассоциаций из памяти. А чем больше статистической информации, тем уверенней можно принимать решения. Если у кого-то есть предпочтение на другой размер блока, то это, скорее всего, тоже будет резонно.
Я думаю, что лучший результат можно будет получить, если предварительно сделать преобразование Фурье. Возможно, это даже сократит необходимое количество запросов к БД на обработку одного символа и улучшит ассоциативность.
Оперативная память не подходит, так как, например, уже сейчас накопилось 1,8Гб информации и это далеко не предел. А учитывая, что программа крутится на достаточно тормозном виртуальном сервере, то скорость в 300 байт/с мне кажется не такой уж и низкой.
Спасибо за ссылку на РОМИП, почитаю. Вы тоже меня поймите, я не так давно занимаюсь этим делом и еще не успел найти свободные/доступные продукты, которые дали бы мне хотя бы тот функционал, который я получил со своим ПО. Не подумайте, что я возомнил о себе что-то сверхъестественное, количество уникальных идей в алгоритме, по сути, исчезающе мало. Но дорогу осилит идущий и я, конечно же, хочу использовать передовой опыт других людей.
вообще-то «новые идеи» являются новыми для самого алгоритма, который лопатит информацию не так уж и долго по времени. Взрослого человека конечно же не особо будет интересовать то, что является откровением для ребенка. Я считаю, что тут вопрос лишь во времени.
Но важно не это. Я считаю, что можно продвинуться дальше и сделать так, чтобы система смогла извлекать выгоду от тех идей, которые найдет.
topic пуст потому, что он используется для запоминания информации, а от вас эту информацию для запоминания я не запрашиваю.
topic2 пуст, очевидно, потому, что система не может для вашего текста однозначно определить категорию, а поэтому не принимает решения. В случае новостного ресурса система сохранит ту категорию, которая будет ей дана перед началом анализа.
Далее по выбранному/данному топику будет взято значение из loyaltopic и если оно будет слишком мало, то новость будет отсеяна как непопулярная. Если же новость важна, то о ней обязательно напишут еще раз и еще раз, и будут по разному оформлять. После нескольких повторов, во-первых, накопится ассоциативная информация по разделу для данной информации, что позволит точнее определить категорию, а, во-вторых, повысит популярность сообщения и вероятность его публикации.
Можно, конечно, модифицировать алгоритм для того, чтобы он точнее определял категорию с первого анализа, но тогда для анализа потребуется значительно больше вычислительных ресурсов. Но надо ли это, если информация с большой долей вероятности все равно будет отсеяна?
Собственно, цепи я использую для разбиения информации на части и для обращения к ним при необходимости. Так сказать, для поиска ассоциаций. Анализ производится потом, при манипулировании информации извлеченной из памяти благодаря ассоциативным связям.
Нет. Детектированный топик отображается в переменной «topic2». extremetopic — это указание машине того, куда помещать тексты отличающиеся экстравагантностью. brothershiptopic — это указание машине того, куда помещать тексты, которые при своей экстравагантности содержат старые истины.
> «запомнить» все происходившее на рынке, а потом успешно торговать по «известным» данным способно много систем.
В том-то как раз и дело, что необходимо ПОСТОЯННО контролировать обстановку. Тактика «один раз запомнил, по шаблону всегда получаю прибыль» не работает по понятным причинам.
> Еще вот эта фраза забавна…
Я, действительно, считаю задачу прогнозирования на рынке FOREX гораздо проще задачи распознания речи. Или задачи автономного управления марсоходом или венероходом.
> ваша статья, в общем, ничего не доказывает, в частности, из нее никоим образом не следует вывод…
В подтверждение своих слов я, хотя бы, привел цифры.
Кстати, говоря о сложности я имел ввиду, что n — это длина обрабатываемого текста вне зависимости от длин хранящихся в памяти цепочек. Впрочем, максимальную длину цепочки я все-таки ограничил. Поэтому, сложность алгоритма на больших объемах информации становится почти линейной.
По сути, рассказанная в анекдоте история не имеет права на жизнь, так как анекдот интересен своей неожиданностью. Ну, а раз так то история сама становится анекдотичной.
С другой стороны, даже при неограниченном n могут образовываться места скопления n-грамм. Если текст специальным образом подготовить (например, сделать преобразования Фурье), то места скопления будут более или менее систематическими и можно будет выявлять закономерности.
Дальше уже вопрос будет не в величине n, а в количестве действующих закономерностей. Размер базы данных, конечно будет достаточно большим, но:
1. От размера базы будет зависеть подготовленность алгоритма к распознанию новизны. А знание — это сила. Если же будет сила, то будет и возможность подбавить вычислительной мощности.
2. При необходимости, слишком редко встречающиеся или малозначимые комбинации можно удалять. И тогда количество юмора в хранилище уменьшится, а количество информации о закономерностях, соответственно, увеличится.
Но зря вы так скептически относитесь к юмору. В известном афоризме говорится, что добрым словом и пистолетом можно добиться значительно большего, чем одним только добрым словом. Так же и с юмором: знанием и юмором можно добиться значительно большего, чем одним только знанием. Так как юмор может помочь там, где знаний нет.
Кстати, у юмора тоже есть своя теоретическая основа. Тот же Петросян, составляя свои выступления, тоже действует по системе. Я об этом как-то читал.
Пока я еще не пришел к пониманию того, как можно пользоваться идеями, но я попытаюсь это понять. А как пойму, так и эффект будет.
По поводу трудности скажу, что сложность алгоритма n*log(n), где n — длинна текста. Мне кажется, что это не так уж и плохо. Например, у алгоритма быстрой сортировки сложность такого же уровня.
Я думаю, что лучший результат можно будет получить, если предварительно сделать преобразование Фурье. Возможно, это даже сократит необходимое количество запросов к БД на обработку одного символа и улучшит ассоциативность.
Оперативная память не подходит, так как, например, уже сейчас накопилось 1,8Гб информации и это далеко не предел. А учитывая, что программа крутится на достаточно тормозном виртуальном сервере, то скорость в 300 байт/с мне кажется не такой уж и низкой.
Спасибо за ссылку на РОМИП, почитаю. Вы тоже меня поймите, я не так давно занимаюсь этим делом и еще не успел найти свободные/доступные продукты, которые дали бы мне хотя бы тот функционал, который я получил со своим ПО. Не подумайте, что я возомнил о себе что-то сверхъестественное, количество уникальных идей в алгоритме, по сути, исчезающе мало. Но дорогу осилит идущий и я, конечно же, хочу использовать передовой опыт других людей.
Но важно не это. Я считаю, что можно продвинуться дальше и сделать так, чтобы система смогла извлекать выгоду от тех идей, которые найдет.
topic2 пуст, очевидно, потому, что система не может для вашего текста однозначно определить категорию, а поэтому не принимает решения. В случае новостного ресурса система сохранит ту категорию, которая будет ей дана перед началом анализа.
Далее по выбранному/данному топику будет взято значение из loyaltopic и если оно будет слишком мало, то новость будет отсеяна как непопулярная. Если же новость важна, то о ней обязательно напишут еще раз и еще раз, и будут по разному оформлять. После нескольких повторов, во-первых, накопится ассоциативная информация по разделу для данной информации, что позволит точнее определить категорию, а, во-вторых, повысит популярность сообщения и вероятность его публикации.
Можно, конечно, модифицировать алгоритм для того, чтобы он точнее определял категорию с первого анализа, но тогда для анализа потребуется значительно больше вычислительных ресурсов. Но надо ли это, если информация с большой долей вероятности все равно будет отсеяна?
А что вы имеете ввиду под «смысловым разбором»?
Впрочем, не смею больше отнимать у вас время.