Pull to refresh

Comments 83

:-)
Или:
Ученый выступает перед аудиторией.
— Товарищи, нам удалось скрестить белого и бурого медведей…
Выкрик из зала:
— Hу и как?
— Зверушки остались довольны.
Ещё в «Шоу Фрая и Лори» был похожий скетч :)
что значит «способна находить естественные закономерности в неупорядоченном наборе данных»? Корреляции она считает чтоли? так такую программу и я могу написать (и писал в свео время).
Вообще, имхо, программа не может _открыть_ новый закон, ибо это процесс творческий. Вот автоматизировать рутинные процессы (хоть те же статистические) — это запросто. Конечно, уровень автоматизации бывает разный, и что сейчас — рутинная операция, век назад было научным открытием, но все же, все же.

Р. S. «Сначала она в случайном порядке производит беспорядочные арифметические операции, пытаясь найти закономерность.»
не знаю, как-то несерьезно это для такого важного с точки зрения научной методологии проекта…
Я так понял, что по набору данных программа строит аналитическую модель связей между входными параметрами. Раньше для этого использовались имитационные модели а-ля «чёрный ящик с нейронной сетью».

Обе модели могут ответить на вопрос "как изменение этого параметра влияет на результат".
Однако по формуле можно понять ещё и — почему. Поэтому и говорят, что программа может открыть новый закон.
Тоже спорно. Согласитесь, если она выдаст десятиэтажную формулу с кучей поправочных коэффициентов — «почему» всё равно понять сложно будет.
Наука никогда не отвечает на вопрос «почему». Это удел философов. Естественные науки всегда отвечают на вопросы: Как? Каким образом?
И да, и нет. Конечно, научные теории — это во многом модели. Но философы ведь только на эти модели и опираются, если хотят ответить на вопрос «почему». Я не слышал, чтобы кто-либо из современных философов отвергал принципы строения атома или формулу F = ma.
Хотя строго говоря, это действительно модели, а не ответы на вопрос «почему».

Но суть состоит в построении разумной модели, похожей на правду, а не в получении какой-либо формулы, более похожей на подгонку под ответ.

Структура формулы F = ma проста и логична. Мы понимаем, почему так происходит (или по крайней мере, думаем, что понимаем). Но если подобрать другую формулу — на четыре этажа — полученную из тех же исходных данных, уже будет не понятно, что это за дьявольский закон такой и как сообразить, почему же оно, собственно, так, а не иначе.
Однако с помощью F = ma ускоритель не построить и строения атома не описать. Каждая формула и каждая научная теория имеет свои границы применимости. Если бы измерения Ньютона были на много порядков точнее, он бы никогда не открыл своих законов.

Наверняка при подборе формулы алгоритму можно задать точность и он учитывает погрешности измерений. Не вижу ничего плохого в том, чтобы переложить рутинный анализ данных и поиск зависимостей на плечи компьютера. В наше время и измерения точнее, и законы следующие из них гораздо сложнее, переменных и данных гораздо больше. И ручной анализ в большинстве случае просто не представляется возможным. И суть вещей порой как раз отражают формулы «на четыре этаж», а простые линейные зависимости — это школьный уровень.

Даже если полученная формула будет в 10 этажей и невероятна сложна для понимания и применения, все-таки это формула, это уже что-то с чем можно реально работать, а не сырые цифры и голое воображение теоретиков. Ее всегда можно упростить.
>Даже если полученная формула будет в 10 этажей и невероятна сложна для понимания и применения, все-таки это формула

Поддерживаю. Вот только сегодня на Электротехнике мы выводили формулы для различных величин сложных цепей… и знаете, большую часть времени работали с 4-этажными формулами и только за пару последних шагов сократили их чуть ли не до линейных зависимостей, которыми в последствии и воспользовались для решения нескольких примеров задач.
Ну, знаете, множественная нелинейная регрессия — тоже аналитическая модель связей между входными параметрами, если еще учесть мультиколлинеарность и кучу других проверок сделать, то очень хорошая модель. В принципе для весьма широкого круга задач обработки «массивов данных» этого достаточно с головой. Вот для объяснения почему? «неупорядоченного набора данных» будет уже недостаточно, так как это вопрос интерпретации, это машине доверить нельзя.
В общем, пока не раскрыт принцип работы или «Они пока не опубликовали конкретные результаты», вопрос научной новизны, да и вообще пользы такого изобретения — тьма, покрытая мраком
> не знаю, как-то несерьезно это для такого важного с точки зрения научной методологии проекта…

В оригинале статьи это назвали «генетический алгоритм», правильно назвали в общем-то.
Собственно только хотел сказать, что наверняка тут генетический алгоритм зашит. А таки да. Вообщем кто знает что это такое, поймет, что впринципе для него там нет ничего сложного. Нужно просто верно задать метод поиска и параметры :)
Да, тогда понятно. Еще в топике была бы поконкретней задача обрисована, было бы за что зацепиться в комментах, а так гадать приходится
Ученые штата Техас открыли ген, отвечающий за способность ученых штата Техас открывать гены…
Думаю, для поиска закономерностей в биржевых чартах ее уже опробовали… :)
Наверно именно поэтому они пока не опубликовали конкретные результаты, но считают их интересными.
Так вот из-за кого кризис то =)
они не опубликовывают результаты потому что там что-то еще недостаточно наварились.
Вспоминается художественный фильм «Пи»
Если взять всё человечество, и начать искать корреляции таким образом среди его членов, то такая программа первым делом откроет закон:
(вероятность(раса ребенка белого человека)==китаец)=30%.

Так что да, нахождение законов — процесс творческий. Корреляция — не есть закон.
Чето подозреваю, что новые «открытые» формулы будут слишком сложными для использования.
ага, либо слишком сложными, либо слишком бесполезными, как комментом выше
Сегодня прочитал про робота, который сам совершил открытие в области генетики.
Эх еще одну идею украли :))))

P.S На диплом хотел сделать супер архиватор, который будет анализировать файл на предмет различных закономерностей между данными и представлять их аналитически )
UFO just landed and posted this here
Все зависит. Если ты можешь придумать хорошую идею, то можешь найти себе препода который будет науч. руком. Помоему даже не обязательно чтобы науч. рук. был преподом, он может быть сторонним человеком, главное чтобы у него была достаточная степень и работал он не в магазине а например руководителем отдела разработки.
У нас было точно так же. В итоге оказалось, что многие из тех, кто делал неинтересные темы, просто не подумал о том, что можно предложить тему свою. С другой стороны, далеко не все могут отстоять свою тему, убедить в том, что она стоящая.
Еще хуже, когда нашел интересную тему, убедил, но не справился, т.к. неоценил своих сил и науч. рук не оценил их :)

Поэтому мой совет: Выбирать стоит интересную область и искать науч.рука из этой области, а тему уже подбирать совместно. Как я и сделал почти.
Или брать тему, которой сам давно занимаешься, как в точности сделал я ).
UFO just landed and posted this here
Ужас. У нас с этим лучше было. Но может быть у вас можно найти какуюто золотую середину? Тоесть чтобы плюс был и вам и заводу.
Не получится. В большинстве случаев информационная емкость описания закономерности будет не меньше, чем объем порождаемых закономерностью данных. А веростность встретить в естественном файле длинную последовательность данных, порождаемую простой закономерностью, очень низкая.
что «Lossless»? Я понимаю, что Lossless — это сейчас очень модно (если в музыке). По популярности с «Lossless» могут соревноваться только «Ыыыы» и «олололо», но тем не менее, развернуто формулируйте вопрос. Я за вас этого делать не буду.
Информационная емкость описания закономерности будет меньше, чем объем порождаемых закономерностью данных, что доказывает такой формат, как Lossless. В нём веростность встретить длинную последовательность данных, порождаемую простой закономерностью, очень низкая.

Не лентяйничайте. Ололо тут не причём.
Нет такого формата, как Lossless. Слышу звон, да не знаю, где он. Lossless — это класс алгоритмов сжатия данных. Кстати, оно вполне имеет и перевод на русский «сжатие без потерь». Но звучит не так гламурно.
А дальше я вам объяснять не буду.
Формат != расширение, что-то вы сами запутались.
Дело не в гламуре, совсем. Да и не переходите на личности.

Я говорю о том, что есть «класс алгоритмов сжатия данных», который использует статистическую модель описания закономерности, ведь не обязательно пытаться описать моделью то, что совсем не описывается. Можно просто минимизировать разность между моделью и конкретной задачей, и достичь хорошего сжатия.
Что и имел я ввиду, когда посоветовал вам посмотреть, что есть готовая реализация такого алгоритма сжатия, с хорошей степенью сжатия, который вы говорите не будет сжимать.
«Хорошая степень сжатия» — очень нехорошее словосочетание )) Хорошая — это сколько? )
Я в курсе про лослесс аудио, которое сжимается примерно в два раза, я знаю про архиваторы, которые могут сжать на 99%, а могут и на 1%. (а синтетические наборы данных могут сжать на несколько порядков, или наоборот, увеличить в объеме)
Но они не занимаются выявлением закономерностей. Они просто заменяют частовстречающиеся последовательности более короткими, а редковстречающиеся — более длинными.
Ну а в чём разница между этим и выявлением закономерностей? :)

Если говорить о том, что 10 метровый файл пытатся анализировать как «одну закономерность», то, конечно, вы правы.
Специально лентяем с википедии взято:

Большинство алгоритмов сжатия без потерь работают в две стадии: на первой генерируется статистическая модель для входящих данных, вторая отображает входящие данные в битовом представлении, используя модель для получения «вероятностных» (то есть часто встречаемых) данных, которые используются чаще, чем «невероятностные».
Не надо мне читать псалмы из Википедии. Я в нее не только иногда заглядываю, но также и нахожу в ней совершенно бредовые ошибки в хотя бы чуть-чуть технических вопросах.
Не строят алгоритмы сжатия данных никакую модель. Они просто составляют таблицу, в которой отмечают, какие последовательности встречаются чаще, и кодируют их более короткими последовательностями.

(Чего уж говорить о той статье в википедии, если там формат BMP вписали в список форматов сжатия без потерь)
Что-то вы уходите с предметной области.

Если вы нашли ошибку в википедии, просто исправьте её, или напишите в обсуждении.
Или дайте ссылку, я сам напишу.
Во-первых, править википедию — мартышкин труд. Всегда найдется еще сто человек, которые придут после тебя и напишут туда свое с новыми ошибками. Википедия — вообще такая развлекалочка для общества. Древние египтяне строили пирамиды, в СССР строили коммунизм, а в 21 веке весь мир строит Википедию.
Обсуждения никто не читает. В той же статье в обсуждении висит замечание про H.264 еще от 2008 года и никто ничего не исправляет.
Я вам сказал, где ошибка. В статье, ссылку на которую вы дали, формат BMP приведет в качестве одного из форматов сжатия без потерь. Идите исправляйте ))
Вы плохо читаете. Как-то по диагонали. Там не написано, что BMP — формат сжатия изображений.
Не только в музыке, также в Видео. И особенно Screencast.
И Да и Нет.

Нет потомучто, все зависит от задачи и области применения. К примеру можно сузить задачу до сжатия только файлов которые содержат наборы разноцветных квадратов или геометрических фигур. Тогда ваше утверждение не верно. Я на диплом кстати делал работу по аналитическому сжатию 3D поверхностей. Использовали поверхности второго порядка чтобы описать в идеале «Любую 3D сцену».

Да потомучто в общем случае это наверно невозможно. В итоге и на дипломе такая проблема всплыла. Какието 3D сцены сжимались хорошо, какието вобще не сжимались. О дальнейших успехах проекта к сожалению не вкурсе, может уже случилась революция :)
Точно, когда был в вашем возрасте, тоже о чем то подобном грезил :)
О юность…
И я в раннем студенчестве о таком думал. Выходит, через это все проходят?
Так причины то одни :)
Актуальность темы, самоуверенность неокрепшего разума, ну и недостаток образования по молодости.
С другой стороны:
«Все с детства знают, что то-то и то-то невозможно. Но всегда находится невежда, который этого не знает. Он-то и делает открытие.»
Альберт Эйнштейн
Я уже лет 5 как об этом не думал, пока статью не прочитал и не вспомнил :)
Вы же знаете теорему, что для любого алгоритма сжатия без потерь, для любого натурального числа N, существует текст длины N, который этот алгоритм сжать не сможет.
Я в десятом классе сам для себя сформулировал и доказал подобное утверждение и очень долго радовался, пока не узнал, что есть «Теория информации и кодирования», которая как раз этим всем занимается и далеко ушла вперед по сравнению со мной )))
ну и что? Существует это же не значит что сплошь и рядом. Алгоритм распознавания образов тоже работает не со 100% вероятностью, но однако же это не мешает его использовать в военных или банковских целях.

P.S. популярнейший Rar тоже бывает с 0-вым сжатием сжимает.
более того, у некотрых алгоритмов есть такая последовательность длиной в N, которая сжимается в 0. :)
да, Тоталкоммандером можно скопировать Тоталкоммандер
Ну вот. Теперь Гаррет Лиси точно не успеет допилить свою «Теорию всего».
Но мне больше верится, что машина просто выдаст — «42».
Тогда придется носить с собой полотенце и ебук с доступом к википедии.
Ну или по крайней мере 25го мая.
9414324343151265932105487239048682851291347487602767195
9234602385829583047250165232525929692572765536436346272
7184012012643147546329450127847264841075622347896267285
92858295347502772262646456217613984829519475412398501

если судить по фильму «Пи» :)
Я так понял, что их программа умеет подбирать аппроксимирующие функции для многомерных временных рядов?
тогда толку в этой программе? чем это принципиально от регрессий отличается?
Идея не новая — подбор наилучшего приближения за счет построения поколений различных семейств функций. Боюсь представить сколько сейчас диссеров основано на составлении подобных моделей. Другое дело если действительно получен результат для произвольной временной последовательности. Которая, как уже было сказано, скорее всего о природе явления ничего не скажет, но в качестве прогнозной модели ее можно будет пользовать. Тогда да, это прорыв в моделировании
Я думаю, что при установке программы, в лицензионном соглашении написано:
«В моих статистических данных нет погрешностей» :)
программа может написать мне курсовую по численным методам? :)
Заголовок какой-то слишком уж желтый
не хватает только слов «шок!» и «срочно!»
я тоже могу подбирать формулы по наборам данных в матлабе, но наверно у них программа всёже сложнее, чем как здесь описано
имхо ребята научились работать с нейронными сетями и извлекать из них знания, вот и все…
Расскажите, как из нейронной сети извлечь знания, пожалуйста.
достаточно просто:
Алгоритм извлечения классифицирующих правил включает три этапа:
1. Обучение нейронной сети. На этом первом шаге двухслойный персептрон тренируется на обучающем наборе вплоть до получения достаточной точности классификации.
2. Прореживание (pruning) нейронной сети. Обученная нейронная сеть содержит все возможные связи между входными нейронами и нейронами скрытого слоя, а также между последними и выходными нейронами. Полное число этих связей обычно столь велико, что из анализа их значений невозможно извлечь обозримые для пользователя классифицирующие правила. Прореживание заключается в удалении излишних связей и нейронов, не приводящем к увеличению ошибки классификации сетью. Результирующая сеть обычно содержит немного нейронов и связей между ними и ее функционирование поддается исследованию.
3. Извлечение правил. На этом этапе из прореженной нейронной сети извлекаются правила, имеющие определенную форму
полностью можно ознакомиться тут: www.intuit.ru/department/expert/neurocomputing/9/1.html
давайте, минусуйте…
Извлечение знаний с помощью нейронный сетей != извлечение знаний из нейронных сетей. :)
> Учёные уже проверили программу в действии. Они пока не опубликовали конкретные результаты, но считают их интересными.

ах, как мило!

«но поля слишком узки» (с)? ;)
На самом деле, это автор поленился перевести некоторые важные части; программа смогла обнаружить пару физических законов:
Создаваемые программой уравнения изначально не могли объяснить входных данных, но некоторые ошибки были меньше других. Использую генетический алгоритм, программа корректировала самые многообещающие ошибки, проверяла их снова, выбирала лучшие, и повторяла процесс пока не появлялся набор уравнений, способных описать систему. Оказалось, что некоторые из этих уравнений хорошо известны: закон сохранения импульса и второй закон Ньютона.

Initially, the equations generated by the program failed to explain the data, but some failures were slightly less wrong than others. Using a genetic algorithm, the program modified the most promising failures, tested them again, chose the best, and repeated the process until a set of equations evolved to describe the systems. Turns out, some of these equations were very familiar: the law of conservation of momentum, and Newton's second law of motion.
вперёд к технологической сингулярности Курцвейла? :)
Чёрт, я испорченый человек. Первая мысль: генератор кейгенов и карточек оплаты.
Уже даже не касаясь морально-этической стороны вопроса, мне просто интересно, как вы увязали тему статьи с ключами и карточками оплаты?
Поиск формул генерации оных при наличии некоторого количества экземпляров.
> Уже даже не касаясь морально-этической стороны вопроса
Ну я же не сказал, что мне это позарез нужно. Просто первое практическое применение, которое пришло в голову :)
А нет формул их генерации. Эти ключики и карточки оплаты (по крайней мере частично) генерируются на хороших аппаратных генераторах случайных чисел (по крайней мере должны бы).
Если ключики генерируются случайным образом, то в программе должен храниться массив этих ключиков (что сильно облегчает задачу крякерам), и, соответственно, число продаж будет ограничено. Либо нужно клепать кучу персональных дистрибутивов или организовывать онлайн-активацию. Про карточки оплаты не знаю, но всё же сомневаюсь, что там везде рандомные последовательности.
Sign up to leave a comment.

Articles