feldgendler 20 мая 2016 в 15:50

Конкурс по программированию на JS: Классификатор слов (дополнение)

3 мин

18K

Блог компании HolaСпортивное программирование*Занимательные задачкиJavaScript*Алгоритмы*

+16

Комментарии 75

Don_Eric 20 мая 2016 в 17:42

обязательно называть свои файлы solution.js и data.gz?

feldgendler 20 мая 2016 в 17:53

Именно для тестового скрипта — да. При отправке решения файлы могут называться как угодно.

Gromo 20 мая 2016 в 17:56

судя по тому, что файлы отправляются через форму, не обязательно

chianti 20 мая 2016 в 19:04

Большое спасибо, что создали еще одну тему, теперь я могу писать сюда комментарии, и еще большее спасибо за тестовый скрипт. Скрипт бесценен, поскольку я не программирую на JavaScript и не знал таких подробностей, как экспорт функций.

Потратил пару недель на обучение нейронных сетей и пришел к выводу, что ничему существенному их научить не смогу. Перепробовал разные варинаты: mlp и convolutional, но, видимо, нужна практика, чтобы добиться существенного результата с помощью данного метода. Единственное, что работает, это фильтрация совсем шума.

В итоге перешел к эвристическим методам, пока достиг 75+%

Imp5 20 мая 2016 в 19:16

feldgendler, моё решение в этом тестовом скрипте проверяется со скоростью ~50 слов в секунду (против 4000 в секунду моим скриптом), я так полагаю, это из-за виртуальной машины.
Это 5 часов на 1 000 000 слов.
Такая скорость проверки считается разумной? Или мне надо что-то исправить?

feldgendler 20 мая 2016 в 19:38

Такая скорость вполне удовлетворительна.

НЛО прилетело и опубликовало эту надпись здесь

deNULL 21 мая 2016 в 02:45

С приведенным примером тестирующего скрипта получить 100% можно и проще.

Описал способ feldgendler в личку, если он будет не против — могу рассказать и здесь (все равно решения победителей, я думаю, будут вручную просматриваться и всякие хаки там не прокатят).

feldgendler 21 мая 2016 в 06:19

Не против. На всякий случай предупреждаю всех любителей обходных путей, что за манипуляцию тестовой системой последует дисквалификация.

deNULL 21 мая 2016 в 06:58

Для пущего веселья я решил заодно уместить свое решение в 3 строчки (и 146 байт), по-прежнему набирая этим кодом 100% :)

exports.init = exports.test = () => {
  Buffer.prototype.toString = () => '{' + new Array(100).fill().map((_, i) => `"${i}":0`).join(',') + '}'
}

feldgendler 21 мая 2016 в 12:20

А после этого некоторые удивляются, почему нет живого leaderboard. А потому что не будем мы непроверенный код автоматически запускать на своих серверах, и не просите.

Don_Eric 21 мая 2016 в 12:58

теперь понятно

leaderboard хорош тем, что если я вижу что нахожусь в топе, то может смогу потратить еще несколько дней и урвать долю процента. А если разница очень большая, то даже и не пытаться тратить время а искать другое решение.

но в данном случае и leaderboard не поможет, так как всегда можно придержать лучшее решение на последний момент, или посылать решения которые нарушают правила. Тут только сработает формат kaggle

trong 21 мая 2016 в 17:54

А чего бы не запускать в docker-контейнерах например?

feldgendler 21 мая 2016 в 22:17

Конечно, есть способы. Но затраты труда на проведение конкурса всё-таки ограничены.

chianti 21 мая 2016 в 19:10

Я не очень понимаю, как вы предполагаете проверять код перед запуском? Каждое решение глазами? Там же, вполне вероятно, будет минифицированный код. Также часть кода, я, например, запихнул в data.gz и исполняю через eval. Как вы этот код проверите, кроме как запуском?

vermilion1 21 мая 2016 в 19:15

Поэтому просят прикреплять исходники.
Если это будет попытка обойти систему, то его не так и сложно отследить, даже в минифицированном варианте.

feldgendler 21 мая 2016 в 22:19

Главное, что результат из скрипта не попадёт автоматически в публичную таблицу. А так всё равно всё ещё и в виртуальной машине.

Suntechnic 20 мая 2016 в 21:27

> Функции test и init не экспортированы или экспортированы неправильно. Недостаточно просто объявить функции, их надо экспортировать из модуля. Если Вы не уверены, что сделали это правильно, проверьте свою программу нашим тестовым скриптом.
Если доходи до такого, может лучше выложить шаблон кода? Пусть test содержит там хотя бы просто return true; но это поможет избежать нелепых ошибок тем кто видит js первый раз.

feldgendler 20 мая 2016 в 21:31

exports.init = function(data){ ... };
exports.test = function(word){ ... };

Suntechnic 20 мая 2016 в 21:35

Спасибо, конечно но я знаю. Я имел ввиду добавить в статью. Для незнакомых с js вообще.

tyomitch 20 мая 2016 в 23:27

Заголовок топика — «Конкурс по программированию на JS».
Вряд ли люди, незнакомые с js вообще, решат принять в нём участие.

feldgendler 21 мая 2016 в 06:20

Поскольку наша корыстная цель — найти программистов для повседневной работы именно с Node.js, то нас это вполне устраивает.

hellosandrik 20 мая 2016 в 21:50

Почитал комментарии к прошлой статье и возник вопрос: почему никому применение нейронных сетей здесь не кажется странным? Это же совсем не задача машинного обучения. Его задача — классификация и обобщение, но уж никак не запоминание. А тут, судя по сетам правильных и неправильных слов (честно признаюсь, не сильно в них всматривался, но все же), они сгенерированы одним и тем же генератором, т.е. нет никаких паттернов, по которым их можно было бы различить. Нейронные сети тут будут выдавать более-менее приемилимый результат только в результате переобучения, а в этом случае теряется весь смысл нейронных сетей. P.S: Хотя вот задача распознования лиц тоже решается нейронными сетями и это может ввести в заблуждение, но только вот там применяются CNN, которые, грубо говоря, отображают лица в набор особенностей и производят переобучение на этих наборах. Т.е. их использовать удобно потому что они автоматически выявляют признаки, а не потому что у них хорошая память.

Suntechnic 20 мая 2016 в 21:56

Потому, что некоторые рассчитывали, что в словообразовании есть некоторые правила и их можно выявить с помощью нейронной сети.
Но большинству уже понятно, что зря.

feldgendler 20 мая 2016 в 22:00

Вам же интуитивно понятно, что «dfowyy» не похоже на английское слово? А определяете Вы это нейронной сетью, больше нечем. То есть на нейронных сетях задача вполне решается, только не обязательно легко.

Suntechnic 20 мая 2016 в 22:08

Чем я это определяю большой вопрос. Т.е. в обобщенном смысле конечно нейронной сетью. Только вот между нейронной сетью о которой мы тут говорим и нейронной сетью мозга пропасть.
Ну и кроме того этой же нейронной сетью я определяю что pfd тоже не фига не английское слово, а вот какой-нибудь ongaze мог бы и проканать. Боюсь если определять буду я, то не обгоню в этом конкурсе даже самый простые алгоритмы.

feldgendler 20 мая 2016 в 22:10

Да, 100% Вы не определите. Генератор устроен так, что он выдаёт слова разной степени схожести с английскими — от белого шума до почти неотличимых. Это сделано для того, чтобы разные программы могли соревноваться в различении большего числа «ступеней» сходства.

Suntechnic 20 мая 2016 в 22:26

И вот об эти слова как раз и споткнется нейронная сеть! Так же как спотыкается наш мозг. Тут нужно действительно решение которое хорошо запоминает данные в минимальном объеме.

tyomitch 20 мая 2016 в 23:30

Никто не запрещает комбинировать различные алгоритмы: нейросеть для отсева «dfowyy», и что-нибудь другое для отсева «ongaze».

Don_Eric 21 мая 2016 в 12:04

немного ламерский вопрос — у меня установлена версия 6.2.0, и скрипт на ней проходит ок (после комментирования строчки с проверкой на «6.0.0»). Нет ли никаких breaking changes с тех пор? Особыми фичами языка не пользуюсь

П.С. а не могли б организаторы посылать при каждой заявке на мейл также результат предварительной проверки? Было б очень здорово
А если б еще и leaderboard… :)

mwizard 21 мая 2016 в 12:11

$ npm install -g nvm
$ nvm install 6.0.0
$ nvm run 6.0.0 your_app.js

Don_Eric 21 мая 2016 в 12:22

спасибо. хотя nvm не сработал, но получилось через n

mwizard 21 мая 2016 в 12:31

Спасибо, я не знал про n. А как именно не сработал nvm, чтобы можно было багрепорт отправить?

p.s. Интересно, чем вызван минус…

Don_Eric 21 мая 2016 в 12:35

минус не я поставил, но скомпенсировал плюсом :)

>nvm download 6.0.0

>sudo nvm install 6.0.0
Not built yet

>sudo nvm build 6.0.0
Configuring… File "/Users/Roman/.nvm/node-v6.0.0/configure", line 481
'''
^
SyntaxError: Missing parentheses in call to 'print'

Запускал на маке

mwizard 21 мая 2016 в 12:40

У меня тоже мак… крайне странно! У вас nvm 0.28.0? Дело в том, что он не должен билдить node, а только скачивать и распаковывать готовый, плюс мой вообще не имеет команды build!

И да, я, кажется, понимаю, за что минус.

$ npm install nvm
npm WARN deprecated nvm@0.0.3: This is NOT the correct nvm. Visit http://nvm.sh and use the curl command to install it.

Я пребывал в ошибочной уверенности, что ставил nvm через npm.

feldgendler 21 мая 2016 в 12:17

Мы будем тестировать ровно на 6.0.0, ни больше, ни меньше.

feldgendler 21 мая 2016 в 12:19

Мы для того и опубликовали тестовый скрипт, чтобы каждый мог заранее убедиться, что его программа не содержит технических ошибок.

Don_Eric 21 мая 2016 в 14:04

вопрос к организаторам — а вы можете сказать какое будет минимальное кол-во блоков для тестирования? Мой результат стабилизируется до промилле после 4000, и надеюсь что в тесте будет больше

feldgendler 21 мая 2016 в 14:08

Такое, какое потребуется, чтобы увидеть уверенную разницу между лидерами.

Shedar 21 мая 2016 в 14:36

Что является уверенной разницей?
Например, на одном блоке одно решение даст 65% а другое 75%. Является ли это уверенной разницей?
У меня разброс между самым удачным и самым неудачным блоком в тестовом наборе больше 20%

feldgendler 21 мая 2016 в 22:15

Начнём с 1000 блоков, а потом видно будет.

Zavtramen 21 мая 2016 в 23:04

Более-менее результат стабилизируется после 10000 блоков. По крайней мере у меня.

НЛО прилетело и опубликовало эту надпись здесь

Imp5 22 мая 2016 в 07:44

Не пугайте так, я сначала подумал, что слева шкала до 1.00 :)

Tiulkin 21 мая 2016 в 19:05

А хотя бы с порядком не сориентируете(тысячи/десятки тысяч/сотни тысяч/миллионы)?

SabMakc 22 мая 2016 в 06:54

Вы для выявления уверенной разницы будете «гонять» все решения или только лучшие?

feldgendler 22 мая 2016 в 08:17

Когда решим, сколько нужно для лучших, прогоним на этом количестве всех.

LostVoice 23 мая 2016 в 09:25

feldgendler, а можно нескромный вопрос? Планируется ли какое-то поощрение участникам, которые не попадут в ТОР-3 но будут очень близки к этому? У меня складывается впечатление, что разница между победителями и лучшей десяткой будет меньше 1%. Обидно будет участникам не попавшим в призы из-за пол процента. Или это жесткий конкурс, где даже сотая процента отделяет «всё или ничего»? :)

feldgendler 23 мая 2016 в 10:09

Во множестве видов спорта разница между лидерами гонки может оказаться ничтожной. Не вижу причин, почему здесь должно быть иначе.

Zenitchik 23 мая 2016 в 10:31

Во многих видах спорта деньги дают больше, чем за 3 места. Скажем, в биатлоне — 8.

Don_Eric 23 мая 2016 в 12:10

я б сказал спасибо что вообще дают.

Gromo 23 мая 2016 в 12:20

Судя по описанию конкурса можно получить спец призы за интересные и оригинальные решения на усмотрение организаторов конкурса. По мне очень даже справедливо. К тому же место в первой десятке тоже довольно сильно тешит ЧСВ :)

SerzhShuklin 23 мая 2016 в 10:10

Возможно ламерский вопрос.
в условии кроме рачего скрипта позволяется еще файлик с «мини-словарем» (ну или той инфой что мне нужна). Как его прочитать?

feldgendler 23 мая 2016 в 10:10

Ваш файл данных будет прочитан тестовой системой и передан Вашей функции init в качестве аргумента типа Buffer.

SabMakc 23 мая 2016 в 19:12

Хотел предложить объединить тесты в один большой файл вида:

post 1

ch'stalietized 0

magnanimously 1

...

что могло бы ускорить прогон тестов до 3-х раз…

Но с текущей реализацией тестирования это не даст желаемых результатов.

На простом решении вида «return 0» с 20-ю миллионами тестовых слов (200к блоков) получил такие результаты:
1. Решение с обходом каталога, vm (из статьи): 12m23.839s
2. Решение с обходом каталога, «честный» require: 0m59.152s
3. Решение с одним большим файлом (через readline), «честный» require: 0m18.198s

Сделал несколько прогонов, чтобы файлы были в кэше.
Диск SSD, оперативки с запасом (16GB).

feldgendler 23 мая 2016 в 19:15

Спасибо. Мы этот скрипт не оптимизировали, тут цель была дать возможность проверять корректность. Когда при подведении итогов встанет задача прогонять большое число решений на большом числе блоков, скорее всего, так или иначе оптимизируем.

chianti 23 мая 2016 в 19:40

Я для эстетики еще аргументы местами переставил, заодно и парсить проще:
1 post
0 ch'stalietized
1 magnanimously

SabMakc 23 мая 2016 в 20:45

Не вижу особой разницы в эстетике или в парсинге…

Понятное дело, что подобный файл сортировать построчно нельзя.
Но если вдруг отсортируют… Будет нарушено одно из условий работы тестового генератора — на 100 тестов (1 блок) примерно поровну слов и не-слов.
А в предложенном мною варианте сортировка не будет столь катастрофична :-)

chianti 25 мая 2016 в 06:58

Почитав соседнюю ветку, пришел к оценке, что по крайней мере 5 человек смогли преодолеть порог в 80%, или, по крайней мере, верят в то, что смогли преодолеть. Так что, вполне вероятно, кто-нибудь и покажет результат в 85%

Zavtramen 25 мая 2016 в 13:20

Так что, вполне вероятно, кто-нибудь верит в то, что покажет результат в 85% )

chianti 26 мая 2016 в 20:29

А можно описание решения выложить попозже? Например, после предварительных итогов. А-то сейчас код представляет собой некоторую кашу из Java, Python, Shell-скриптов и JavaScript, которую я, конечно, приложу сразу, но в которой, вообще, трудно разобраться.

feldgendler 26 мая 2016 в 20:42

Присылайте кашу. Да, вполне можно будет дослать текстовый файл потом.

chianti 27 мая 2016 в 12:24

Дрожащими руками залил решение. Неплохо бы на будущее, чтобы еще MD5 от файлов приходило на почту, чтобы можно было проверить то или не то загрузил

Gromo 27 мая 2016 в 13:58

Можно проверять по байтовому размеру загруженных файлов из письма, к примеру.

chianti 27 мая 2016 в 13:59

Да, я именно на этом и остановился :)

Tiulkin 28 мая 2016 в 04:04

Решение не отправил, но решил поделиться опытом.

chianti 3 июн 2016 в 13:51

А будут сегодня какие-нибудь «предварительные результаты»?

feldgendler 3 июн 2016 в 14:19

Похоже, придётся отложить до понедельника, не успеваем.

Zavtramen 6 июн 2016 в 16:59

Я все понимаю, непредвиденные обстоятельства, много участников, долгое тестирование и т.п.
Но ведь совершенно не сложно просто оставить коммент «К сожалению мы не успеваем в понедельник, предварительные результаты будут тогда-то». За это не расстреливают ;)