1) Современные средства для машинного обучения умеют справляться с некорректными данными. Неточные данные просто снижают точность предсказаний. Это зависит от количества косяков в данных.
2) Явные выбросы (их видно на графиках) можно фильтровать перед созданием модели
Нужна гигантская база обезличенных данных. Из серии набор симптомов, анализов и.т.д. -> диагноз. Тогда можно будет натренировать модель которая с некоторой вероятностью предскажет возможный диагноз. Для этого нужны электронные мед. книжки. Сегодня был в своей поликлинике, они до сих пор там с бумажными картами ходят. Так мы далеко не уедем…
Нейросетки могут менять свое поведение в зависимости от внешних условий (сигналы которые приходят на её входы и меняют веса в процессе). По сути это и есть изменение программы поведения.
И что? Нейросеть учит аналогии. И котиков она очень хорошо предсказывает по картинкам, которые раньше не видела. Если нейросеть будет достаточно большой, то и логические аналогии они сможет строить. Но вообще логика это не то, в чём хороши нейросетки (как и наш мозг кстати). Почему ИИ должен быть обязательно про логику — для этого есть обычные компы, которые под неё заточены?
Ну вообще нейронные сети проще всего допилить до ИИ аналогичного человеку:
1) Входы есть. Сейчас их мало, например у лучших сетей для картинок в среднем подаётся матрица 224x224. То бишь зрение хоть и плохенькое у ИИ есть. Дальше добавить туда входы для звука, вкусовые рецепторы, какие-то рецепторы для осязания и.т.д. Выходы соединить со всякими сервоприводами и генераторами звука, например.
2) В текущих нейронках используется простейший подход: сначала учим, потом юзаем. Что бы сделать максимально близкое к человеку — надо что бы они учились непрерывно и использовались параллельно.
3) В текущем виде нейронные сети слишком маленькие для каких-либо серьезных задач. При этом жрут дофига мощностей. Так что что бы на их основе сделать что-то приемлемое потребуется дальнейшее развитие микроэлектроники.
Машинное обучение. Я в ночь частенько дома запускаю XGBoost. С утра смотрю чего там… ) В последнее время правда у меня больше проблема с нехваткой памяти нежели с процессорными мощностями.
Как я понял архитектура этого суперкомпа, не особо подходит для нейронных сетей.
Сейчас в исследовании нейтросетей много энтузиастов. Не в последнюю очередь, что появилась возможность в домашних условиях их моделировать, за счёт видеокарт. Например очень крутая Pre-Trained сетка VGG16 вполне неплохо считается на 980Ti 6GB. А когда задачей занимается большое число энтузиастов, прогресс движется быстрее. Теперь проблема в том, что мощностей для разработки и использования сетей большего размера всё таки не хватает. Так что ждём ещё более быстрых видеокарт и мощных видеокарт «домашнего» сегмента.
В идеале возможность взаимодействия через спец. сайт например. А сгенерируй-ка мне Ватсон рецепт блюда с такими-то ингридиентами (коли есть новость что он такое умеет).
Какие-то количественные характеристики бы не помешали, на обработку такого-то вопроса требуется столько то времени. Столько-то элементарных операций затрачено. В каком формате подаются входные данные. Как проходит валидация результатов.
Часть исходных кодов отдельных частей системы в опенсорсе.
Но вообще там в правилах написано что текстовый файл с дополнительными данными можно архивировать. Дальше все зависит от того насколько хорошо сожмется файлик с фильтром. )
Из Вики и статьи:
https://en.wikipedia.org/wiki/Bloom_filter
https://habrahabr.ru/post/112069/
Вероятность ложного срабатывания:
Оптимальное значение k:
Что для этой задачи равно:
k = 65536/660000*ln(2) = 0,09929697*0,69314718 = 0,068827414. То есть оптимум 1.
p = 1 — e^(-n/m) = 1 — e^10,07080078125 = 1 — 4,2296729941409029988465653752585e-5 = 0,9999577
То есть вероятность ложного срабатывания 0,9999577. Что в общем очень-очень плохо.
А зачем? То есть какой в этом смысл? Сейчас придется писать доп. код, который будет получать слова, потом выкидывать оттуда правильные, а ещё судя по тексту и забанить за нагрузку могут…
https://finnaarupnielsen.wordpress.com/2015/03/15/status-on-human-vs-machines/
https://www.kinopoisk.ru/film/974465/
Фильм со своими проблемами, но для любителей НФ самое то. Я посмотрел с удовольствием.
Линги против танков:
Марины против бейлингов:
Дропы:
2) Явные выбросы (их видно на графиках) можно фильтровать перед созданием модели
1) Входы есть. Сейчас их мало, например у лучших сетей для картинок в среднем подаётся матрица 224x224. То бишь зрение хоть и плохенькое у ИИ есть. Дальше добавить туда входы для звука, вкусовые рецепторы, какие-то рецепторы для осязания и.т.д. Выходы соединить со всякими сервоприводами и генераторами звука, например.
2) В текущих нейронках используется простейший подход: сначала учим, потом юзаем. Что бы сделать максимально близкое к человеку — надо что бы они учились непрерывно и использовались параллельно.
3) В текущем виде нейронные сети слишком маленькие для каких-либо серьезных задач. При этом жрут дофига мощностей. Так что что бы на их основе сделать что-то приемлемое потребуется дальнейшее развитие микроэлектроники.
Как я понял архитектура этого суперкомпа, не особо подходит для нейронных сетей.
Какие-то количественные характеристики бы не помешали, на обработку такого-то вопроса требуется столько то времени. Столько-то элементарных операций затрачено. В каком формате подаются входные данные. Как проходит валидация результатов.
Часть исходных кодов отдельных частей системы в опенсорсе.
Да много чего не хватает, как мне кажется.
Но вообще там в правилах написано что текстовый файл с дополнительными данными можно архивировать. Дальше все зависит от того насколько хорошо сожмется файлик с фильтром. )
p = 1 — e^(-660000/524288) = 1 — e^(-1,25885009765625) = 1 — 0,28398039 = 0,7160196
Результат лучше, но все равно не очень хороший.
https://en.wikipedia.org/wiki/Bloom_filter
https://habrahabr.ru/post/112069/
Вероятность ложного срабатывания:
Оптимальное значение k:
Что для этой задачи равно:
k = 65536/660000*ln(2) = 0,09929697*0,69314718 = 0,068827414. То есть оптимум 1.
p = 1 — e^(-n/m) = 1 — e^10,07080078125 = 1 — 4,2296729941409029988465653752585e-5 = 0,9999577
То есть вероятность ложного срабатывания 0,9999577. Что в общем очень-очень плохо.
Поправьте меня если я где-то ошибся в расчетах.