• Японская сеть суши использует приложение на ИИ для оценки качества рыбы
    0

    UNet может начиная с нескольких десятков завестись, ± от домена.

  • Как мы отказались от нейросетей, а затем вернули их в прогноз осадков Яндекс.Погоды
    0

    Я пользуюсь вашей погодой и не жалуюсь. Круто всё это по иным причинам:


    1. Это сложная задача и вы ей занимаетесь,
    2. Вы умудрились "подменить" задачу и добиться улучшения,
    3. Вы делитесь знаниями, спасибо!
  • Искусственный интеллект пишет картину сам, реально сам — без обучения на примерах других картин
    0
    Недурно.
  • Сооснователь Qiwi предоставит Дурову кредит
    +8

    Не скажу что я фанат Дурова, но во всей этой истории было бы красиво, если бы он через год утер всем нос. Не блокчейном, чем-нибудь другим, как минимум действительно > 50%.


    Но может получиться, что через год будет нытье и отмазки, реструктуризации, 50 процентов в год не шутка, да и с этими людьми так шутить не имеет смысла (репутация на дороге не валяется, как и лямы долларов).


    Вобщем год еще минимум на попкорне сидеть :)

  • О системе статистического тестирования, которую хочется иметь
    0

    спасибо!

  • О системе статистического тестирования, которую хочется иметь
    +1

    в ods в подобной дискуссии (не об этом на самом деле) мне сказали вот что


    http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B0%D0%B4%D0%B5%D0%BC%D0%B0%D1%85%D0%B5%D1%80%D0%BE%D0%B2%D1%81%D0%BA%D0%B0%D1%8F_%D1%81%D0%BB%D0%BE%D0%B6%D0%BD%D0%BE%D1%81%D1%82%D1%8C


    оттуда можно копать.

  • О системе статистического тестирования, которую хочется иметь
    0

    таких коробочных фреймворков нет, если не считать bayes_opt и гауссовские процессы.


    а вообще, качество модели как функция от данных (посчитаем гиперпараметры как разные модели), есть некоторый "архив", или их свертка. далеко нелинейная.


    примерно как нейросеть, которые универсальные аппроксиматоры. то есть решение в вашем случае такое: взять сетку с двумя скрытыми слоями размером в размерность данных и регуляризовывать ее уменьшением размера.


    то есть задача эквивалентна нахождению нейросети минимальной ёмкости с лучшей метрикой (решения на данный момент нет, насколько мне известно).


    загляните также в архитектуры neural architecture search. я не расскажу как они работают на пальцах, но смысл там в поиске архитектуры.


    но насколько мне известно, лёгких путей в пространстве моделей нет: ландшафт функции ошибки у моделей слишком рваный, в нем много перестановочных симметрий и других проблем.


    идея, впрочем, хорошая. Широко известный в узких кругах Ветров (из Samsung Research он вроде) не так давно (я слышал это в феврале) анонсировал попытку обойти все проблемы, связанные со сложным ландшафтом, но результатов я не знаю.


    А вообще, Монте-Карло на то и нужен, чтобы исследовать подобные проблемы, которые хренушки в лоб вычислишь. Так что поставьте эксперимент даже через простой randomized search, в том числе с размером датасета, и посмотрите на распределение метрики.

  • О системе статистического тестирования, которую хочется иметь
    0

    если речь про перебор гиперпараметров, лучше гауссовских процессов и bayes_opt пока лучше ничего не придумали.

  • О системе статистического тестирования, которую хочется иметь
    0

    Для задач классификации, например, есть такая вещь как Bayes Error Rate. Для регрессия аналога не знаю.


    Что значит предел, в котором можно сравнивать модели — не очень ясно (мне до сих пор). Сравнивать можно хоть до посинения. Пока бизнес-метрика (см. ссылку выше) осмысленные значения даёт или поддаётся оптимизации.

  • О системе статистического тестирования, которую хочется иметь
    0
    А ну вот, в упомянутой книге ниже, как раз вот было про что-то подобное по вашему запросу. Я же помню что было что-то)
    nbviewer.jupyter.org/github/CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers/blob/master/Chapter5_LossFunctions/Ch5_LossFunctions_PyMC3.ipynb#Example:-Financial-prediction
  • О системе статистического тестирования, которую хочется иметь
    0

    по ссылке ваш ресурс? недурно :)


    моделей значительно больше, чем континуум (если рассматривать гладкие, то континуум). данных конечное число. чем больше в модели параметров, тем меньше шанс найти глобальный оптимум функционала ошибки, чем меньше параметров, тем, понятно дело, она грубее.


    база паттернов это один вариант модели. не скажу что не рабочий, рабочий пока на рынке не действуют внешние шоки. Предупреждающих индикаторов пандемии в ценах нет, тех самых лебедей.


    А найти оптимум какой-либо из локальных (если модель простая, то и глобальный), можно градиентным спуском, ну или если нужно распределение на параметры — stan, pymc3, pyro, infer.net, tensorflow probability, Edward, webppl...


    я всерьез советую посмотреть скажем pymc3, как самый user friendly. хорошая книга про него — bayesian methods for hackers.


    по крайней мере, с помощью этих фреймворков можно фитнуть к данным произвольную модель, хоть на тех анализе, хоть нет.

  • О системе статистического тестирования, которую хочется иметь
    0

    ну да, даже линейный тренд уже приор. по вашей второй ссылке из постскриптума, идут дальше, и смотрят паттерны. это все так называемый тех анализ, который считает что "в цене заложено все прошлое".


    она прыгает, цена, но если разделить следующую на предыдущую и взять логарифм, почистив от тренды сначала, все может оказаться похожим на (лог?-) нормальное распределение. то есть случайные блуждания.


    есть и модели кстати со скачками (по распределению Пуассона). И даже параметры таких случайных процессов можно восстановить, если уметь интегрировать стохастические диффуры. Но и оно этого толк — посэмплить случайных возможных движений. Предсказание если брать как среднее, оно в случае нормальных движений будет тяготеть к тренду (или к последней, которая частный случай разностной модели без тренда).


    Уже ковыряли и 10 и 20 лет назад, и раньше, матстатом и Монте-Карлой вот это все.


    Чтобы предсказать систему, системно, надо так или иначе ее параметризовать. Чтобы найти параметры, надо подогнать статистически функцию (хоть Монте-Карлой — ответ распределение, хоть градиентным спуском — точечные оценки).


    И пока система будет драйвиться входящими признаками (время, прошлая цена, температура тела президента Северной Кореи), модель будет работать. Жопа в том что рынки реагируют на каждый чих перемещениями капитала из одних активов в другой, причём портфельными порциями.


    И да. Книжка есть, сигнал против шума. Там есть вопрос, кто лучше предсказывает, лисы (много секретов, но мелкие), или ёжики (один секрет, но главный). tldr лисы. у них модели гибче. то же самое нам и Талеб вещает в анти хрупкости все яйца в одной корзине не хранить, и страховать сделки так, чтобы при потерях терять мало, а при выигрыше выигрывать много. богатым и здоровым короче быть хорошо.


    а это ж только управление портфельным риском позволяет. на один актив всегда слишком много факторов. с портфелем же ниже рынка упасть можно, но уже сложнее, а вырасти можно и повыше. тренд у рынка расти. был до пандемии)

  • О системе статистического тестирования, которую хочется иметь
    0

    Ну так упомянутые пакеты Байесовского (который при размерности задачи много меньше числа наблюдений — частотный) вывода, этот самый вывод и делают.


    Проблема только в том, что далёкий от реальности приор (форма зависимости) будет долго вести к постериору. А хороший приор кто в Сочи живет знает.


    Биток сильно волатилен. Поэтому думаю не сильно ошибусь, статистический вывод от фич времени даст среднее звено период, а если примешать прошлые цены, матожиданием будет последняя цена (распространённый случай для случайных процессов). Это максимум что можно выжать без дополнительных признаков. "Статистически корректный вывод" не будет противоречить этому.

  • О системе статистического тестирования, которую хочется иметь
    0
    Есть пакеты статистического вывода (Байесовского). Pymc3, Pyro, Tensorflow Probability — это для python (и то это не все), Stan для С++, python, R, для JavaScript есть webppl.org…

    Если я правильно понял запрос, конечно. Тутберидзе проблема не в наличии или отсутствии инструмента. Проблема в том, что зная среднее, разброс может сводить какие-то (все в общем-то) усилия на нет.

    Торговые временные ряды же вообще случайные процессы, и даже если извлечь их характеристики из истории — это мало что даёт, кроме как покатать стратегии на модельных траекториях (и выяснится если снос нулевой, то в среднем ноль и будет, а с комиссиями — минус).

    «Извлечь характеристики из истории» — поверьте, это весьма непростые приседания. И того не стоят. Одномерные временные ряды вообще зло, будь в них сезонность даже, тренд и праздники. Многомерные ряды ещё как-то работают, и нейросетки с ними тоже ещё хоть как-то работают.

    Вероятностный вывод годен для классических задач data science — регрессии, классификации, когда надо проинтерпретировать коэффициенты модели, покатать несуществующие ситуации (посэмплить), и другая аналитика.

    Но не этот теплонагревательный биток.
  • Подбор важности фич для k-nearest neighbors (ну или других гиперпараметров) спуском похожим на градиентный
    +1

    Вы практически переизобрели metric learning.
    http://contrib.scikit-learn.org/metric-learn/introduction.html


    И у дерева и knn есть серьёзное отличие: параметрический или нет, метод.


    Входная концепция, масштабировать по важности дерева мне понравилась, не делал так :)

  • Прогнозирование временных рядов с помощью рекуррентных нейронных сетей
    0

    Правильную статью выбрали, годную. Сам пользуюсь кое-чем из неё, модели в проде, и врут ровно настолько, насколько врут (по составу влияния на таргет) входы.

  • Зачем хардверному стартапу софтовый хакатон
    0

    Вдогонку. Про управление девайсами в зависимости от батарейки есть примеры fuzzy logic на C в (древней, но неплохой) книге "Программирование искусственного интеллекта в приложениях".

  • Зачем хардверному стартапу софтовый хакатон
    0

    fbprophet не нейросеть. байесовская модель на stan, изначально линейная из тренда, сезонности, праздников и других компонент по желанию.


    Тем не менее вполне годная в куче кейсов.
    Вам бы думаю зашла бы как раз байесовская своя модель — просто коэффициенты бы нашли для подходящей формулы. Но это уметь надо. Посмотрите на stan или pymc3 например.


    В конкурсах участвовать некогда.

  • Основы deep learning на примере дебага автоэнкодера, часть №1
    0

    ладно, можно не аргументировать. поэкспериментировал, все энкодеры "плохие", неважно, симметричные или нет. все делают переход нелинейно.

  • Основы deep learning на примере дебага автоэнкодера, часть №1
    0

    А кто не согласен, тот может (контр)аргументировать .

  • Основы deep learning на примере дебага автоэнкодера, часть №1
    0

    спасибо! скачал)

  • Основы deep learning на примере дебага автоэнкодера, часть №1
    0

    если первый и последний то норм.
    хорошее векторное пространство, это если взять, например, такую архитектуру
    dense(20)
    dense(10) // конец кодировщика
    dense(20),


    и взять представления с промежуточного слоя, то эти вектора (эмбеддинги) имеют хорошие свойства с точки зрения "семантики" данных.


    для ваших картинок можно найти среднюю траекторию, сложить или умножить на скаляр, или, если есть кластеры, можно деформировать одно изображение в другое (например как будет себя вести конкретный самолёт, как если бы он сжигал топливо), ну про аномалии сами понимаете.

  • Основы deep learning на примере дебага автоэнкодера, часть №1
    –1

    вообще, автокодировщики в обратную сторону "должны" повторять кодирующую архитектуру, а иначе на вложениях (эмбеддингах) не будет хорошего векторного пространства, которое все любят.

  • Основы deep learning на примере дебага автоэнкодера, часть №1
    +1

    Спасибо за описание ваших приключений) Интересно было почитать. Если поделитесь датасетом, думаю я не один благодарен буду.


    А вообще энкодеры нужны обычно для того, что вы похоже заготовили на вторую часть статьи.


    И еще, касательно приключений. Очень занятный (инженерный) у вас способ сетки отлаживать, надо заметить. В любом случае, лосс это "описание" задачи, которую решает сетка, ну хорошо, что через хоть такие истории, но вы это засветили.


    Жду вторую часть.

  • 1С СППР и оценка сроков и стоимости проектов методом COCOMO II
    0

    не знаю что там 1С СППР, у Макконнела есть хорошая книжка (и даже древняя софтинка) для расчётов по COCOMO (два или не два, не помню). "Сколько стоит программный проект" название вроде.


    Идея отучить регрессию на данных по проектам хоть и не нова, но вполне себе имеет право на жизнь. Ревизию старья можно проводить даже автоматизированно, если есть gitlab локальный и (без или) что-то вроде ms project. во всяких галерных интеграторах даже ТЗ все по одному шаблону, можно даже тексты в регрессор подавать.


    Беда что проектов часто не так уж и много для надёжной модели. Но для крупных галер можно навести анализ, у них и ОУП под это наверняка есть.


    А 1С вообще тут не нужен.

  • Пишем «калькулятор» на C#. Часть I. Вычисление значения, производная, упрощение, и другие гуси
    0

    Их и не надо писать. Когда мне на C# понадобился парсер, я взял pidgin. Вот пример как им не надо пользоваться :)


    https://github.com/timeseries-ru/infered

  • Математики разрезают фигуры в поисках частей уравнений
    +5

    Как захватывающе написано. Я когда на втором курсе учился, 2003 наверное, занимался теорией узлов и зацеплений. Там тоже сопоставляли узлу (топологический так-то объект) полином например и искали инварианты.


    Я работал с самым начальным полиномом — полиномом Листинга. Пришел в итоге (в 2003), я уже не помню как я это получил из полинома Листинга, движения Рейдемейстера анализировал наверное, пришел к тому, что если можно из кусков узла склеить сферу, то он развязывается. А вот каких кусков — хоть убей не помню.


    Потом я занялся всяким менеджментом проектным. Больше платили. Ничего против проектного менеджмента, но сейчас жалею что даже не помню где тетрадки по узлам лежат. Тогда это все было не круто у нас :(

  • Экономика проектов (начинать проект или нет) — версия два
    0

    В компетенцию нет, но выбор технологии — точка в дереве принятия решений. Если есть желание максимизировать чистый доход, тогда все технологии ранжируются именно по такой эффективности.


    Если экономический анализ не бьется с интуицией, то как там было у Козьмы Пруткова: "если на клетке с буйволом написано медведь — не верь глазам своим".

  • Блиц-проверка алгоритмов машинного обучения: скорми свой набор данных библиотеке scikit-learn
    +1

    И опять немного не так. Процесс циклический, называется crisp-dm. Но я даже не о нем. Не в чистке дело, а в отображениях. Какое-нибудь банальное преобразование вроде перехода в полярные координаты или логарифмирования таргета, может докинуть качества в два раза — причем сразу для всех перечисленных алгоритмов.


    И это часто видно глазами по pairplot, distplot и т.д.

  • Блиц-проверка алгоритмов машинного обучения: скорми свой набор данных библиотеке scikit-learn
    +1

    Хорошая попытка, но нет. Это работает все немного не совсем так. И математика тут как раз самое важное, а не эксперимент.


    Да, качество предугадать невозможно, но есть некоторые соображения, исходя из природы данных и алгоритма, что могло бы повысить качество.


    1. Подходящий препроцессинг, и разные алгоритмы различным образом реагируют (или даже нет).
    2. Отбор признаков, не все алгоритмы умеют в него сами хотя бы на начальном уровне.
    3. Снижение размерности, да и вообще размерность датасета.

    Серебряной пули пока не нашли, даже сетки, которые сами могут в feature engineering, имеют ряд заморочек, когда они не работают.


    Если совсем абстрактно, алгоритмы из scikit-learn работают хорошо, когда пространство признаков с более-менее хорошими свойствами, а вот сделать его таким — ну если не искусство, то каждый раз серьезная задача.

  • Разница между Data Scientist и подростком в спорткаре
    +3
    100%

    Статья блаблабла. Ладно себя позиционируют как выпускающих этаких практиков дата аналитики, но зачем на других наезжать? И вообще всех «остальных» уравнивать одинаково?

    Кто в сфере работает, а не просто изучает, знают всё это «сакральное». Да и девственно чистых дата-аналитиков в природе еще не появилось, у всех некоторое базовое предметное образование или прикладной опыт.

    Короче, какой-то хреновый маркетинг. Тоже по выводам пройдусь.
    1. «Технологии машинного обучения и нейросетей переоценены».
    — их вообще невозможно оценивать. Либо модель работает и дает положительный экономический эффект, либо нет. Машинное обучение — один из способов моделирования, причем самый… экономически эффективный (при наличии данных).
    2. «Методы машинного обучения канибализируют культуру аналитического мышления».
    — аналитика конечно хорошо, но аналитика с моделью лучше. Если где-то проскакивают аналитику и сразу идут к модели — просто дольше натрахаются.
    3. «Для достижения экономического эффекта… важнее soft-скиллы».
    — звездеж, непонятно откуда взявшийся.
    4. «Профессия Data Scientist'а — сильно переоценена».
    — окей, берите аналитика, математика и программиста сразу вместо одного дата-саентиста. Подождите пока все поймут-разберутся, пока договорятся, пока один поймет что сделал другой и прочие накладные. Вот прям кровавый дата-энтерпрайз или галерный конвейер. Не работают они в дата-саенсе.
  • «Золотое сечение» в экономике – что это?
    +1

    Есть торговая стратегия "золотое сечение" на финаме, в топе кстати. Числа Фибоначчи часто используются в техническом анализе в торговле на бирже.


    Золотое сечение и спираль это просто фазовая траектория некоторого дифура, неплохо описывающего механику упорядочения в системах с определённого рода постоянным внешним воздействием.

  • Визуализация новостей рунета
    +1

    Проект отличный, жаль что я попадаю в категорию нинзь за фатальным недостатком свободного времени по семейным обстоятельствам.


    В плане веб-разработки там поляна широкая для творчества! А объем по моему мнению не запредельный. Идеально для желающих научиться делать современно и красиво.

  • Новый метод кластерного анализа
    +2

    Джентльмены верят другу другу на слово? У вас какой-то его частный случай походу, так что да… Другой....


    И вообще, заявлений много, а анализа толкового нет. Мне особенно понравилось про сложные топологии :)


    Кстати у задачи кластеризации существуют конкретные метрики, silhoutte score например, а не только "интуитивная отличимость" (на игрушечных датасетах).


    Так что у вас один выход. Сделать python-библиотеку и собрать на гитхабе звёзд больше чем hdbscan (1300+ на данный момент).

  • Новый метод кластерного анализа
    0

    Не affinity ли propagation это часом? https://habr.com/ru/post/321216/

  • Сбербанк с помощью ИИ предскажет выручку любой компании в России
    +1

    Не знаю как такую модель возможно строить на RF. Он же за пределы таргета на трэйне не выходит… Очень похоже на искаженный вброс же вся история… Ничего против сбера, как и за, впрочем.


    Сам экспериментировал по этой теме. Времени нет над ней поработать как следует, просто нет свободного времени. Датасет есть на госкомстате, не такой вкусный как у сбера на тыщщу фич, и по годам не столь длинный… Но работать можно.


    Вот тут эксперимент один есть на скорую руку, кому интересно. https://github.com/timeseries-ru/accounts


    Ничего сверхъестественного, просто работа с данными.

  • Path Machine: идея одного алгоритма
    0
    Сделал таки вариант с гиперплоскостями. Мог накосячить с вычислением нормали…

    В принципе, работает, хотя не сказать что огонь-огонь. Однако принцип иной.
  • Разрабатываем теорию алгоритмов как проект с открытым исходным кодом
    0

    Ну, если нужна критика, то вот конструктивно.


    1. Не прикапываясь к определениям, просто дайте своим конструктам другое название,
    2. Сразу пишите их в мат. символах и понятиях,
    3. Я прочитал pdf теории. Во-первых, есть и генетические алгоритмы, которые не очень любят в machine learning (отчасти потому что это угадайка), во-вторых есть эволюционная эпистемология Карла Поппера про развитие естественного языка.
    4. Пока из написанного вообще никакой применимости не видно. Приводите примеры своим понятиям и их взаимосвязи, взаимодействию.
    5. Есть ещё обучение с подкреплением в machine learning, тоже перекликается.

    Пока особой красоты в изложенном не увидел. Если хотите повторить алгоритмами путь эволюции и дать им возможность самим находить ответы — смотрите гегеративные состязательные сети (GAN). Это когда одна сеть учит другую.


    И последнее, то что понятия "вредно" и "полезно" аксиоматичны — не приносит практической выгоды. В каждой практической задаче необходимо отличать вредное и полезное, причём для каждой задачи это что-то свое.

  • Выкупят/не выкупят: наш ML-пилот в «Утконосе»
    +1

    Не знаю как утконос, а джеты не молодцы. Ошибка начинающего — использовать случайный лес для временных рядов. И fbprophet поддерживает регрессоры хорошо. Его бы тут хватило вполне, если правильно готовить.

  • Что ещё можно сделать в поиске? Доклад Яндекса
    0

    Никто не думал, что когда поиск выводит шлак, то в интернете этого шлака более всего? Телепатии ещё не придумали.


    По теме. Дорабатывать векторы от сеток через KNN придумал Olah. И это очень годная штука.