Как стать автором
Обновить
12
0

Data Scientist

Отправить сообщение
Молодцы ребята, но почти каждый студент писал боидо-подобный алгоритм, для самых разнообразных сред. За пару вечеров можно портировать и отладить код для космоса или атмосферы, хоть для океана и подземных червей, был бы только прототип.
А ползающая тележка на трех колесах в двухмерной плоскости это задача школьного уровня.
И все тело их, и спина их, и руки их, и крылья их, и колеса кругом были полны очей, все четыре колеса их.
Иез. 10:12

DeepDream
image


Человеческий мозг тоже много чего додумывает и дорисовывает в воспоминаниях, да и в реальном времени.
В этих ваших линупсах и сейчас можно настроить все, начиная от установки любого оконного менеджера, до изменения цвета пикселя, в нужных координатах.

Как у людей подгорает после каждой обновы винды это просто шоу. Я всяко изощрялся, пытаясь заставить ее работать как мне надо. Но в понимании майков, вин-админ это бактерия, которая должна со смирением принимать свою участь.
В итоге имеем то, что имеем.

Взять, например те же обновления. Вырубаем всех лишних демонов, глушим связь с серверами через hosts, за одно и телеметрию обрезаем. Устанавливаем галку «лимитное подключение» на все коннектах, запрещаем проверять обновы. Отрубаем защитник время от времени, чтобы впустую не жрал ресурсы. Вроде-бы все замечательно? А вот и нет.
Проходит эдак с год, выходит вроде-бы стабильная обнова. Скрепя сердце, отключаем все запреты, накатываем обновление, включаем запреты обратно.
И тут случается чудо, очередная обнова ставится самостоятельно, без нашего ведома, как обычно целые разделы настроек пропадают бесследно, кнопочки оказываются в случайных местах. Защитник был выключен на момент обновы и попыток самостоятельно включиться не проявлял, зато теперь на месте выключателя красуется надпись «Параметрами защиты от вирусов управляет ваша организация». WTF? Какая организация? У меня домашняя версия.
Это еще хорошо, что всякие паразиты, вроде sedlauncher, которые постоянно потребляют 100% IO диска, отключаются парой кликов.

Людям говоришь «ставьте линукс», а в ответ «чур меня! там одноглазники не работають».
Самый простой и дорогой способ — манипулировать рынком, вбрасывать новости, останавливать/запускать майнинг-фермы. Какому-нибудь правительству условного Китая это вполне доступно, если там найдутся достаточно сообразительные люди.
Даже совсем глупый разработчик не будет предсказывать хаотическую систему на основе предыдущих состояний. Ковырять один единственный график в попытках выжать из него здравый смысл это ущербно, там ведь даже на спектрограмме шум.

Сейчас развилась куча мощных инструментов, взять например анализ текстов.
Качаем с бирж историю, объединяем, усредняем. Качаем твиты с хештегами, связанными с криптой. Сводим время твита и истории. Создаем модель, которая пережевывает предыдущие цены с твитами и выдает предсказание.

Конечно, на волнах хайпа далеко не уедем, цены на каждую секунду не получить. Но представить, что ждет рынок на следующей неделе — вполне возможно. Ни человеку, ни классическим торговым ботам такое не под силу (хотя, да можно посадить тысячу аналитиков, но им надо платить зарплату), а ML модели вполне себе вывозят.
То-ли дело Казахстан: ничего никогда не блокировали, но как сайт появляется в списке РКН, так в Казахстане доступ к нему пропадает.
Давно пора переименовать в Казахский Федеральный Округ.
В новостях должны быть ссылки на массовые баны и полеты с первых мест на двухсотые, надо поискать.

Тестовый сет всегда щупают, загнать синтетические предсказания и погадать по лидерборду, большого ума не требует.
Некоторые, правда, слишком усердствуют и тогда в обсуждениях закипают бурления. В основном со стороны «гадалок» и оверфитеров.

Про «загонку в модель» очевидно — модель не может сказать на каких данных ее обучали. Поэтому организаторам в условиях надо обязывать участников давать параметры и алгоритм обучения.

А взломы это те же лики, только в совершенно дикой манере. Когда в интернет торчит SQL база с приватными данными и их нельзя опубликовать, потом прикрыли, а кто успел тот и съел. Тут становится жалко потраченного времени.

Соревнования на табличках — самые нервные, организаторы как и везде, мешают данные с бурдой и обещают полцарства, а потом не обещают, просто сворачиваются из-за утечки.
С картинками интересней, но мощностей надо на пару порядков больше.
Обычное дело на Кеггле, во всех конкурсах в топе сидят скраперы и оверфитеры. Участники обманывают и организаторов и себя. Каждый конкурс начинается с того, что кто-нибудь прощупывает закрытый тестовый датасет, потом делится с командой.

Если организатор не озаботился очисткой и не анонимизировал данные, то доходит до взлома БД сайтов.
Полученные данные можно загнать в модель и никто фарш не сможет повернуть назад. Хотя, во многих конкурсах, добытые данные можно сделать публичными.

Кстати, недавно закончились конкурсы где организаторам пришлось выкинуть из оценки >50% и 89% данных.
Тоже пришлось повоевать в свое время с автоэнкодерами, MNIST слишком примитивный и при расширении сети на большие разрешения все усложняется. Рабочих примеров кода мало, т. к. автокодировщик для картинок никому не нужен, а с другими данными все очень легко.

На большой глубине (с черно-белыми изображениями) из сигмоидальных функций лучше всего работает гиперболический тангенс, в некоторых случаях даже линейная от -1 до 1. Еще лучше — специализированные лямбда-активации, энкодер можно задать обычными свертками и пулингами, а на декодер приходится писать специализированные шейдеры, для быстрой сходимости и компенсации артефактов.

И да, для больших изображений все-таки автокодировщики не годятся, ту же задачу можно решить намного эффективней и изящней при помощи GAN.
Конечно, там приходится с нуля все руками прописывать, описывать каждую мелочь.
В Керасе под капот приходится заглядывать, только когда что-то отваливается в новой версии. А в Торче из под капота никто никогда и не вылезал.
Вообще-то достаточно инициализировать функцию и подать название в load_model, в виде custom_objects = {'имя_функции': функция_потерь}
Странно, что не оптимизировали подход до конца. Можно ведь генерировать мел-окно, пихать в вектор и подавать нейросети. Затем, после обучения, удалить самые бесполезные параметры. В результате, на нейросеть будет меньше нагрузка и она сама будет меньше, а значит быстрее.

Взять, например MelNet, там очень здорово придумали с повышением размерности, но из-за невозможности применить сжатие гармоник, по скорости она не превосходит tacotron2
Есть прекрасный мод OpenComputers. Там правда, только Lua, но интересней программировать не ради программирования, а для решения игровых задач. Роботами и дронами можно копать/садить картошку, разводить животных, добывать и сортировать ресурсы. Есть даже возможность управлять миром и игроками через специальное админское устройство.
И да, можно даже подключиться к IRC и помигать лампочкой в квартире.
Дорого все-таки. Надо бы проектировать с заделом на большую автоматизацию.
Под процессор испаритель площадью по-более бы. В идеале, здоровое ведро с переходниками под процессор и видеокарту, тогда и корпус не нужен.

Для видеокарты сделать отдельный модуль, чтобы он пристыковывался к основному корпусу в единое целое. И продавать по-отдельности.
Крышку с отверстиями под разъемы можно фрезеровать на заказ, схемы под все материнки есть.
Я немного не понимаю, если доступа к базе из сети нет, то как с ней работают сотрудники? Заказным письмом?
Клеточный автомат это свертка по нескольким фиксированным правилам. Сверточные нейросети работают по такому-же принципу, только там сила влияния регулируется в процессе обучения и правила не дискретные.
Интересовался обработкой изображений при помощи клеточных автоматов, кроме выделения контуров ничего не нашел.

Несколько недель играюсь с реккурентными сверточными нейросетями.
Теоретически, вычислительных возможностей у такого типа на порядки больше, чем у обычных сверток, но пока никакого прорыва нет.
Скорее всего, градиентный спуск тут вреден, надо будет совместить градиентный оптимизатор с генетическим алгоритмом.
Скорее всего, основное время занимает инициализация TF, при первом запуске библиотека всегда долго раскочегаривается.
В горячем режиме, с загруженной моделью, результат выдается моментально.
Недавно с коллегами обсуждали использование USDC/USDT в качестве надежной крипты для обхода санкций. В отличии от банка, блокчейн не обвинит в терроризме/педофилии/противостоянии режиму и не присвоит на этом основании все денежки.
А китайцы уже. Впереди планеты всей, пользуют идеи, лежащие на поверхности.
Через меня проходили контейнеры ЭЦП юридических лиц и отделов администрации города, у всех стандартный пароль. В купе с дырявой настройкой удаленного администрирования это дает злоумышленникам фантастические возможности.
Пока услуг не густо, данные проще найти в даркнете. Но если ЭЦП позволит закреплять куплю/продажу, наступит коллапс.
Благо, грамотных людей в Казахстане не густо, особенно среди злоумышленников.
Как бы, на хабре, года четыре назад уже была такая новость. Только там бот без самообучения, на захардкоженой теории игр, спокойно делал миллионы против мастеров турнирного покера. И да, NL Holdem.

Информация

В рейтинге
Не участвует
Откуда
Алма-Атинская обл., Казахстан
Дата рождения
Зарегистрирован
Активность