Как стать автором
Обновить
0
0
Vadim Baldin @vadimbaldin

Пользователь

Отправить сообщение

Стивен Вольфрам: кажется, мы близки к пониманию фундаментальной теории физики, и она прекрасна

Время на прочтение70 мин
Количество просмотров382K
В продолжение моего поста про вычислимую Вселенную я хочу представить вам свой перевод статьи Стивена Вольфрама, созданной в рамках его проекта The Wolfram Physics Project.


Неожиданное открытие


За прошедшие несколько веков произошел настоящий прорыв в наших знаниях о принципах работы окружающего нас мира. Но несмотря на это, у нас все еще нет фундаментальной теории физики, и мы все так же не имеем ответа на вопрос о том, как именно работает наша Вселенная. Я занимаюсь этой темой уже порядка 50-и лет, но только в последние несколько месяцев все кусочки пазла наконец-то начали складываться вместе. И получающаяся картина оказалась гораздо прекрасней, чем все, что я только мог себе представить.
Читать дальше →
Всего голосов 243: ↑238 и ↓5+307
Комментарии459

Как создать сайт? Структура и контент

Время на прочтение19 мин
Количество просмотров57K
Итак, вы решили быть последовательными и начать разработку сайта с самого важного и фундаментального этапа — со структуры (visual sitemap) и контента. Ок, значит, вы попали в правильное место, где мы собрали для вас инструкции и эффективные советы как это лучше всего сделать и с чего начать. Да пребудет с вами сила, так как такой фундаментальный гид за один присед вряд ли удастся осилить.

Пример структуры веб-сайта Octopus.do

Пример структуры веб-сайта (Блоки кликабельны)

Какие разделы включить? Что по поводу контента? Мы серьезно все продумали, потратили более месяца на исследования и собрали в этом гиде весь наш 18-летний опыт по созданию сайтов. Дочитав эту статью, вы обретете исчерпывающее представление о том, почему именно так должен быть структурирован сайт компании или продукта, мы также немного коснемся фундаментальных принципов SEO и планирования контента.
Читать дальше →
Всего голосов 8: ↑8 и ↓0+8
Комментарии4

Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 38 и 39

Время на прочтение3 мин
Количество просмотров3.8K

предыдущие главы


38. Как определить, нужно ли добавлять данные с отличающимся распределением


Допустим мы хотим научиться прогнозировать цены на жилье в Нью-Йорке. Исходя из размера дома (входной признак x), необходимо предсказать его цену (целевое значение y).


Цены на жилье в Нью-Йорке очень высокие. Предположим, имеется второй набор данных о ценах на жилье в Детройте, штат Мичиган, где недвижимость намного дешевле. Нужно ли включать эти данные в обучающую выборку?


При одинаковом размере х цена дома у сильно отличается в зависимости от того, находится ли он в Нью-Йорке или в Детройте. Если необходимо прогнозировать цены на жилье в Нью-Йорке, объединение двух наборов данных ухудшит результаты. В этом случае лучше не добавлять в обучающую выборку данные о недвижимости Детройта

Читать дальше →
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Большой туториал по обработке спортивных данных на python

Время на прочтение76 мин
Количество просмотров13K


Последние пару лет в свободное время занимаюсь триатлоном. Этот вид спорта очень популярен во многих странах мира, в особенности в США, Австралии и Европе. В настоящее время набирает стремительную популярность в России и странах СНГ. Речь идет о вовлечении любителей, не профессионалов. В отличие от просто плавания в бассейне, катания на велосипеде и пробежек по утрам, триатлон подразумевает участие в соревнованиях и системной подготовке к ним, даже не будучи профессионалом. Наверняка среди ваших знакомых уже есть по крайней мере один “железный человек” или тот, кто планирует им стать. Массовость, разнообразие дистанций и условий, три вида спорта в одном – все это располагает к образованию большого количества данных. Каждый год в мире проходит несколько сотен соревнований по триатлону, в которых участвует несколько сотен тысяч желающих. Соревнования проводятся силами нескольких организаторов. Каждый из них, естественно, публикует результаты у себя. Но для спортсменов из России и некоторых стран СНГ, команда tristats.ru собирает все результаты в одном месте – на своем одноименном сайте. Это делает очень удобным поиск результатов, как своих, так и своих друзей и соперников, или даже своих кумиров. Но для меня это дало еще и возможность сделать анализ большого количества результатов программно. Результаты опубликованы на трилайфе: почитать. (К сожалению этот портал закрылся, поэтому выложил статью на Яндекс.Диск — посмотреть)

Это был мой первый проект подобного рода, потому как лишь недавно я начал заниматься анализом данных в принципе, а также использовать python. Поэтому хочу рассказать вам о техническом исполнении этой работы, тем более что в процессе то и дело всплывали различные нюансы, требующие иногда особого подхода. Здесь будет про скраппинг, парсинг, приведение типов и форматов, восстановление неполных данных, формирование репрезентативной выборки, визуализацию, векторизацию и даже параллельные вычисления.
Читать дальше →
Всего голосов 9: ↑9 и ↓0+9
Комментарии6

Запускаем простой блог на Wagtail CMS (Django) — часть 1

Время на прочтение10 мин
Количество просмотров50K
Являясь большим фанатом Python и фреймворка Django постоянно искал решение, как сделать разработку новых веб-проектов быстрее и удобнее.

Все, кто знаком с разработкой на Django, знают насколько неудобно строить на нем интуитивно понятную админ.панель. До мегапопулярного WordPress очень далеко, что делает порог вхождения в разработку сайтов выше, чем у PHP-фреймворков и CMS.
После долгого поиска и тестирования различных решений я нашел для себя оптимальный вариант — Wagtail CMS.

Wagtail — это полноценная CMS написанная на Django компанией Torchbox. За что им большое спасибо. Проект с открытым исходным кодом, поддерживается сообществом энтузиастов и выпускается под BSD лицензией.

Читать дальше →
Всего голосов 12: ↑11 и ↓1+10
Комментарии23

Современное SEO: AMP-истории

Время на прочтение8 мин
Количество просмотров7.6K
AMP истории

Да, вот такой гибридный, русско-английский заголовок получился… Поэтому давайте сразу кое-что проясним. Итак, если SEO широко известный (в узких кругах) термин, то AMP — ещё не столь. Accelerated Mobile Pages был анонсирован Google в 2015 г. (см. статью в Википедии), как инструмент, позволяющий быстро просматривать веб-страницы на мобильных телефонах. Со временем AMP превратился в фреймворк, позволяющий создавать страницы для любых сайтов (не только для мобильных устройств), и расширил свою «номенклатуру»: собственно сайты (AMP Websites), истории (AMP Stories; тема этой статьи), рекламные блоки (AMP Ads), и электронные письма (AMP email). За всем этим, как было сказано выше, стоит Google, и если вас интересует продвижение сайтов в этой поисковой машине — полезно будет отнестись к теме AMP с должным вниманием. Но давайте сначала посмотрим как выглядят эти самые AMP-истории (UPD: с 1 мая 2020 AMP Stories переименованы в Web Stories, поэтому теперь по-русски их лучше называть Веб-истории), затем решим нужны ли они нам, и, если окажется, что нужны — рассмотрим как это сделать.
Читать дальше →
Всего голосов 7: ↑6 и ↓1+6
Комментарии9

Рынок аудиторных данных сегмента Интернет-рекламы и маркетинга. Часть. 2. Статистика

Время на прочтение8 мин
Количество просмотров2.5K
Мы продолжаем публикацию результатов исследования рынка аудиторных данных в сегменте интернет-рекламы и маркетинга за 2019 год, подготовленного нашей компанией CleverDATA и Ассоциацией развития финансовых технологий

Ранее мы рассказали, как изменилось законодательство в сфере аудиторных данных в России и за рубежом, а в этой статье  — представим статистику рынка. Отчет базируется на профессиональном опыте наших экспертов и статистике работы площадки 1DMC, разработчиком и оператором которой мы являемся. Он не претендует на всеобъемлющий обзор и создан для распространения доступной нам информации, которая может быть интересна участникам рынка.

Источник
Читать дальше →
Всего голосов 11: ↑10 и ↓1+12
Комментарии0

Умирает ли RuTracker? Анализируем раздачи

Время на прочтение14 мин
Количество просмотров236K

Любая деятельность генерирует данные. Чем бы вы ни занимались, у вас наверняка на руках кладезь необработаной полезной информации, ну или хотя бы доступ к его источнику.


Сегодня побеждает тот, кто принимает решения, основываясь на объективных данных. Навыки аналитика как никогда актуальны, а наличие под рукой необходимых для этого инструментов позволяет всегда быть на шаг впереди. Это и является подспорьем появления данной статьи.


У вас есть свой бизнес? Или может… хотя, не важно. Сам процесс добычи данных бесконечен и увлекателен. И даже просто хорошо покопавшись в интернете можно найти себе поле для деятельности.


Вот, что мы имеем сегодня – Неофициальная XML-база раздач сайта RuTracker.ORG. База обновляется раз в полгода и содержит в себе информацию о всех раздачах за историю существования данного торрент-трекера.


Что она может рассказать владельцам рутрекера? А непосредственным пособникам пиратства в интернете? Или обычному юзеру, увлекающемуся аниме, например?

Читать дальше →
Всего голосов 145: ↑141 и ↓4+183
Комментарии296

Сверточная сеть на python. Часть 2. Вывод формул для обучения модели

Время на прочтение5 мин
Количество просмотров30K

В прошлой статье мы рассмотрели концептуально все слои и функции, из которых будет состоять будущая модель. Сегодня мы выведем формулы, которые будут отвечать за обучение этой модели. Слои будем разбирать в обратном порядке — начиная с функции потерь и заканчивая сверточным слоем. Если возникнут трудности с пониманием формул, рекомендую ознакомиться с подробным объяснением (на картинках) метода обратного распространения ошибки, и также вспомнить о правиле дифференцирования сложной функции.
Читать дальше →
Всего голосов 67: ↑66 и ↓1+65
Комментарии0

Сверточная сеть на python. Часть 3. Применение модели

Время на прочтение7 мин
Количество просмотров33K

Это заключительная часть статей о сверточных сетях. Перед прочтением рекомендую ознакомиться с первой и второй частями, в которых рассматриваются слои сети и принципы их работы, а также формулы, которые отвечают за обучение всей модели. Сегодня мы рассмотрим особенности и трудности, с которыми можно столкнуться при тестировании вручную написанной на python сверточной сети, применим написанную сеть к датасету MNIST и сравним полученные результаты с библиотекой pytorch.
Читать дальше →
Всего голосов 62: ↑61 и ↓1+60
Комментарии8

Сверточная сеть на python. Часть 1. Определение основных параметров модели

Время на прочтение8 мин
Количество просмотров73K

Несмотря на то, что можно найти не одну статью, объясняющую принцип метода обратного распространения ошибки в сверточных сетях (раз, два, три и даже дающих “интуитивное” понимание — четыре), мне, тем не менее, никак не удавалось полностью понять эту тему. Кажется, что авторы недостаточно внимания уделяют обычным примерам либо же опускают какие-то хорошо понятные им, но не очевидные другим особенности, и весь материал по этой причине становится неподъемным. Мне хотелось разложить все по полочкам для самого себя и в итоге конспекты вылились в статью. Я постарался исключить все недостатки существующих объяснений и надеюсь, что эта статья ни у кого не вызовет вопросов или недопониманий. И, может, следующий новичок, который, также как и я, захочет во всем разобраться, потратит уже меньше времени.
Читать дальше →
Всего голосов 16: ↑15 и ↓1+14
Комментарии10

Материалы митапа GOnline: дизайн библиотек, кодогенерация, машинное обучение

Время на прочтение3 мин
Количество просмотров5.5K

Делимся материалами с нашего совместного митапа с сообществами GolangKazan и Go Yola для Go-разработчиков. Под катом — видеозаписи выступлений с таймкодами для удобной навигации и ссылки на презентации спикеров.


Читать дальше →
Всего голосов 14: ↑13 и ↓1+15
Комментарии0

Задачи компьютерного зрения — поиск объектов нужного цвета

Время на прочтение3 мин
Количество просмотров6.2K

Введение


Сегодня я расскажу о том как распознать контур нужного цвета с помощью python/ opencv такая задача часто встречается в робототехнике, и всяких автоматизациях.

С помощью предложенного решения можно например различать контур линии за которую не должен выезжать робот, или обьект для коптера. Такая задача может возникнуть если нужно например увидеть что в корзину положили апельсин.

image
Читать дальше →
Всего голосов 1: ↑1 и ↓0+1
Комментарии1

ПО для машинного обучения на Python

Время на прочтение7 мин
Количество просмотров37K


Сегодня существует большое количество программных инструментов для создания моделей Machine Learning. Первые такие инструменты формировались в среде ученых и статистиков, где популярны языки R и Python, исторически сложились экосистемы для обработки, анализа и визуализации данных именно на этих языках, хотя определенные библиотеки машинного обучения есть и для Java, Lua, С++. При этом интерпретируемые языки программирования существенно медленнее компилируемых, поэтому на интерпретируемом языке описывают подготовку данных и структуру моделей, а основные вычисления проводят на компилируемом языке.

В данном посте мы расскажем преимущественно о библиотеках, имеющих реализацию на Python, поскольку этот язык обладает большим количеством пакетов для интеграции в разного рода сервисы и системы, а также для написания различных информационных систем. Материал содержит общее описание известных библиотек и будет полезен прежде всего тем, кто начинает изучать область ML и хочет примерно понимать, где искать реализации тех или иных методов.
Читать дальше →
Всего голосов 53: ↑39 и ↓14+25
Комментарии19

Object Detection. Распознавай и властвуй. Часть 2

Время на прочтение9 мин
Количество просмотров22K

В прошлом посте я начал разбираться в двухступенчатых Object Detection моделях и рассказал о самой базовой и, соответственно, первою из них – R-CNN. Сегодня мы рассмотрим другие модели этого семейства: Fast R-CNN и Faster R-CNN. Поехали!
Читать дальше →
Всего голосов 12: ↑12 и ↓0+12
Комментарии0

Нейросети для детей: объясняем максимально просто

Время на прочтение7 мин
Количество просмотров17K
Всем привет. Ни для кого не секрет, что практически все статьи в нашем блоге публикуются к запуску того или иного курса. Следующую статью можно было бы приурочить к запуску курса «Нейронные сети на Python», но с учетом простоты материала, я не хочу связывать его с курсом, а просто выкладываю в качестве бонусного материала, как небольшой туториал для самых маленьких. Предвещая вопросы, хочу сразу сказать о том, что эта статья не имеет отношения к курсу и написана не преподавателем. Если же у вас есть желание подробнее узнать о курсе, то сделать это можно на соответствующей странице.




Всем привет! Сегодня я хочу рассказать о том, как устроены нейросети, но так просто, что понять могут даже начинающие, которые освоили только самые основы Python.
Читать дальше →
Всего голосов 10: ↑5 и ↓5+2
Комментарии1

Разработка hexapod с нуля (часть 8) — улучшенная математика передвижения

Время на прочтение6 мин
Количество просмотров10K

Всем привет! В результате перехода на удаленную работу у меня появилось больше свободного времени на разработку гексапода (+2 часа в день за счет экономии на дороге). Я наконец-то смог сделать универсальный алгоритм для построения траектории движения в реальном времени. Новая математика позволила реализовать базовые движения путем изменения всего двух параметров. Это очередной шаг к внедрению «автопилота». В этой статье я постараюсь подробно рассказать о новой математике и как это вообще работает. Будет много картинок и gif.

Этапы разработки:

Часть 1 — проектирование
Часть 2 — сборка
Часть 3 — кинематика
Часть 4 — математика траекторий и последовательности
Часть 5 — электроника
Часть 6 — переход на 3D печать
Часть 7 — новый корпус, прикладное ПО и протоколы общения
Часть 8 — улучшенная математика передвижения
Часть 9 — завершение версии 1.00
Всего голосов 24: ↑24 и ↓0+24
Комментарии33

Как наш беспилотный трамвай видит реальный город

Время на прочтение8 мин
Количество просмотров28K
Привет, Хабр!

В общем, есть экспериментальный трамвай, который в рамках испытаний иногда ходил по одному из маршрутов. Автопилот тестируется на закрытой территории, а в городских — активный помощник водителя вагоновожатого. Водитель трамвая едет с руками на управлении, но тестируется именно автономный автопилот. Трамвай визуально не отличается от обычного, потому что мы вместе с производителем запихали приборные блоки далеко под панели и вывели интерфейсы на стандартные экраны. Единственное — у него можно заметить несколько камер под лобовым стеклом, спрятанный под обшивку радар и GPS-датчик на крыше. Да, ещё иногда для целей отладки мы привешиваем лидар.

image

За время испытаний мы узнали, что правила дорожного движения и реальная обстановка на дорогах даже для трамвая — это очень разные вещи.

Вообще трамвай — это идеальная «песочница» для полного автопилота автомобиля. Мы уже сейчас его реализовали. Наши читы:

  • Мы знаем маршрут и имеем гарантию, что наше ТС никуда с него не денется.
  • Можно проехать заранее и разметить точки со светофорами и прочим, чтобы системе было легче их распознавать.
  • Трамвай не может перестроиться из полосы в полосу. Большая часть нагрузки автопилота авто завязана на «куда сейчас отрулить» и тысячи сценариев, а у нас отрулить некуда.
  • Тормозит он почти мгновенно и немного резко, то есть прогнозы движения других автосредств на дороге менее сложные.

С чем реально есть проблемы — это с людьми на остановках, которые стараются пролезть первыми, рискуя жизнью.
Всего голосов 112: ↑109 и ↓3+137
Комментарии238

Видеозвонки с виртуальным фоном и опенсорсные инструменты

Время на прочтение11 мин
Количество просмотров35K
Сейчас, когда многие из нас находятся на карантине из-за COVID-19, видеозвонки стали куда более частым явлением, чем раньше. В частности, сервис ZOOM неожиданно стал очень популярным. Вероятно, самой интересной возможностью Zoom является поддержка виртуального фона (Virtual Background). Она позволяет пользователям, в интерактивном режиме, заменять фон, находящийся позади них, на любое изображение или видео.



Я уже давно применяю Zoom на работе, на опенсорсных встречах, посвящённых Kubernetes, делая это обычно с корпоративного ноутбука. Теперь я, в режиме работы из дома, склонен к использованию более мощного и удобного персонального настольного компьютера для решения некоторых из моих опенсорсных задач.

К несчастью, Zoom поддерживает лишь способ удаления фона, известный как «хромакей» или «зелёный экран». Для использования этого метода нужно, чтобы фон был бы представлен неким сплошным цветом, в идеале — зелёным, и был бы равномерно освещён.

Так как зелёного экрана у меня нет, я решил просто реализовать собственную систему удаления фона. А это, конечно, куда лучше, чем наведение порядка в квартире, или постоянное использование рабочего ноутбука.

Как оказалось, применив готовые опенсорсные компоненты и написав буквально несколько строк собственного кода, можно получить весьма достойные результаты.
Всего голосов 47: ↑45 и ↓2+66
Комментарии37

Распознавание танков в видеопотоке методами машинного обучения (+2 видео на платформах Эльбрус и Байкал)

Время на прочтение4 мин
Количество просмотров8K

В процессе своей деятельности мы ежедневно сталкиваемся с проблемой определения приоритетов развития. Учитывая высокую динамику развития IT индустрии, постоянно возрастающую востребованность со стороны бизнеса и государства к новым технологиям, каждый раз, определяя вектор развития и инвестируя собственные силы и средства в научный потенциал нашей компании, мы следим за тем, чтобы все наши исследования и проекты носили фундаментальный и междисциплинарный характер.

Всего голосов 26: ↑17 и ↓9+8
Комментарии14

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность