Обновить
72.44

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Классификация покрова земли при помощи eo-learn. Часть 3

Время на прочтение9 мин
Количество просмотров1.8K

Когда нужны результаты лучше, чем "удовлетворительно"


Часть 1
Часть 2



Переход зоны из зимнего сезона в летний, составлено из изображений Sentinel-2. Можно заметить некоторые отличия в типах покрова по снегу, что описывалось в прошлой статье.

Читать дальше →

Классификация покрова земли при помощи eo-learn. Часть 2

Время на прочтение9 мин
Количество просмотров2.5K

Часть 1
Часть 3


Переходим от данных к результатам, не покидая рамки своего компьютера



Стек изображений небольшой зоны в Словении, и карта с классифицированным покровом земли, полученная, используя методы, описанные в статье.

Читать дальше →

Классификация покрова земли при помощи eo-learn. Часть 1

Время на прочтение6 мин
Количество просмотров3.5K

Привет, Хабр! Представляю вашему вниманию перевод статьи "Land Cover Classification with eo-learn: Part 1" автора Matic Lubej.


Часть 2
Часть 3


Предисловие


Примерно полгода назад был сделан первый коммит в репозиторий eo-learn на GitHub. Сегодня, eo-learn превратился в замечательную библиотеку с открытым исходным кодом, готовую для использования кем угодно, кто заинтересован в данных EO (Earth Observation — пр. пер.). Все в команде Sinergise ожидали момента перехода от этапа построения необходимых инструментов, к этапу их использования для машинного обучения. Пришло время представить вам серию статей, касающихся классификации покрова земли используя eo-learn


Читать дальше →

Огромный открытый датасет русской речи

Время на прочтение3 мин
Количество просмотров38K
image

Специалистам по распознаванию речи давно не хватало большого открытого корпуса устной русской речи, поэтому только крупные компании могли позволить себе заниматься этой задачей, но они не спешили делиться своими наработками.

Мы торопимся исправить это годами длящееся недоразумение.

Итак, мы предлагаем вашему вниманию набор данных из 4000 часов аннотированной устной речи, собранный из различных интернет-источников.

Подробности под катом.
Читать дальше →

Как я узнал, что моя виза не готова, сообщением в Slack

Время на прочтение6 мин
Количество просмотров7.4K

Пост актуальный для майских праздников. 6 недель назад я подал документы, чтобы получить визу в Ирландию. Вылет запланирован на 30 апреля. Существует сайт посольства, на котором публикуются списки решений по визам. Они это делают по понедельникам и четвергам. И вот я сижу в воскресенье, 28 апреля, по моей визе решения еще нет. И дальнейшие мои действия в понедельник зависят от того, будет ли мое заявление в новом отчете или нет. Если нет, то надо будет ехать в посольство и разбираться. Если есть, то дергать визовый центр. Сидеть и обновлять страничку целый день в понедельник казалось унылым времяпрепровождением, поэтому я написал скрипт на Python.



Disclaimer. Я не программист, но умею программировать. Это значит, что я не могу написать изящный и эффективный код, но я могу заставить эту шарманку делать то, что мне от нее нужно.

Читать дальше →

60 миллионов полей и 27 культур. Как мы делали карту всех полей Европы и США

Время на прочтение5 мин
Количество просмотров9.9K


Несколько месяцев назад мы запустили первую в мире бесплатную интерактивную карту, с помощью которой можно посмотреть информацию о любом поле в США и Европе. Про карту написали десятки изданий, а на Product Hunt она собрала беспрецедентные для продукта из агросектора полторы тысячи лайков (и в итоге стала AI & Machine Learning Product of the Year 2018). Мы разрабатывали карту два месяца — вот как это было.
Читать дальше →

Собрали всем «Хабром» справочник «Кем выдан…» для паспортов. Качайте на здоровье

Время на прочтение5 мин
Количество просмотров63K


С пару месяцев назад мы поэкспериментировали: получится ли на «Хабре» собрать годный справочник подразделений, выдавших российские паспорта. Дело полезное: эти данные нужны много кому, канонического источника нет, а существующие — очень так себе.

И знаете, все получилось. Пригодный к использованию справочник готов, можно качать и пользоваться. А еще мы сделали подсказки, которые ускоряют ввод подразделений в электронные формы.
Читать дальше →

Джулиан Ассанж арестован полицией Великобритании

Время на прочтение2 мин
Количество просмотров50K
Джулиан Ассанж, со-основатель Wikileaks, был лишён убежища в посольстве Эквадора и выдан властям Великобритании. 11 апреля 2019 года в Лондоне по запросу США Ассанжа арестовала столичная полиция Лондона.


Фото телеканал НТВ

Власти Эквадора лишили основателя WikiLeaks Джулиана Ассанжа убежища в посольстве в Лондоне. Ассанж укрывался в эквадорском посольстве с 2012 года.

Эквадор принял суверенное решение отказать в дипломатическом убежище Джулиану Ассанжу за неоднократные нарушения международных конвенций
— прокомментировал событие президент Эквадора Ленин Морено.


Концепция краткой энциклопедии

Время на прочтение2 мин
Количество просмотров1.6K
Краткая энциклопедия основанная на принципах сжатости, понятности и подробности.

Информация разбита по разным источникам, дублируется и избыточна


Человечество страдает от переизбытка информации. Однако проблема заключается не только в количестве информации, но и в ее качестве. Интернет переполнен разнообразными источниками, каждый из которых дублирует часть информации из других источников. Читая новую статью приходится отсеивать то что уже известно. Сама информация зачастую представлена в крайне разбавленном виде, полна пространных размышлений автора и прочей избыточности. Почему-то считается, что чем длиннее статья или толще книга, тем они солиднее. Концентрация информации при этом не всегда учитывается.
Читать дальше →

Генератор больших графов транзакций с паттернами преступной деятельности

Время на прочтение5 мин
Количество просмотров5.5K

Доброго времени суток.


Network

Пару лет назад перед нашей командой (compliance в швейцарском банке) встала очень интересная задача — нужно было сгенерировать большой граф транзакций между клиентами, компаниями и банкоматами, добавить в этот граф паттерны, похожие на паттерны отмывания денег и другой преступной деятельности, а также добавить минимальную информацию об узлах этого графа — имена, адреса, время, и т.д. Разумеется, все данные должны былии быть сгенерированны с нуля, без использования существующих данных клиентов.

Для решения данной задачи был написан генератор, которым мне бы хотелось с вами поделиться. Под катом вы найдете историю, объясняющую зачем нам это было нужно, и описание работы генератора. Для нетерпеливых — вот тут лежит код. Буду рад, если кому-нибудь будет полезен наш опыт.

Читать дальше →

Получаем ссылки на профили Vk из выдачи SearchFace с помощью Python (но это не точно)

Время на прочтение9 мин
Количество просмотров54K
Картинка для привлечения внимания:


Кадр из сериала Person Of Interest

Сегодня мы поговорим о лёгком распознавании лиц с помощью доступных инструментов.
Используются: Python 3.6, searchface.ru, внешний сервис для преобразования ссылок на фото в id (бот в телеграме, на текущий момент)


Итак, у нас есть сайт, который ищет по лицам.
Заглянем внутрь.
Читать дальше →

Говорит и показывает: отличается ли риторика популярных украинских политиков?

Время на прочтение4 мин
Количество просмотров12K
Можно ли по цитате определить, кто из политиков ее автор? Украинская НКО Vox Ukraine делает проект VoxCheck, в рамках которого проверяет высказывания наиболее рейтинговых политиков. Недавно они выложили всю базу проверенных цитат. Я как раз слушаю курсы по NLP и решила проверить, насколько точно по тексту цитаты можно определить ее автора.

Disclaimer. Эта статья написана из интереса к теме и желания опробовать изученный материал на практике, без претензий на максимально точный и детальный анализ.
Читать дальше →

Сколько лет вашему сеньору?

Время на прочтение3 мин
Количество просмотров49K


Не знаю как вам, а мне кажется диким когда люди с парой лет опыта величают себя «сеньор девелопер». Конечно, отдельные гении могут писать идеальные программы ещё в школе, но на то они и гении — единицы из миллионов.

Однако в последнее время этих самых гениев что-то стало многовато. Не просто много, а достаточно чтобы оказывать влияние на рынок. Легко можно найти вакансии сеньоров/архитекторов/тимлидов с опытом от года.

Так что же происходит? В самом деле у нас урожай гениев или просто модная тема новостей? Поменялось ли что-то за последние годы? Я решил узнать. Под катом методология исследования, немного графиков и внезапные результаты.
Читать дальше →

Ближайшие события

Эксперимент: собираем справочник подразделений, выдавших паспорт

Время на прочтение2 мин
Количество просмотров25K


Самое утомительное поле при вводе паспорта — «Кем выдан». Вбивать в форму какое-нибудь «Отделом внутренних дел Медведевского района республики Марий Эл» муторно. Люди злятся, сокращают название как придется, ошибаются.

Было бы здо́рово подсказывать варианты по коду подразделения.
Читать дальше →

Карта ДТП

Время на прочтение5 мин
Количество просмотров62K
image

Расскажу вам о проекте “Карта ДТП” – интерактивной карте аварий в России. Карта упрощает анализ ДТП и помогает найти реальные причины происшествий. Как пришла идея, где брали данные и зачем открыли исходный код.

За 2018 год в ДТП на дорогах России погибли 19088 человек


Читать дальше →

Мой адрес не дом и не улица, мой адрес – Советский Союз?

Время на прочтение13 мин
Количество просмотров4.2K
microBIGDATA или ФИАС в кармане


Питер Брейгель Младший, Уплата налога, 1640 год

Прошлый заход на бреющем по объектам зашел. Продолжим разведку боем. Сегодня поговорим о тяжелом. Пусть ещё не о BIG DATA, но работать уже неудобно – достаточно большие объёмы данных. Не каждому влезет в оперативную память целиком, а некоторым не влезет даже на диск (не места мало, а хламу много). Имя нашему подопечному БД ФИАС — база данных федеральной адресной информационной системы. Архив в 5,5 ГБ. И это сжатый в архив XML. После распаковки будут полные 53 ГБ (для распаковки запасайте 110 ГБ). И как начнёшь его парсить да конвертить, то и 110 ГБ будет мало. О потребном размере ОЗУ тоже будет.
Читать дальше →

Законодательный эксперимент с внедрением цифровых инноваций

Время на прочтение3 мин
Количество просмотров2.6K
Экономический рывок в нашей стране станет возможен, только если государство снизит нагрузку на бизнес и пересмотрит свои требования к нему, считает премьер-министр Дмитрий Медведев. В ходе пленарной дискуссии на Гайдаровском форуме премьер-министра отметил, что в России действует более 9 тысяч НПА, которые содержат обязательные требования к бизнесу. При этом многие из них создавались еще в СССР и устарели морально и технологически.

В связи с этим рассматривается механизм «регуляторной гильотины», который заключается в масштабном анализе и пересмотре действующих нормативно-правовых актов (НПА). По сути предполагается, что положения актов, содержащих обязательные требования, автоматически потеряют свою силу, если они не будут специальным образом пересмотрены, подтверждены или изменены. При этом предполагается, что необходимость сохранения существующих ограничений и требований обязательно должна быть доказана соответствующими органами. По словам Медведева, к 1 февраля 2020 года можно пересмотреть все требования к предпринимателям с учетом современных реалий.

В контексте данной идеи Минэкономразвития России разработало законопроект о регуляторных песочницах для инновационной деятельности в сфере цифровых технологий. В документе определяются цели и принципы создания таких песочниц, вводятся ограничения на их применение, и устанавливаются гарантии прав и законных интересов всех участников экспериментальных правовых режимов (ЭПР) и тех, кто с ними будет взаимодействовать. Предполагается, что такой механизм приведет к реальному сокращению времени и других издержек на внедрение инновационных продуктов цифровой экономики.

Полный текст законопроекта.


Читать дальше →

Данные бывают смешными (и вот примеры)

Время на прочтение4 мин
Количество просмотров24K


Мы в HFLabs перелопачиваем колоссальное количество данных: адреса, ФИО, реквизиты компаний, документы. Весь год писали о сложных и полезных штуках, но пора и честь знать. Перед праздниками — подборка смешных данных, что нам принес 2018-й.
Читать дальше →

Новогодний датасет 2018: открытая семантика русского языка

Время на прочтение12 мин
Количество просмотров8.5K
Открытая семантика русского языка, об истории создания которой вы можете прочитать здесь и здесь, получила большое обновление. Мы собрали достаточное количество данных, чтобы применить поверх собранной разметки машинное обучение и построить семантическую модель языка. Что из этого получилось смотрите под катом.


Читать дальше →

Совершеннолетняя журналистика: от России до Кремля

Время на прочтение5 мин
Количество просмотров9.4K

Анализ публикаций Lenta.ru за 18 лет (с сентября 1999 по декабрь 2017 гг.) средствами python, sklearn, scipy, XGBoost, pymorphy2, nltk, gensim, MongoDB, Keras и TensorFlow.



В исследовании использованы данные из поста «Анализируй это — Lenta.ru» пользователя ildarchegg. Автор любезно предоставил 3 гигабайта статей в удобном формате, и я решил, что это прекрасная возможность протестировать некоторые методы текстовой обработки. Заодно, если повезёт, узнать что-то новое о российской журналистике, обществе и вообще.

Читать дальше →