Как стать автором
Обновить
20.73

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Google Books Ngram Viewer как инструмент для ретроспективных исследований

Время на прочтение8 мин
Количество просмотров11K

Для принятия правильных решений в различных жизненных ситуациях очень полезно иметь адекватную модель мира. В частности, бывает полезна возможность сопоставить популярность различных предметов и оценить динамику этой популярности. Например, вы издатель, и вам предлагают перевести и издать книгу по языку программирования Fortran. Его ведь всё ещё используют, издаётся англоязычная литература, а у нас давно ничего не выходило. Или, скажем, по языку Julia. Книжек по актуальной версии языка на русском ещё нет. Можно взять какую-нибудь самую популярную английскую, перевести, издать и сорвать куш. В подобных ситуациях полезно иметь возможность подглядеть, какова популярность этих языков относительно других и какова динамика этой популярности. Пример с языками программирования приведён просто для наглядности, подобные задачи возникают и при анализе популярности различных программ, технологий, научных концепций.

Читать далее
Всего голосов 14: ↑14 и ↓0+14
Комментарии7

На фондовом рынке США сформировался пузырь небывалых размеров

Время на прочтение13 мин
Количество просмотров163K

Оценки напрочь оторвались от фундаментального анализа, мультипликаторы находятся на исторических максимумах, скорость эмиссии ценных бумаг зашкаливает — и всё это сопровождается безумно спекулятивным поведением инвесторов. Большой кризис неизбежен.

Читать далее
Всего голосов 249: ↑229 и ↓20+209
Комментарии775

Инвестирование в отраслевые фонды в Экселе

Время на прочтение8 мин
Количество просмотров5.8K

Написать эту статейку меня побудила замечательная серия многоуважаемого @abak "Теория инвестиций для начинающих“. В качестве конфетки внизу даю ссылку на табличку, получающую текущие цены на европейские фонды, их прибыльность и другие параметры из интернета. Кроме того мне хотелось бы немного расширить изначальную статью с точки зрения начинающего инвестора, инвестирующего из дома и лишенного вкусностей внутренней кухни Дойче банка.

Предостережение: Автор ни разу не спец в скрэпинге интернет-сайтов и инвестициях. Всё что здесь описывается делалось для души и на коленке. Автор никому ничего не обещает, а лишь делится собственным опытом и мыслями по поводу инвестиций, в частности в отраслевые фонды. Ещё одна цель – дать пищу для размышлений, а не предоставить рецепт от всех болезней. Всё, что здесь описано, добывалось автором путём проб и ошибок, а, как известно: "Срубленные головы стремительно умнеют“. Потому, главный посыл статейки: Не бояться экспериментировать.

Читать далее
Всего голосов 11: ↑8 и ↓3+5
Комментарии11

Возглавляя тренды, часть вторая

Время на прочтение7 мин
Количество просмотров1.6K

Всем привет! На связи Павел Красовский, заместитель директора Центра стратегических инноваций в «Ростелекоме». О важности собственной методологии для оценки перспективных технологий я писал в предыдущем посте, вкратце – нам нужно понимать, по каким именно критериям оценивается важность и актуальность того или иного тренда. Сторонние исследования базируются на непрозрачных методах, поэтому «Хочешь сделать хорошо – сделай сам».

Читать далее
Всего голосов 2: ↑1 и ↓10
Комментарии4

Истории

Визуализация пересечений и перекрытий с помощью Python

Время на прочтение6 мин
Количество просмотров11K

Изучение вариантов решения одной из самых сложных задач визуализации данных


Преобладающая задача в любом анализе данных — сравнение нескольких наборов чего-либо. Это могут быть списки IP-адресов для каждой целевой страницы вашего сайта, клиенты, которые купили определённые товары в вашем магазине, несколько ответов из опроса и многое другое.

В этой статье воспользуемся Python для изучения способов визуализации перекрытий и пересечений множеств, наших возможностей, а также их преимуществ и недостатков.


Диаграмма Венна
Приятного чтения!
Всего голосов 28: ↑28 и ↓0+28
Комментарии0

6 принципов эффективной визуализации данных

Время на прочтение6 мин
Количество просмотров15K

Ключевые принципы создания полезных и информативных графиков


Визуализация данных является важным этапом в процессе постижения науки о данных. Здесь вы представляете свои результаты и сообщаете о них в графическом формате, который является интуитивно понятным и лёгким для понимания.

Визуализация данных требует большой работы, большой труд по очистке и анализу уходит на перегонку и превращение грязных данных в красивые графики и диаграммы. Но даже с подготовленными данными всё равно приходится придерживаться определённых принципов или методологий, чтобы создать полезную, информативную графику.

Тем не менее при написании этой статьи я черпал вдохновение в книге Эдварда Тафта «Beautiful Evidence», которая содержит шесть принципов, посвящённых тому, как сделать графики данных полезными. Именно эти принципы отделяют полезные графики от бесполезных.

Эта статья также в значительной степени вдохновлена книгой Роджера Д. Пенга «Exploratory Data Analysis in R» Она доступна бесплатно на Bookdown, и вы можете прочитать её, чтобы узнать больше о EDA.

Давайте ближе познакомимся с этими принципами.


Пример визуализации данных на Our World in Data
Приятного чтения!
Всего голосов 32: ↑26 и ↓6+20
Комментарии12

Вытаскиваем данные из Instagram

Время на прочтение17 мин
Количество просмотров116K

Давайте разберемся, как с помощью достаточно простого кода на python можно вытащить из инстаграмма разные данные, находящиеся в открытом доступе.

Читать далее
Всего голосов 28: ↑25 и ↓3+22
Комментарии19

Исследование качества информации и достоверности источников в Википедии

Время на прочтение12 мин
Количество просмотров12K

Возможно для кого-то это будет удивительно и даже возмутительно, но в Википедии информация не должна быть правдивой, важно, чтобы она была подтверждена достоверными источниками. Именно проблеме дезинформации и достоверности источников в Википедии был посвящён последний выпуск уходящего 2020 года Wikimedia Research Showcase. Это ежемесячное публичное мероприятие, на котором представляются последние работы исследовательской группы Фонда Викимедиа и приглашенных докладчиков из академического сообщества.  Мне была предоставлена возможность рассказать о последних научных работах, проведённых совместно с сотрудниками нашей кафедры. В этой статье на Хабре я постараюсь коротко описать последние исследования нашей кафедры в области оценки качества информации и достоверности источников в многоязычной Википедии. Дополнительно представлены общедоступные инструменты для оценки качества и достоверности, основанные на научных исследованиях.

Читать далее
Всего голосов 12: ↑9 и ↓3+6
Комментарии21

Как по спутниковым снимкам понять состояние растений на поле

Время на прочтение3 мин
Количество просмотров8.2K

Чтобы фермер мог следить за своими полями при помощи смартфона, компания OneSoil обрабатывает терабайты спутниковых изображений и превращает их в удобные карты NDVI. Если по-простому, это такие разноцветные картинки, по которым можно судить о здоровье посевов. Это следующий шаг после того, как фермер нашёл свои поля с предсказанными нами границами на карте мира (про это было в одном из прошлых постов). 

Читать далее
Всего голосов 14: ↑12 и ↓2+10
Комментарии17

Разведка на основе открытых источников

Время на прочтение5 мин
Количество просмотров24K

Введение

С каждым годом количество пользователей интернета растет. К началу октября 2020 года 4.9 млрд людей, а это 63.2% жителей земли, пользуется интернетом. А размер данных в интернете достигал 2.7 Зеттабайт (1 ЗБ ~ 1012ГБ). И каждый год —количество пользователей и устройств, подключенных к сети, увеличивается на 6% и 10% соответственно. Большая часть этой информации общедоступна. Источники, ссылающиеся на эти данные или на данные из газет, журналов, радио и телепередач, публичных отчетах правительства, называются открытыми. Поиск информации по таким источникам, выбор и сбор, а также дальнейший анализ – это разведывательная дисциплина, именуемая разведкой на основе открытых источников (OSINT).

Читать далее
Всего голосов 25: ↑20 и ↓5+15
Комментарии16

«РосКомСвобода» на ОГФ'2020: рассказываем про открытые данные о пандемии и праве на приватность

Время на прочтение12 мин
Количество просмотров2.2K
image

«РосКомСвобода» совместно с «Инфокультурой» весь день вела на Общероссийском гражданском форуме (ОГФ'2020) площадку «Право на приватность и открытость».

Собрали для вас самое важное из всех секций: про приватность, открытые данные в здравоохранении, открытый код, распознавание лиц и слежку.

Ключевые цитаты из выступлений:


Всего голосов 14: ↑10 и ↓4+6
Комментарии4

Встречайте Creative Commons Legal Database

Время на прочтение3 мин
Количество просмотров1.7K

На днях состоялся запуск Creative Commons Legal Database — одного из долгожданных проектов от Creative Commons, нацеленного на сбор и систематизацию информации, связанной с лицензиями Creative Commons (судебные дела и юридические статьи). Проект выглядит многообещающим (конечно, там есть судебная классика по опенсорсу — Jacobsen v Katzer, правда, в очень сжатом виде), но пока не впечатляет своим объемом — надеюсь, в скором времени там появится информация и по России, например. А пока предлагаю узнать про эту базу данных и сам проект в целом из статьи ниже.



Читать дальше →
Всего голосов 8: ↑8 и ↓0+8
Комментарии0

Визуализация данных по акциям дивидендных аристократов США в формате веб-приложения

Время на прочтение8 мин
Количество просмотров4.8K

В этой статье я поделюсь некоторым опытом на простом примере. Мне повезло проработать в Банке в течение пяти лет в качестве руководителя направления, аналитика, математика, где-то программиста и т.п. Прямым текстом рассказывать о своей работе в Банке не могу, так как какие-то сведения могут быть конфиденциальными, а что-то рассказывать может быть просто неэтично или неправильно. Поэтому изложу свои взгляды и опыт на почти игрушечном примере.


Пример смотрите по ссылке https://www.emarkoff.com/dividend_aristocrats_sp500/



Читать дальше →
Всего голосов 5: ↑4 и ↓1+3
Комментарии0

Ближайшие события

Weekend Offer в AliExpress
Дата20 – 21 апреля
Время10:00 – 20:00
Место
Онлайн
Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн

База данных населённых пунктов России

Время на прочтение2 мин
Количество просмотров15K
Да, ещё одна. И совсем не всех. Эта база данных вовсе не собирается хвастаться десятками тысяч строк. Как раз наоборот: цель — предоставить необходимый минимум. Естественно, необходимость использовать справочник населённых пунктов есть во многих проектах. И получить полную БД можно легко и просто из ФИАС. Так зачем же нужен этот «велосипед»?
Читать дальше →
Всего голосов 9: ↑8 и ↓1+7
Комментарии7

Разработка онлайн-сервиса для инвесторов на pythonanywhere.com с использованием данных Yahoo Finance

Время на прочтение7 мин
Количество просмотров3.1K
Цель настоящей статьи — поделиться опытом разработки аналитического онлайн-сервиса для инвесторов на python. Основное внимание уделено в большей степени концептуальным моментам, а не детальному описанию какой-то отдельной технологии. Надеюсь, что любые детали читатель легко найдет, немного погуглив. Ради наглядности даю ссылку на сервис в самом начале изложения www.emarkoff.com .

image
Читать дальше →
Всего голосов 5: ↑4 и ↓1+3
Комментарии4

Ноль смертей: как выжить в ДТП

Время на прочтение8 мин
Количество просмотров53K

В прошлом году проект “Карта ДТП” опубликовал исходные коды сайта по анализу дорожно-транспортных происшествий. Наша работа получила большой отклик, и мы продолжили развитие. Теперь работает мобильная версия, пропали проблемы с масштабированием, можно поделиться любым сегментом в виде ссылки. Картой пользуются городские активисты, депутаты, архитекторы и транспортные чиновники. Но остается нерешенным вопрос, который мы задавали с самого начала: как добиться минимальной смертности на дорогах?

В 2019 году в ДТП на дорогах и улицах России погибло 16 981 человек

Читать далее
Всего голосов 127: ↑125 и ↓2+123
Комментарии579

Водоросли, танкер и шторм против Камчатки

Время на прочтение6 мин
Количество просмотров52K


Проясняется ситуация с отравлением Халактырского пляжа и бухты Авачинской на Камчатке. После переполоха поднятого в соцсетях туда приехали все службы и ученые какие только смогли, и провели бесконечное количество анализов. Оперативная информация выкладывается в официальном телеграм-канале. До конца все причины и факторы не определены, но пока однозначно, что никаких пестицидов или ракетного топлива ни откуда не утекло. А причины гибели морских организмов имеют скорее всего естественный характер. Одну утечку нефтепродуктов на проходящем судне тоже смогли рассмотреть, но вряд ли она причастна к морскому геноциду. И космос оказал в этом расследовании неоценимую помощь.
Читать дальше →
Всего голосов 200: ↑174 и ↓26+148
Комментарии354

«Велосипедный набор» или о создании самодельных датасетов для анализа и машинного обучения

Время на прочтение6 мин
Количество просмотров4.9K

Несколько лет назад я ненадолго увлекся машинным обучением и анализом данных, даже написал небольшой цикл о моем погружении в этот удивительный мир, с точки зрения полного новичка.


Как часто бывает при изучении чего-то нового, мне очень хотелось сделать свой «велосипед». К сожалению, в математике и программировании я разбираюсь плохо, поэтому кандидатом на роль «велосипеда» стал собственный датасет.


С того момента прошло уже больше двух лет и вот у меня дошли руки поделится с вами своим небольшим опытом.


В статье мы рассмотрим несколько потенциальных источников для самостоятельного сбора данных (в том числе не очень популярных), а также попробуем найти в этом процессе хоть какую-то пользу.


Читать дальше →
Всего голосов 6: ↑6 и ↓0+6
Комментарии3

Камчатка, экологическая катастрофа. Cмотрим из космоса

Время на прочтение6 мин
Количество просмотров14K


От спутников через открытые данные к мертвым котикам. Грустно, но, к сожалению, такая вот тема и КДПВ.

Читать дальше →
Всего голосов 28: ↑24 и ↓4+20
Комментарии47

Нейросети: где взять данные для тонкого обучения алгоритмов?

Время на прочтение3 мин
Количество просмотров3.3K

Привет, Хабр! Меня зовут Алиса Невейкина, и я работаю в стартапе из Беларуси SmartCoders. Мы занимаемся разработкой нейросетей и решений на базе ИИ для бизнеса. Этот пост стал результатом глубоких раздумий об особенностях развития проектов с использованием машинного обучения, а также о моделях монетизации данных технологий. Если вы уже работали с ИИ или планируете это сделать, приглашаю присоединиться к обсуждению.

Читать дальше →
Всего голосов 13: ↑9 и ↓4+5
Комментарии14
Изменить настройки темы

Вклад авторов