Открытые данные *

Данные будут свободны!

Статьи Посты Новости Авторы Компании

A_Degteryov 8 фев 2021 в 00:03

Google Books Ngram Viewer как инструмент для ретроспективных исследований

8 мин

11K

Поисковые технологии*Открытые данные*Визуализация данных*Научно-популярноеБудущее здесь

Для принятия правильных решений в различных жизненных ситуациях очень полезно иметь адекватную модель мира. В частности, бывает полезна возможность сопоставить популярность различных предметов и оценить динамику этой популярности. Например, вы издатель, и вам предлагают перевести и издать книгу по языку программирования Fortran. Его ведь всё ещё используют, издаётся англоязычная литература, а у нас давно ничего не выходило. Или, скажем, по языку Julia. Книжек по актуальной версии языка на русском ещё нет. Можно взять какую-нибудь самую популярную английскую, перевести, издать и сорвать куш. В подобных ситуациях полезно иметь возможность подглядеть, какова популярность этих языков относительно других и какова динамика этой популярности. Пример с языками программирования приведён просто для наглядности, подобные задачи возникают и при анализе популярности различных программ, технологий, научных концепций.

+14

ilusha_sergeevich 5 фев 2021 в 18:03

На фондовом рынке США сформировался пузырь небывалых размеров

13 мин

163K

Открытые данные*Визуализация данных*Венчурные инвестицииСтатистика в ITФинансы в IT

Оценки напрочь оторвались от фундаментального анализа, мультипликаторы находятся на исторических максимумах, скорость эмиссии ценных бумаг зашкаливает — и всё это сопровождается безумно спекулятивным поведением инвесторов. Большой кризис неизбежен.

+209

775

Krasnoarmeec 3 фев 2021 в 12:14

Инвестирование в отраслевые фонды в Экселе

8 мин

5.8K

Открытые данные*Финансы в IT

Из песочницы

Написать эту статейку меня побудила замечательная серия многоуважаемого @abak "Теория инвестиций для начинающих“. В качестве конфетки внизу даю ссылку на табличку, получающую текущие цены на европейские фонды, их прибыльность и другие параметры из интернета. Кроме того мне хотелось бы немного расширить изначальную статью с точки зрения начинающего инвестора, инвестирующего из дома и лишенного вкусностей внутренней кухни Дойче банка.

Предостережение: Автор ни разу не спец в скрэпинге интернет-сайтов и инвестициях. Всё что здесь описывается делалось для души и на коленке. Автор никому ничего не обещает, а лишь делится собственным опытом и мыслями по поводу инвестиций, в частности в отраслевые фонды. Ещё одна цель – дать пищу для размышлений, а не предоставить рецепт от всех болезней. Всё, что здесь описано, добывалось автором путём проб и ошибок, а, как известно: "Срубленные головы стремительно умнеют“. Потому, главный посыл статейки: Не бояться экспериментировать.

pskras 24 янв 2021 в 13:34

Возглавляя тренды, часть вторая

7 мин

1.6K

Блог компании РостелекомОткрытые данные*Исследования и прогнозы в IT*Будущее здесь

Всем привет! На связи Павел Красовский, заместитель директора Центра стратегических инноваций в «Ростелекоме». О важности собственной методологии для оценки перспективных технологий я писал в предыдущем посте, вкратце – нам нужно понимать, по каким именно критериям оценивается важность и актуальность того или иного тренда. Сторонние исследования базируются на непрозрачных методах, поэтому «Хочешь сделать хорошо – сделай сам».

one-two 6 янв 2021 в 12:12

Визуализация пересечений и перекрытий с помощью Python

6 мин

11K

Блог компании SkillfactoryPython*Big Data*Открытые данные*Визуализация данных*

Перевод

Изучение вариантов решения одной из самых сложных задач визуализации данных

Преобладающая задача в любом анализе данных — сравнение нескольких наборов чего-либо. Это могут быть списки IP-адресов для каждой целевой страницы вашего сайта, клиенты, которые купили определённые товары в вашем магазине, несколько ответов из опроса и многое другое.

В этой статье воспользуемся Python для изучения способов визуализации перекрытий и пересечений множеств, наших возможностей, а также их преимуществ и недостатков.

Диаграмма Венна

Приятного чтения!

+28

one-two 3 янв 2021 в 19:19

6 принципов эффективной визуализации данных

6 мин

15K

Блог компании SkillfactoryBig Data*Открытые данные*Визуализация данных*Инфографика

Перевод

Ключевые принципы создания полезных и информативных графиков

Визуализация данных является важным этапом в процессе постижения науки о данных. Здесь вы представляете свои результаты и сообщаете о них в графическом формате, который является интуитивно понятным и лёгким для понимания.

Визуализация данных требует большой работы, большой труд по очистке и анализу уходит на перегонку и превращение грязных данных в красивые графики и диаграммы. Но даже с подготовленными данными всё равно приходится придерживаться определённых принципов или методологий, чтобы создать полезную, информативную графику.

Тем не менее при написании этой статьи я черпал вдохновение в книге Эдварда Тафта «Beautiful Evidence», которая содержит шесть принципов, посвящённых тому, как сделать графики данных полезными. Именно эти принципы отделяют полезные графики от бесполезных.

Эта статья также в значительной степени вдохновлена книгой Роджера Д. Пенга «Exploratory Data Analysis in R» Она доступна бесплатно на Bookdown, и вы можете прочитать её, чтобы узнать больше о EDA.

Давайте ближе познакомимся с этими принципами.

Пример визуализации данных на Our World in Data

Приятного чтения!

+20

rawoak 30 дек 2020 в 14:58

Вытаскиваем данные из Instagram

17 мин

116K

Python*Big Data*Открытые данные*Веб-аналитика*

Давайте разберемся, как с помощью достаточно простого кода на python можно вытащить из инстаграмма разные данные, находящиеся в открытом доступе.

+22

lewoniewski 29 дек 2020 в 22:40

Исследование качества информации и достоверности источников в Википедии

12 мин

12K

Data Mining*Big Data*Открытые данные*Машинное обучение*Научно-популярное

Возможно для кого-то это будет удивительно и даже возмутительно, но в Википедии информация не должна быть правдивой, важно, чтобы она была подтверждена достоверными источниками. Именно проблеме дезинформации и достоверности источников в Википедии был посвящён последний выпуск уходящего 2020 года Wikimedia Research Showcase. Это ежемесячное публичное мероприятие, на котором представляются последние работы исследовательской группы Фонда Викимедиа и приглашенных докладчиков из академического сообщества. Мне была предоставлена возможность рассказать о последних научных работах, проведённых совместно с сотрудниками нашей кафедры. В этой статье на Хабре я постараюсь коротко описать последние исследования нашей кафедры в области оценки качества информации и достоверности источников в многоязычной Википедии. Дополнительно представлены общедоступные инструменты для оценки качества и достоверности, основанные на научных исследованиях.

bsoo 28 дек 2020 в 19:16

Как по спутниковым снимкам понять состояние растений на поле

3 мин

8.2K

Обработка изображений*Геоинформационные сервисы*Big Data*Открытые данные*Машинное обучение*

Чтобы фермер мог следить за своими полями при помощи смартфона, компания OneSoil обрабатывает терабайты спутниковых изображений и превращает их в удобные карты NDVI. Если по-простому, это такие разноцветные картинки, по которым можно судить о здоровье посевов. Это следующий шаг после того, как фермер нашёл свои поля с предсказанными нами границами на карте мира (про это было в одном из прошлых постов).

+10

secinfo 22 дек 2020 в 23:34

Разведка на основе открытых источников

5 мин

24K

Информационная безопасность*Открытые данные*

Из песочницы

Введение

С каждым годом количество пользователей интернета растет. К началу октября 2020 года 4.9 млрд людей, а это 63.2% жителей земли, пользуется интернетом. А размер данных в интернете достигал 2.7 Зеттабайт (1 ЗБ ~ 10¹²ГБ). И каждый год —количество пользователей и устройств, подключенных к сети, увеличивается на 6% и 10% соответственно. Большая часть этой информации общедоступна. Источники, ссылающиеся на эти данные или на данные из газет, журналов, радио и телепередач, публичных отчетах правительства, называются открытыми. Поиск информации по таким источникам, выбор и сбор, а также дальнейший анализ – это разведывательная дисциплина, именуемая разведкой на основе открытых источников (OSINT).

+15

Abejorro 17 дек 2020 в 15:42

«РосКомСвобода» на ОГФ'2020: рассказываем про открытые данные о пандемии и праве на приватность

12 мин

2.2K

Блог компании РосКомСвободаИнформационная безопасность*Открытые данные*Законодательство в ITКонференции

«РосКомСвобода» совместно с «Инфокультурой» весь день вела на Общероссийском гражданском форуме (ОГФ'2020) площадку «Право на приватность и открытость».

Собрали для вас самое важное из всех секций: про приватность, открытые данные в здравоохранении, открытый код, распознавание лиц и слежку.

Ключевые цитаты из выступлений:

Nutterix 14 дек 2020 в 01:07

Встречайте Creative Commons Legal Database

3 мин

1.7K

Open source*Creative Commons*Открытые данные*Законодательство в ITКопирайт

Перевод

На днях состоялся запуск Creative Commons Legal Database — одного из долгожданных проектов от Creative Commons, нацеленного на сбор и систематизацию информации, связанной с лицензиями Creative Commons (судебные дела и юридические статьи). Проект выглядит многообещающим (конечно, там есть судебная классика по опенсорсу — Jacobsen v Katzer, правда, в очень сжатом виде), но пока не впечатляет своим объемом — надеюсь, в скором времени там появится информация и по России, например. А пока предлагаю узнать про эту базу данных и сам проект в целом из статьи ниже.

Читать дальше →

EvanMarkoff 12 дек 2020 в 18:44

Визуализация данных по акциям дивидендных аристократов США в формате веб-приложения

8 мин

4.8K

Веб-разработка*Python*Открытые данные*Визуализация данных*Финансы в IT

В этой статье я поделюсь некоторым опытом на простом примере. Мне повезло проработать в Банке в течение пяти лет в качестве руководителя направления, аналитика, математика, где-то программиста и т.п. Прямым текстом рассказывать о своей работе в Банке не могу, так как какие-то сведения могут быть конфиденциальными, а что-то рассказывать может быть просто неэтично или неправильно. Поэтому изложу свои взгляды и опыт на почти игрушечном примере.

Пример смотрите по ссылке https://www.emarkoff.com/dividend_aristocrats_sp500/

Читать дальше →

Elsajalee 20 окт 2020 в 17:40

База данных населённых пунктов России

2 мин

15K

Геоинформационные сервисы*Открытые данные*

Из песочницы

Да, ещё одна. И совсем не всех. Эта база данных вовсе не собирается хвастаться десятками тысяч строк. Как раз наоборот: цель — предоставить необходимый минимум. Естественно, необходимость использовать справочник населённых пунктов есть во многих проектах. И получить полную БД можно легко и просто из ФИАС. Так зачем же нужен этот «велосипед»?

Читать дальше →

EvanMarkoff 15 окт 2020 в 15:25

Разработка онлайн-сервиса для инвесторов на pythonanywhere.com с использованием данных Yahoo Finance

7 мин

3.1K

Веб-разработка*Python*Открытые данные*

Из песочницы

Цель настоящей статьи — поделиться опытом разработки аналитического онлайн-сервиса для инвесторов на python. Основное внимание уделено в большей степени концептуальным моментам, а не детальному описанию какой-то отдельной технологии. Надеюсь, что любые детали читатель легко найдет, немного погуглив. Ради наглядности даю ссылку на сервис в самом начале изложения www.emarkoff.com .

Читать дальше →

c13 13 окт 2020 в 14:33

Ноль смертей: как выжить в ДТП

8 мин

53K

Геоинформационные сервисы*Открытые данные*Статистика в ITКраудсорсингУрбанизм

В прошлом году проект “Карта ДТП” опубликовал исходные коды сайта по анализу дорожно-транспортных происшествий. Наша работа получила большой отклик, и мы продолжили развитие. Теперь работает мобильная версия, пропали проблемы с масштабированием, можно поделиться любым сегментом в виде ссылки. Картой пользуются городские активисты, депутаты, архитекторы и транспортные чиновники. Но остается нерешенным вопрос, который мы задавали с самого начала: как добиться минимальной смертности на дорогах?

В 2019 году в ДТП на дорогах и улицах России погибло 16 981 человек

+123

579

Zelenyikot 12 окт 2020 в 09:19

Водоросли, танкер и шторм против Камчатки

6 мин

52K

Геоинформационные сервисы*Открытые данные*Научно-популярноеКосмонавтикаЭкология

Проясняется ситуация с отравлением Халактырского пляжа и бухты Авачинской на Камчатке. После переполоха поднятого в соцсетях туда приехали все службы и ученые какие только смогли, и провели бесконечное количество анализов. Оперативная информация выкладывается в официальном телеграм-канале. До конца все причины и факторы не определены, но пока однозначно, что никаких пестицидов или ракетного топлива ни откуда не утекло. А причины гибели морских организмов имеют скорее всего естественный характер. Одну утечку нефтепродуктов на проходящем судне тоже смогли рассмотреть, но вряд ли она причастна к морскому геноциду. И космос оказал в этом расследовании неоценимую помощь.

Читать дальше →

+148

354

BosonBeard 10 окт 2020 в 23:05

«Велосипедный набор» или о создании самодельных датасетов для анализа и машинного обучения

6 мин

4.9K

Открытые данные*Машинное обучение*

Несколько лет назад я ненадолго увлекся машинным обучением и анализом данных, даже написал небольшой цикл о моем погружении в этот удивительный мир, с точки зрения полного новичка.

Как часто бывает при изучении чего-то нового, мне очень хотелось сделать свой «велосипед». К сожалению, в математике и программировании я разбираюсь плохо, поэтому кандидатом на роль «велосипеда» стал собственный датасет.

С того момента прошло уже больше двух лет и вот у меня дошли руки поделится с вами своим небольшим опытом.

В статье мы рассмотрим несколько потенциальных источников для самостоятельного сбора данных (в том числе не очень популярных), а также попробуем найти в этом процессе хоть какую-то пользу.

Читать дальше →

tathagatagarbha 8 окт 2020 в 12:19

Камчатка, экологическая катастрофа. Cмотрим из космоса

6 мин

14K

Открытые данные*КосмонавтикаЭкология

Из песочницы

От спутников через открытые данные к мертвым котикам. Грустно, но, к сожалению, такая вот тема и КДПВ.

Читать дальше →

+20

Mudrist 6 окт 2020 в 19:50

Нейросети: где взять данные для тонкого обучения алгоритмов?

3 мин

3.3K

Big Data*Открытые данные*Машинное обучение*Аналитика мобильных приложений*Искусственный интеллект

Привет, Хабр! Меня зовут Алиса Невейкина, и я работаю в стартапе из Беларуси SmartCoders. Мы занимаемся разработкой нейросетей и решений на базе ИИ для бизнеса. Этот пост стал результатом глубоких раздумий об особенностях развития проектов с использованием машинного обучения, а также о моделях монетизации данных технологий. Если вы уже работали с ИИ или планируете это сделать, приглашаю присоединиться к обсуждению.

Читать дальше →

1 2 ...

6 7

9 10 ...

28 29

Открытые данные *

Google Books Ngram Viewer как инструмент для ретроспективных исследований

На фондовом рынке США сформировался пузырь небывалых размеров

Инвестирование в отраслевые фонды в Экселе

Возглавляя тренды, часть вторая

Истории

Визуализация пересечений и перекрытий с помощью Python

Изучение вариантов решения одной из самых сложных задач визуализации данных

6 принципов эффективной визуализации данных

Ключевые принципы создания полезных и информативных графиков

Вытаскиваем данные из Instagram

Исследование качества информации и достоверности источников в Википедии

Как по спутниковым снимкам понять состояние растений на поле

Разведка на основе открытых источников

«РосКомСвобода» на ОГФ'2020: рассказываем про открытые данные о пандемии и праве на приватность

Встречайте Creative Commons Legal Database

Визуализация данных по акциям дивидендных аристократов США в формате веб-приложения

Ближайшие события

База данных населённых пунктов России

Разработка онлайн-сервиса для инвесторов на pythonanywhere.com с использованием данных Yahoo Finance

Ноль смертей: как выжить в ДТП

Водоросли, танкер и шторм против Камчатки

«Велосипедный набор» или о создании самодельных датасетов для анализа и машинного обучения

Камчатка, экологическая катастрофа. Cмотрим из космоса

Нейросети: где взять данные для тонкого обучения алгоритмов?

Вклад авторов