Для принятия правильных решений в различных жизненных ситуациях очень полезно иметь адекватную модель мира. В частности, бывает полезна возможность сопоставить популярность различных предметов и оценить динамику этой популярности. Например, вы издатель, и вам предлагают перевести и издать книгу по языку программирования Fortran. Его ведь всё ещё используют, издаётся англоязычная литература, а у нас давно ничего не выходило. Или, скажем, по языку Julia. Книжек по актуальной версии языка на русском ещё нет. Можно взять какую-нибудь самую популярную английскую, перевести, издать и сорвать куш. В подобных ситуациях полезно иметь возможность подглядеть, какова популярность этих языков относительно других и какова динамика этой популярности. Пример с языками программирования приведён просто для наглядности, подобные задачи возникают и при анализе популярности различных программ, технологий, научных концепций.
Открытые данные *
Данные будут свободны!
На фондовом рынке США сформировался пузырь небывалых размеров
Оценки напрочь оторвались от фундаментального анализа, мультипликаторы находятся на исторических максимумах, скорость эмиссии ценных бумаг зашкаливает — и всё это сопровождается безумно спекулятивным поведением инвесторов. Большой кризис неизбежен.
Инвестирование в отраслевые фонды в Экселе
Написать эту статейку меня побудила замечательная серия многоуважаемого @abak "Теория инвестиций для начинающих“. В качестве конфетки внизу даю ссылку на табличку, получающую текущие цены на европейские фонды, их прибыльность и другие параметры из интернета. Кроме того мне хотелось бы немного расширить изначальную статью с точки зрения начинающего инвестора, инвестирующего из дома и лишенного вкусностей внутренней кухни Дойче банка.
Предостережение: Автор ни разу не спец в скрэпинге интернет-сайтов и инвестициях. Всё что здесь описывается делалось для души и на коленке. Автор никому ничего не обещает, а лишь делится собственным опытом и мыслями по поводу инвестиций, в частности в отраслевые фонды. Ещё одна цель – дать пищу для размышлений, а не предоставить рецепт от всех болезней. Всё, что здесь описано, добывалось автором путём проб и ошибок, а, как известно: "Срубленные головы стремительно умнеют“. Потому, главный посыл статейки: Не бояться экспериментировать.
Возглавляя тренды, часть вторая
Всем привет! На связи Павел Красовский, заместитель директора Центра стратегических инноваций в «Ростелекоме». О важности собственной методологии для оценки перспективных технологий я писал в предыдущем посте, вкратце – нам нужно понимать, по каким именно критериям оценивается важность и актуальность того или иного тренда. Сторонние исследования базируются на непрозрачных методах, поэтому «Хочешь сделать хорошо – сделай сам».
Истории
Визуализация пересечений и перекрытий с помощью Python
Изучение вариантов решения одной из самых сложных задач визуализации данных
Преобладающая задача в любом анализе данных — сравнение нескольких наборов чего-либо. Это могут быть списки IP-адресов для каждой целевой страницы вашего сайта, клиенты, которые купили определённые товары в вашем магазине, несколько ответов из опроса и многое другое.
В этой статье воспользуемся Python для изучения способов визуализации перекрытий и пересечений множеств, наших возможностей, а также их преимуществ и недостатков.
Диаграмма Венна
6 принципов эффективной визуализации данных
Ключевые принципы создания полезных и информативных графиков
Визуализация данных является важным этапом в процессе постижения науки о данных. Здесь вы представляете свои результаты и сообщаете о них в графическом формате, который является интуитивно понятным и лёгким для понимания.
Визуализация данных требует большой работы, большой труд по очистке и анализу уходит на перегонку и превращение грязных данных в красивые графики и диаграммы. Но даже с подготовленными данными всё равно приходится придерживаться определённых принципов или методологий, чтобы создать полезную, информативную графику.
Тем не менее при написании этой статьи я черпал вдохновение в книге Эдварда Тафта «Beautiful Evidence», которая содержит шесть принципов, посвящённых тому, как сделать графики данных полезными. Именно эти принципы отделяют полезные графики от бесполезных.
Эта статья также в значительной степени вдохновлена книгой Роджера Д. Пенга «Exploratory Data Analysis in R» Она доступна бесплатно на Bookdown, и вы можете прочитать её, чтобы узнать больше о EDA.
Давайте ближе познакомимся с этими принципами.
Пример визуализации данных на Our World in Data
Вытаскиваем данные из Instagram
Давайте разберемся, как с помощью достаточно простого кода на python можно вытащить из инстаграмма разные данные, находящиеся в открытом доступе.
Исследование качества информации и достоверности источников в Википедии
Возможно для кого-то это будет удивительно и даже возмутительно, но в Википедии информация не должна быть правдивой, важно, чтобы она была подтверждена достоверными источниками. Именно проблеме дезинформации и достоверности источников в Википедии был посвящён последний выпуск уходящего 2020 года Wikimedia Research Showcase. Это ежемесячное публичное мероприятие, на котором представляются последние работы исследовательской группы Фонда Викимедиа и приглашенных докладчиков из академического сообщества. Мне была предоставлена возможность рассказать о последних научных работах, проведённых совместно с сотрудниками нашей кафедры. В этой статье на Хабре я постараюсь коротко описать последние исследования нашей кафедры в области оценки качества информации и достоверности источников в многоязычной Википедии. Дополнительно представлены общедоступные инструменты для оценки качества и достоверности, основанные на научных исследованиях.
Как по спутниковым снимкам понять состояние растений на поле
Чтобы фермер мог следить за своими полями при помощи смартфона, компания OneSoil обрабатывает терабайты спутниковых изображений и превращает их в удобные карты NDVI. Если по-простому, это такие разноцветные картинки, по которым можно судить о здоровье посевов. Это следующий шаг после того, как фермер нашёл свои поля с предсказанными нами границами на карте мира (про это было в одном из прошлых постов).
Разведка на основе открытых источников
Введение
С каждым годом количество пользователей интернета растет. К началу октября 2020 года 4.9 млрд людей, а это 63.2% жителей земли, пользуется интернетом. А размер данных в интернете достигал 2.7 Зеттабайт (1 ЗБ ~ 1012ГБ). И каждый год —количество пользователей и устройств, подключенных к сети, увеличивается на 6% и 10% соответственно. Большая часть этой информации общедоступна. Источники, ссылающиеся на эти данные или на данные из газет, журналов, радио и телепередач, публичных отчетах правительства, называются открытыми. Поиск информации по таким источникам, выбор и сбор, а также дальнейший анализ – это разведывательная дисциплина, именуемая разведкой на основе открытых источников (OSINT).
«РосКомСвобода» на ОГФ'2020: рассказываем про открытые данные о пандемии и праве на приватность
«РосКомСвобода» совместно с «Инфокультурой» весь день вела на Общероссийском гражданском форуме (ОГФ'2020) площадку «Право на приватность и открытость».
Собрали для вас самое важное из всех секций: про приватность, открытые данные в здравоохранении, открытый код, распознавание лиц и слежку.
Ключевые цитаты из выступлений:
Встречайте Creative Commons Legal Database
На днях состоялся запуск Creative Commons Legal Database — одного из долгожданных проектов от Creative Commons, нацеленного на сбор и систематизацию информации, связанной с лицензиями Creative Commons (судебные дела и юридические статьи). Проект выглядит многообещающим (конечно, там есть судебная классика по опенсорсу — Jacobsen v Katzer, правда, в очень сжатом виде), но пока не впечатляет своим объемом — надеюсь, в скором времени там появится информация и по России, например. А пока предлагаю узнать про эту базу данных и сам проект в целом из статьи ниже.
Визуализация данных по акциям дивидендных аристократов США в формате веб-приложения
В этой статье я поделюсь некоторым опытом на простом примере. Мне повезло проработать в Банке в течение пяти лет в качестве руководителя направления, аналитика, математика, где-то программиста и т.п. Прямым текстом рассказывать о своей работе в Банке не могу, так как какие-то сведения могут быть конфиденциальными, а что-то рассказывать может быть просто неэтично или неправильно. Поэтому изложу свои взгляды и опыт на почти игрушечном примере.
Пример смотрите по ссылке https://www.emarkoff.com/dividend_aristocrats_sp500/
Ближайшие события
База данных населённых пунктов России
Разработка онлайн-сервиса для инвесторов на pythonanywhere.com с использованием данных Yahoo Finance
Ноль смертей: как выжить в ДТП
В прошлом году проект “Карта ДТП” опубликовал исходные коды сайта по анализу дорожно-транспортных происшествий. Наша работа получила большой отклик, и мы продолжили развитие. Теперь работает мобильная версия, пропали проблемы с масштабированием, можно поделиться любым сегментом в виде ссылки. Картой пользуются городские активисты, депутаты, архитекторы и транспортные чиновники. Но остается нерешенным вопрос, который мы задавали с самого начала: как добиться минимальной смертности на дорогах?
В 2019 году в ДТП на дорогах и улицах России погибло 16 981 человек
Водоросли, танкер и шторм против Камчатки
Проясняется ситуация с отравлением Халактырского пляжа и бухты Авачинской на Камчатке. После переполоха поднятого в соцсетях туда приехали все службы и ученые какие только смогли, и провели бесконечное количество анализов. Оперативная информация выкладывается в официальном телеграм-канале. До конца все причины и факторы не определены, но пока однозначно, что никаких пестицидов или ракетного топлива ни откуда не утекло. А причины гибели морских организмов имеют скорее всего естественный характер. Одну утечку нефтепродуктов на проходящем судне тоже смогли рассмотреть, но вряд ли она причастна к морскому геноциду. И космос оказал в этом расследовании неоценимую помощь.
«Велосипедный набор» или о создании самодельных датасетов для анализа и машинного обучения
Несколько лет назад я ненадолго увлекся машинным обучением и анализом данных, даже написал небольшой цикл о моем погружении в этот удивительный мир, с точки зрения полного новичка.
Как часто бывает при изучении чего-то нового, мне очень хотелось сделать свой «велосипед». К сожалению, в математике и программировании я разбираюсь плохо, поэтому кандидатом на роль «велосипеда» стал собственный датасет.
С того момента прошло уже больше двух лет и вот у меня дошли руки поделится с вами своим небольшим опытом.
В статье мы рассмотрим несколько потенциальных источников для самостоятельного сбора данных (в том числе не очень популярных), а также попробуем найти в этом процессе хоть какую-то пользу.
Камчатка, экологическая катастрофа. Cмотрим из космоса
От спутников через открытые данные к мертвым котикам. Грустно, но, к сожалению, такая вот тема и КДПВ.
Нейросети: где взять данные для тонкого обучения алгоритмов?
Привет, Хабр! Меня зовут Алиса Невейкина, и я работаю в стартапе из Беларуси SmartCoders. Мы занимаемся разработкой нейросетей и решений на базе ИИ для бизнеса. Этот пост стал результатом глубоких раздумий об особенностях развития проектов с использованием машинного обучения, а также о моделях монетизации данных технологий. Если вы уже работали с ИИ или планируете это сделать, приглашаю присоединиться к обсуждению.
Вклад авторов
ibegtin 1116.0ruASG 909.0shukshinivan 460.0ilusha_sergeevich 415.0Meklon 366.0S0mbre 347.0alexanderkuk 347.0DEADStop 340.0J_o_k_e_R 258.0Rassudov 247.0