Обновить
72.44

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

6 типовых сюжетов мировой литературы

Время на прочтение5 мин
Количество просмотров78K
Исследователи изучили тексты более 1700 романов и обнаружили, что все их можно отнести к 6 сюжетным типам.


В своей лекции 1995 года американский романист Курт Воннегут рисовал на доске различные сюжетные линии, по ходу повествования иллюстрируя изменение положения главного героя по шкале «хорошо-плохо». Среди сюжетов были «загнанный в угол человек», в рамках которого главный герой попадает в беду и в итоге выбирается из нее, а также «парень добивается девушки», где герой получает нечто чудесное, теряет это и снова находит в конце. «Нет никаких препятствий к тому, чтобы загружать простые формы историй в компьютер, — заметил Воннегут. — Это прекрасные формы».

Благодаря новым технологиям интеллектуального анализа люди решили эту задачу. Профессор Мэтью Джокерс из Университета штата Вашингтон, а позже и исследователи из лаборатории компьютерных историй Вермонтского университета проанализировали тексты тысяч романов и выявили шесть основных типов историй — архетипов, — представляющих собой базовые структурные блоки для построения более сложных сюжетов. Вермонтские исследователи описали эти шесть форм повествования, лежащих в основе 1700 английских романов, следующим образом:

1. «Из грязи в князи» — постепенное улучшение положения от плохого к хорошему.
2. «Из князи в грязи» — падение от хорошего положения к плохому, трагедия.
3. «Икар» — взлет и падение.
4. «Эдип» — падение, взлет и снова падение.
5. «Золушка» — взлет, падение, взлет.
6. «Человек, загнанный в угол» — падение и взлет.

Исследователи применили анализ эмоциональной окраски — статистическую методику, часто используемую маркетологами для оценки публикаций в социальных СМИ.
Читать дальше →

Как программисты Родину спасали

Время на прочтение10 мин
Количество просмотров10K
Я всегда считал, что программисты спасут мир. Не те, которые «дайте ТЗ, я запрограммирую», а те, настоящие, которые сто лет назад были инженерами и изобретателями, а с появлением компьютеров просто пересели в виртуальную среду. Но подход к делу у них остался. Пытливый, инженерный, основанный на фактах, измерениях и системном мышлении. Подход, не позволяющий пользоваться тем, чего не понимаешь, не видел изнутри, не пробовал изменить.

Мир мы, положим, еще не спасли, но все к тому идет. Родину ведь спасли.

Как вы поняли, речь о грандиозных реформах, охвативших Россию в последние годы. Обыватели, конечно, считают, что это кто-то умный из правительства все придумал. Но мы-то с вами знаем, что идеологами, методистами, архитекторами и исполнителями сути этих реформ выступили программисты.

Я не буду увлекаться популизмом, лозунгами и эпитетами – я не политик. И так со всех экранов страны только и говорят, что об этой реформе. Моя задача – рассказать о том, как это было изнутри. О предпосылках, гипотезах и решениях, которые мы применили.

Вообще, решений было много – и технических, и организационных, ввиду широкого масштаба этого проекта. Но начать с чего-то ведь надо? Поэтому начну с губернаторов, т.к. это был один из первых этапов проекта.
Читать дальше →

GeoPuzzle — собери мир по кусочкам

Время на прочтение11 мин
Количество просмотров17K
image

Хочу рассказать о проекте, который развивал последние пару лет. Называется он GeoPuzzle и представляет собой игру-паззл на политической карте мира. Цель — расставить кусочки-страны на свои места. Идея подсмотрена в статье «Головоломка Mercator для знатоков географии», также в детстве играл в тетрис из стран (ещё под DOS), но название программы уже не припомню. Я был настолько вдохновлён идеей, что захотел сделать полноценный продукт, интересный не только школьникам, но и знатокам географии. За развитием проекта можно наблюдать на GitHub.
Читать дальше →

Для чего кредитным организациям наука о данных

Время на прочтение5 мин
Количество просмотров3.7K
Автор материала на примере Индии рассматривает, какие выгоды для кредитных организаций несут цифровая революция, демократизация данных и анализ цифрового следа пользователей.


Демократизация данных


Доступ к Всемирной сети позволяет людям узнавать о новых продуктах, услугах, возможностях и контенте из любой точки планеты. Так, Индия стала самым активным потребителем мобильного интернета.

Количество мобильных абонентов в I квартале 2018 года

Крупные корпорации вынуждены считаться с такими изменениями. Они переводят свой бизнес в онлайн или обеспечивают там свое присутствие. Объем розничных онлайн-продаж в этом году вырос до 50 млрд долларов по сравнению с 19,7 млрд долларов в 2015 году. А статистика прошлого года показывает, что 82% запросов, связанных с электронной коммерцией, были отправлены с мобильных устройств.

Распространенность смартфонов


Персональные компьютеры и планшеты в Индии относятся к категории дорогих устройств, недоступных широким слоям населения. А смартфоны с поддержкой 4G в среднем стоят 7 долларов. Это привело к широкому распространению 4G-смартфонов в стране: их количество выросло с 47 миллионов в 2015 году до 218 миллионов в 2017 году. Согласно прогнозам, количество пользователей мобильного интернета также резко возрастет с 240 млн в 2016 году до 520 млн в 2020-м. Среднегодовой показатель роста при этом составит 21%.

Увеличение среднего показателя потребления данных


Запуск 4G сделал высокоскоростной интернет доступным для широких масс. Снижение стоимости обмена данными на 93% — с 3,7 долларов за 1 Гб до 0,26 долларов — сильно повлияло на поведение потребителей, которые «подсели» на интернет. По статистике, индийцы сегодня проводят за смартфоном около 3 часов в день.

Цифровой след

Читать дальше →

ДомоДанные: как анализ данных используется в архитектуре и урбанистике

Время на прочтение18 мин
Количество просмотров6.2K

Преподавали мы в GoTo свои нейроночки, XGBoos’ы, SVM’ы и прочие случайные леса, и тут до нас кое-что дошло — мы много говорим про технологии и почти ничего не рассказываем про области, в которых их можно применить.


Мы решили исправить эту оплошность циклом статей, в которых расскажем о разных областях с неожиданно большими объемами данных, возьмём интервью у аналитиков и разработчиков, расскажем про проекты, которые мы решили попробовать сделать на школе и так далее.



И начнём мы с немного экзотических сфер — урбанистики и архитектуры.


Если хотите узнать подробности, прочитать интервью с техническим директором аналитической компании Habidatum и куратором программистко-архитектурных проектов из МАРХИ — милости прошу под кат.

Читать дальше →

Разработка акустического датасета для обучения нейронной сети

Время на прочтение13 мин
Количество просмотров7.5K


Однажды в интервью один всем известный российский музыкант сказал: “Мы работаем над тем, чтобы лежать и плевать в потолок”. Не могу не согласиться с этим утверждением, ведь то, что именно лень является движущей силой в развитии технологий, спору никакого быть не может. И действительно, только за последнее столетие мы перешли от паровых машин к цифровой индустриализации, и теперь искусственный интеллект, о котором писали фантасты и футурологи прошлого столетия, с каждым днём становится всё большей реальностью нашего мира. Компьютерные игры, мобильные устройства, умные часы и многое другое

Читать дальше →

Как приложения для учёта личных финансов синхронизируются с банками

Время на прочтение3 мин
Количество просмотров16K
Сегодня у каждого человека есть по три-четыре счёта в разных банках. Следить за каждым из них по отдельности сложно. Упростить задачу помогают приложения для учёта финансов с функцией синхронизации с банками.
Читать дальше →

Тим Бернерс-Ли выходит на тропу войны: «Один маленький шаг для web…»

Время на прочтение5 мин
Количество просмотров12K
image

Я всегда считал, что web для всех. Вот почему я и все остальные яростно сражаются, чтобы защитить его. Изменения, которых нам удалось добиться, создали лучший и более связанный мир. Но помимо всего хорошего, что мы достигли, сеть превратилась в двигатель несправедливости и разделения; на который оказывают влияние мощные силы, использующие его для своих собственных целей.

Сегодня я считаю, что мы достигли критического переломного момента, и это кардинальное изменение к лучшему возможно и необходимо.

Вот почему я в последние годы работал с несколькими людьми в Массачусетском технологическом институте и в других местах, чтобы разработать Solid, проект с открытым исходным кодом для восстановления власти и способности к действию отдельных лиц в web.

Solid изменяет текущую модель, где пользователи должны передавать персональные данные цифровым гигантам в обмен на субъективную стоимость. Как мы все выяснили, это не в наших интересах. Solid — это то, как мы развиваем web, чтобы восстановить равновесие — путем предоставления каждому из нас полного контроля над данными, личными или нет, революционным способом.
Читать дальше →

Выявление содержательных профилей в VK

Время на прочтение3 мин
Количество просмотров35K
Ботов отличать от людей и правда сложновато. Я и сам толком не могу это сделать. Но зато я придумал неплохой велоси... метод, как отличать в VK «интересных людей» от «не очень интересных». В плане сетевого общения, естественно, а не по жизни.


Читать дальше →

Международный стандарт обмена данными SDMX (Statistical Data and Metadata eXchange)

Время на прочтение7 мин
Количество просмотров14K


В русскоязычном интернете весьма мало информации о SDMX, несмотря на то, что этот стандарт давно используется для публикации и обмена данными многими странами и международными организациями. Инициатива разработки стандарта была запущена семью международными организациями, работающими со статистическими данными, которые стали спонсорами разработки. Основной целью было упрощение обмена статистическими данными между такими организациями, создание стандарта такого обмена и описание бизнес-процесса по внедрению данного стандарта. Единый подход не только позволяет упростить доступ к статистическим данным, но и с помощью метаданных (данные о данных) делает более доступным понимание их смысла и содержания.

Читать дальше →

База данных штрихкодов скачать бесплатно без регистрации (и прочей хурмы)

Время на прочтение5 мин
Количество просмотров90K
Добрый день. В открытом доступе наконец-то появился огромный справочник штрихкодов с наименованиями товаров, категориями и брендами.

Мы работаем над ним лет 8 и теперь в нем около 3 миллионов штрихкодов в стандартах EAN (EAN-13, EAN-8) и UPC (UPC-A, UPC-E).
Читать дальше →

Как открытые API банков меняют финансовый мир

Время на прочтение5 мин
Количество просмотров25K
Финансовая сфера претерпевает цифровую революцию. Консервативные банки следуют современным веяниям и начинают предоставлять 3-им лицам информацию, которая раньше считалась банковской тайной. Почему это происходит, кому и зачем это нужно – разберемся в этой статье.

Раскрытие банковских данных


Тренд зародился в Европе, так, например, в Германии с 2010 года развивается Open Bank Project – проект, поддерживающий раскрытие банковских данных и пользующийся поддержкой крупнейших банков страны.

В Великобритании в сентябре 2015 года при поддержке органов государственной власти была выдвинута инициатива Open Banking Standard, которая направлена на повышение конкуренции и доступности услуг на финансовом рынке. Согласно инициативе, банки должны предоставить 3-им лицам (т.н. финансово-техническим компаниям) данные о балансе клиентов и доступ к их расчетным счетам. Применение принципа открытых банковских данных стало обязательным для 9 крупных банков Великобритании, которые обслуживают более 80% граждан страны.
Читать дальше →

Игра для улучшения качества Википедии

Время на прочтение4 мин
Количество просмотров6.4K
Сегодня была анонсирована бета версия онлайн-игры WikiBest, которая является частью научных исследований в области качества данных в Википедии. Примечательно, что в настоящее время игра позволяет сравнивать качество данных в 5 языковых версиях Википедии: русский, украинский, белорусский, польский, английский. В скором будущем планируется расширить количество языков.

image

Ближайшие события

Сборник демографических рассказов в одной карте

Время на прочтение2 мин
Количество просмотров16K

fig0


В свежем номере журнала The Lancet опубликована моя статья — любопытная карта и небольшое к ней пояснение. Решил рассказать об этом на Хабре, поскольку есть надежда, что реализованный способ визуализации данных может пригодиться еще кому-то.


Kashnitsky, I., & Schöley, J. (2018). Regional population structures at a glance. The Lancet, 392(10143), 209–210. https://doi.org/10.1016/S0140-6736(18)31194-2

Собственно, вот карта в высоком разрешении (кликабельно).


fig1


Карту можно воспроизвести точь-в-точь за несколько минут, код на гитхабе.


Данные создают цвета

Читать дальше →

Базы данных Microsoft Research теперь доступны для всех

Время на прочтение4 мин
Количество просмотров11K
Мы рады рассказать вам о том, что наши коллеги из подразделения Microsoft Research опубликовали данные, полученные в результате многолетних трудов по курированию и изучению информации из научных работ. В частности, стали доступны данные по инженерии, компьютерным наукам, информатике, математике, физике, биологии, социальным и естественным наукам. Подробнее под катом!

Читать дальше →

Боремся с ошибками и «костылями» в ЕГРЮЛ — госреестре юридических лиц

Время на прочтение6 мин
Количество просмотров11K


На прошлой неделе мы выпустили статью про устройство ЕГРЮЛ — госреестра с данными 10 миллионов компаний. Тот материал рассказывает о базовых вещах, поэтому начать лучше с него.

Здесь же мы раскроем богатую и благодатную тему — проблемы ЕГРЮЛа, которые не дают нашим разработчикам заскучать.
Продолжаем разговор

Как устроен ЕГРЮЛ — единый госреестр юридических лиц

Время на прочтение5 мин
Количество просмотров33K


ЕГРЮЛ — это государственный реестр юридических лиц, в котором хранятся данные 10 миллионов российских компаний. Управляет справочником ФНС.

Из ЕГРЮЛ мы берем данные организаций для «Подсказок», «Единого клиента» и «Фактора». В статье расскажем, как мы жили до справочника, как получаем к нему доступ и как с ним работаем.
Читать дальше →

Понедельник начинается в субботу, или что можно узнать о жизни в другой стране из логов sci-hub

Время на прочтение26 мин
Количество просмотров35K
Хотите знать, как религия влияет на рабочий день, у кого самый длинный обеденный перерыв, и правда ли, что Москва никогда не спит? Но это же Хабр, а не жёлтая газета, так что историю вам поведает самый объективный рассказчик из всех — данные пользовательской активности.


Вам когда-нибудь доводилось найти пиратский настоящий клад? Такой что с первого взгляда становится понятно, что вы теперь богач. Если находили, то наверняка первый месяц провели, обложившись книжками, увеличительными стеклами и всем, что может помочь вам узнать про находку всё. А следующие несколько месяцев вы хвастались находкой всем друзьям.

Что-то в этом роде произошло со мной, когда я наткнулся на логи sci-hub. Вроде в интернете полно открытых данных, но чтобы заполучить журнал учёта на 195 миллионов записей — это не каждый день так везёт. Несколько недель я изучал доставшееся мне богатство, а теперь пришёл на хабр, чтобы рассказать вам, что я нарыл.
Читать дальше →

Нахождение числа комиссий, «рисовавших» целые значения явки на президентских выборах РФ 2018 года

Время на прочтение7 мин
Количество просмотров42K
Графики с необычными пиками мы теперь видим после каждых федеральных выборов. Впервые в массы они вышли после выборов в 2011 году, когда люди и увидели фальсификации, и ознакомились в целом с анализом данных по выборам и с проблемой целочисленного деления в частности.

У распределений даже стали появляться свои имена. Это и «борода Чурова» для выборов 2011, и «пик Володина» для знаменитых 62.2% в Саратове. Поскольку до сих пор даже на хабре появляются статьи, не знакомые с решением проблемы целочисленного деления и не согласные "добавлять мусор" небольшой случайной добавки в данные, давайте посмотрим на результаты совсем иначе. Мы зайдём к построению графиков с противоположной стороны, где проблемы целочисленного деления вообще нет. И тоже увидим пики на целых значениях.


Читать дальше →

Парсинг 0.5Tb xml за несколько часов. Поиск организаций в открытых данных реестра субъектов МСП ФНС

Время на прочтение9 мин
Количество просмотров13K
По роду деятельности (автоматизация процессов и разработка архитектуры информационных систем) часто приходится сталкиваться с необходимостью написать скрипт и получить результат «здесь и сейчас» для неожиданно «прилетевшей» задачи в ситуации, когда нет возможности оперативно привлечь внешних разработчиков.

Решению одной из таких задач будет посвящен обзор. В какой-то момент появилась необходимость проанализировать на основе открытых данных “Единого реестра субъектов малого и среднего предпринимательства” Федеральной налоговой службы (далее Реестр МСП) динамику по месяцам количества организаций определенного вида деятельности, а именно, сельхозпредприятий. Подходы, которые использовались при ее решении, надеюсь будут полезны тем, кто ищет варианты обработки больших структурированных массивов данных XML, но распространенные средства обработки такие как SelectFromXML, он-лайн XML обработчики по каким-то причинам не подходят. Либо ограничен функционал, либо возникают проблемы при работе с кириллической кодировкой, либо не обеспечивается необходимая производительность, либо ограничены ресурсы «железа». Программисты и профессионалы надеюсь не буду слишком строги к стилю кодирования и выбору способов реализации, а критика и советы в комментариях приветствуются.

Итак задача:
Читать дальше →