Обновить
72.44

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Огромный открытый датасет русской речи версия 1.0

Время на прочтение2 мин
Количество просмотров21K

image


В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начиналось,
можно прочитать в этой статье — Огромный открытый датасет русской речи. С тех пор наш проект прошел через ряд масштабных изменений, мы в три раза увеличили количество данных, повысили их качество, добавили лейблы для спикеров и сейчас мы наконец готовы представить вам версию 1.0.


Также мы не готовы останавливаться на достигнутом и планируем продолжать делать интесивную работу над ошибками в последующих версиях и улучшать качество уже опубликованных данных. Версию 1.1 мы планируем посвятить масштабной работе над ошибками.

Читать дальше →

«Ждёт тебя дорога дальняя…» или решение задачи прогнозирования на C# с помощью Ml.NET (DataScience)

Время на прочтение10 мин
Количество просмотров7K
В последнее время мне все чаще на глаза попадается информация о фреймворке для машинного обучения Ml.NET. Количество упоминаний о нем переросло в качество, и я решил хотя бы одним глазком глянуть, что же это за зверь такой.

Ранее мы с вами уже пробовали решить простейшую задачу предсказания с помощью линейной регрессии в экосистеме .NET. Для этого мы использовали Accord.NET Framework. Для этих целей из открытых данных по обращениям граждан в органы исполнительной власти и лично в адрес мэра г. Москвы, был подготовлен небольшой набор данных.

Спустя пару лет на обновлённом наборе данных мы попробуем решить простейшую задачу. Используя модель регрессии в Ml.NET Framework предскажем сколько запросов в месяц получает положительное решение. Попутно мы сравним Ml.NET с Accord. NET и библиотеками на Python.

Хотите овладеть силой и могуществом предсказателя? Тогда милости прошу под кат.



P.S. Пусть вас не смущает изображение С.С. Собянина, в статье не будет ни слова о политике.
Читать дальше →

Ситуация: все больше open source компаний меняют лицензии — обсуждаем мнения экспертов

Время на прочтение3 мин
Количество просмотров23K
За последние 18 месяцев лицензии на ПО модифицировали как минимум 12 разработчиков open source решений. Цель — запретить крупным ИТ-компаниям коммерциализировать их программное обеспечение в том или ином виде. Подобные инициативы разделили сообщество на два лагеря.

Читать дальше →

Лицо российского софта. Или немного статистики из Единого реестра российских программ для ЭВМ и БД

Время на прочтение8 мин
Количество просмотров18K
Многие из тех, кто работает с государственными заказчиками или непосредственно в государственных структурах, наверняка сталкивались с Единым реестром российского программного обеспечения для электронных вычислительных машин и баз данных. Реестр создан на основании широкого известного в узких кругах Постановления Правительства Российской Федерации от 16.11.2015 «Об установлении запрета на допуск программного обеспечения, происходящего из иностранных государств, для целей осуществления закупок для обеспечения государственных и муниципальных нужд».

Можно долго дискутировать, положительно или отрицательно влияет Реестр на развитие отечественного ПО, но все государственные органы обязаны использовать только ПО, входящее в Реестр, либо же обосновывать невозможность соблюдения запрета на допуск иностранного ПО. Наверняка закупки винды, майкрософт офисов и прочих ораклов и айбиэмов будут продолжаться еще очень и очень долго. Однако, потихоньку возникают российские операционные системы типа Альт Линукса, Астра Линукса или ОС Роса, пробиваются ростки офисных пакетов, отечественных блокчейнов . Возникают российские СУБД от достаточно известных ClickHouse или Линтер до абсолютно безвестных разработок. Ну и конечно же не может не быть отечественной Джавы. Чтобы снять возможные вопросы или споры, оговорюсь, что указанное выше ПО, названо в статье российским исходя из факта его вхождения в Реестр, более детальное изучение данного вопроса каждый может провести сам.

Так вот, Реестр функционирует уже почти 4 года и согласно пункту 37 Порядка его ведения сведения, хранящиеся в нем являются открытыми и общедоступными. Ну а если эти сведения открыты и общедоступны, то почему бы не проанализировать их?

В статье приведена небольшая статистика по Единому реестру российского программного обеспечения для электронных вычислительных машин и баз данных. Если вам стало интересно, прошу под кат.
Читать дальше →

Как наладить поиск адреса по координатам (и где взять нужный справочник)

Время на прочтение10 мин
Количество просмотров46K


Весной мы добавили в API DaData.ru фичу «Обратное геокодирование», она же «Адрес по координатам». Название намекает: метод принимает геокоординаты и отдает данные об адресе.

Солидный продукт с той же функциональностью предлагает «Яндекс» — он называется «Геокодер». Но сервис «Яндекса» бесплатен только для открытых некоммерческих проектов. Стандартный же тариф — от 120 000 ₽ в год — подходит не всем.

Мы подумали — если сделать бесплатную или недорогую альтернативу «Геокодеру», разработчики наверняка скажут спасибо. И сделали. В статье расскажу, как устроен «Адрес по координатам»: как мы наладили поиск, собрали справочник и упаковали в готовый метод.
Читать дальше →

Угадай меня, если сможешь: прогнозирование рейтинга фильма до его выхода

Время на прочтение5 мин
Количество просмотров9.3K
Недавно мне на глаза попался датасет на Kaggle с данными о 45 тысячах фильмов с Full MovieLens Dataset. Данные содержали не только информацию об актерах, съемочной команде, сюжете и т.п., но и оценки, выставленные фильмам пользователями ресурса (26 миллионов оценок от 270 тыс.пользователей).

Стандартная задача для таких данных — это рекомендательная система. Но мне в голову почему-то пришло прогнозирование рейтинга фильма на основе информации, доступной до его выхода. Я не знаток кинематографа, и поэтому обычно ориентируюсь на рецензии, выбирая что посмотреть из новинок. Но ведь рецензенты тоже несколько biased — они-то смотрят гораздо больше разных фильмов, чем рядовой зритель. Поэтому спрогнозировать, как оценит фильм обычная публика, показалось занятным.
Читать дальше →

Треугольник Паскаля vs цепочек типа «000…/111…» в бинарных рядах и нейронных сетях

Время на прочтение6 мин
Количество просмотров5.5K

Серия «Белый шум рисует черный квадрат»



История цикла этих публикаций начинается с того, что в книге Г.Секей «Парадоксы в теории вероятностей и математической статистике» (стр.43), было обнаружено следующее утверждение:


Рис. 1.

По анализу комментарий к первым публикациям (часть 1, часть 2) и последующими рассуждениями созрела идея представить эту теорему в более наглядном виде.

Большинству из участников сообщества знаком треугольник Паскаля, как следствие биноминального распределения вероятностей и многие сопутствующие законы. Для понимания механизма образования треугольника Паскаля развернем его детальнее, с развертыванием потоков его образования. В треугольнике Паскаля узлы формируются по соотношению 0 и 1, рисунок ниже.


Рис. 2.

Для понимания теоремы Эрдёша-Реньи составим аналогичную модель, но узлы будут формироваться из значений, в которых присутствуют наибольшие цепочки, состоящие последовательно из одинаковых значений. Кластеризации будет проводиться по следующему правилу: цепочки 01/10, к кластеру «1»; цепочки 00/11, к кластеру «2»; цепочки 000/111, к кластеру «3» и т.д. При этом разобьём пирамиду на две симметричные составляющие рисунок 3.


Рис. 3.

Первое что бросается в глаза это то, что все перемещения происходят из более низкого кластера в более высокий и наоборот быть не может. Это естественно, так как если цепочка размера j сложилась, то она уже не может исчезнуть.
Читать дальше →

Считаем среднюю ЗП «дата-саентолога». Парсим hh.ru с помощью pandas/python

Время на прочтение5 мин
Количество просмотров27K


Хочешь узнать, какая ситуация на рынке труда, особенно в области "дата-сайенс"?
Если знаешь Python и Pandas, парсинг Хедхантера это кажется один с самый надежных и легких способов.
Код работает на Python3.6 и Pandas 0.24.2
Ipython можно скачать здесь.
Чтобы проверить версию Pandas(Linux/MacOS) console:


ipython

И потом в командной строке


#ipython
import pandas as pd
pd.__version__

#Если нет подходящей версии(консоль)

pip install pandas==0.24.2

Уже все настроили? Поехали!

Читать дальше →

Белый шум рисует черный квадрат. Часть 2. Решение

Время на прочтение7 мин
Количество просмотров5.9K
В первой публикации рассказывалось о том, что есть подзабытая теорема Эрдёша-Реньи, из которой следует, что в случайном ряде, длины N, с вероятностью близкой к 1 существует подряд из одинаковых значений длиной $\log_2{N}$. Указанное свойство случайной величины можно использовать для ответа на вопрос: «После обработки больших данных, подчиняется ли остаточный ряд закону случайных чисел или нет?»

Ответ на такой вопрос определялся не на основании тестов соответствия нормальности распределения, а на основании свойств самого остаточного ряда.
Читать дальше →

Математическое расследование, как подделывали выборы губернатора в Приморье 16 сентября 2018 года

Время на прочтение19 мин
Количество просмотров97K
Во втором туре выборов губернатора Приморского края 16 сентября 2018 года встречались действующий и.о. губернатора Андрей Тарасенко и занявший второе место в первом туре коммунист Андрей Ищенко. В ходе подсчета голосов на сайте ЦИК РФ отображалась информационная панель с растущим числом обработанных протоколов и голосов за кандидатов.

Публикация подробных данных по участкам на официальном сайте ЦИК www.izbirkom.ru замерла после ввода 1484 (95.74%) протоколов и не возобновлялась до самого конца. Поэтому когда в трансляции лидер голосования вдруг поменялся с Ищенко на Тарасенко, было неясно, как именно это могло произойти. В СМИ просто писали «после обработки 99,03% протоколов лидер сменился».

Однако, располагая промежуточными суммарными данными из информационной панели, с помощью простой математики и программирования можно подробно установить, что именно происходило с протоколами в ночь после выборов. Используем Python, Colab от Google и Z3 theorem prover от Microsoft Research. Ну и добьём всё обычной дедукцией.


И что же там можно расследовать?

Белый шум рисует черный квадрат

Время на прочтение3 мин
Количество просмотров11K
Любой аналитик, в начале своей работы, проходит ненавистный этап определения идентификации параметров распределения. Потом, с наработкой опыта, для него согласование полученных остаточных разбросов означает, что какой-то этап, в анализе Big Data, пройден и можно двигаться дальше. Уже нет необходимости проверять сотни моделей на соответствие различным уравнениям регрессии, искать отрезки с переходными процессами, составлять композицию моделей. Терзать себя сомнениями: «Может есть, еще какая-нибудь модель, которая больше подходит?»

Подумал: «А что, если пойти от противного. Посмотреть, что может сделать белый шум. Может ли белый шум создать, что-то, что наше внимание сопоставит со значимым объектом из нашего опыта?»


Рис. Белый шум (файл взят из сети, размер 448х235).

По этому вопросу рассуждал так:

  1. Какова вероятность, что появится горизонтальные и вертикальные линии, заметной длины?
  2. Если они могут появиться, то какова вероятность, что они совпадут своим началом по одной из координат и составят прямоугольную фигуру?

Дальше по тексту, объясню, как эти задачи связались с анализом Big Data.
Читать дальше →

Метод мониторинга актуального состояния российских автодорог смартфонами пользователей

Время на прочтение4 мин
Количество просмотров9.4K
Целью одной из федеральных программ, направленных на реализацию Указа Президента «О национальных целях и стратегических задачах развития Российской Федерации на период до 2024 года» № 204 от 7 мая 2018 года (ссылка) является улучшение качества автомобильных дорог за счет увеличения процентного соотношения, соответствующего нормативным требованиям.

Тем же указом предусмотрено внедрение общедоступной информационной системы контроля за формированием и использованием средств дорожных фондов всех уровней.

Однако объективный контроль качества проведения мероприятий по строительству или ремонту дорог бывает затруднителен в силу ряда причин, начиная от небезызвестных проблем а-ля коррупция в строительстве (ссылка), и заканчивая естественными причинами трудоемкости организации такого процесса с использованием существующих методов — с помощью рейки и клин-промерника, дорожного профилометра или толчкомера, методом амплитуд и т.д. (затраты на проведение измерений качества автомобильных дорог, необходимость выезда на место, ограниченные человеческие и технические ресурсы).

Специалистами принимаются меры для упрощения процесса диагностики ровности дорог (ссылка), однако все равно возможности масштабного исследования их качества крайне ограничены.

Существующие проекты типа «Автострада» (autostrada.info), «Дорожная инспекция ОНФ» (dorogi-onf.ru) ведут наполнение своей базы качества автодорог в основном за счет обратной связи от пользователей, присылающих фотографии или отзывы только об отдельных участках автодорог.

Впрочем, одним из выходов контроля качества дорожного покрытия, равно как и отслеживания его изменения как в лучшую, так и в худшую сторону, является агрегация уже существующих аналитических инструментов.
Читать дальше →

Шум в больших данных. Анализ на основе энтропии информации

Время на прочтение4 мин
Количество просмотров8.5K
Попалась задача под названием «Квартет Энскомба (Анскомба)» (англ.версия).

На рисунке 1 представлено табличное распределение 4 случайных функций (взято из Википедии).

image
Рис. 1. Табличное распределение четырех случайных функций

На рисунке 2 представлены параметры распределения этих случайных функций

image
Рис. 2. Параметры распределений четырех случайных функций

И их графики на рисунке 3.

image
Рис. 3. Графики четырех случайных функций

Проблема различения этих функций решается достаточно просто, путем сопоставления моментов высших порядков и их нормированных показателей: коэффициента асимметрии и коэффициента эксцесса. Данные показатели представлены на рисунке 4.
Читать дальше →

Ближайшие события

Яндекс открывает датасеты Толоки для исследователей

Время на прочтение6 мин
Количество просмотров34K
Толока — крупнейший источник размеченных людьми данных для задач машинного обучения. Каждый день в Толоке десятки тысяч исполнителей производят более 5 миллионов оценок. Для любых исследований и экспериментов, связанных с машинным обучением, необходимы большие объёмы качественных данных. Поэтому мы начинаем публиковать открытые датасеты для академических исследований в разных предметных областях.

Сегодня мы поделимся ссылками на первые публичные датасеты и расскажем о том, как они собирались. А ещё подскажем, где же правильно ставить ударение в названии нашей платформы.
Читать дальше →

В Италии началась Open Source революция

Время на прочтение4 мин
Количество просмотров66K

Государственные учреждения страны теперь должны делать общедоступным весь разработанный для них код


Оригинальный пост на английском опубликован представителем итальянской государственной команды по цифровизации (Italian Government Digital Transformation Team) — прим. перев.


«Свобода, ведущая народ»


Цифровизация Италии достигла Рубикона. Вступивший в силу закон гласит, что государственные учреждения должны стараться использовать программное обеспечение с открытым исходным кодом в первую очередь, а также публиковать всё разработанное для них ПО как Open Source. На практике реализация закона закреплена в наборе обязательных принципов.


Следуя этим гайдлайнам гос. учреждения могут (и должны) опубликовать всё ПО, приобретённое ранее и приобретаемое с этого момента, на Developers Italia.

Мы впервые упомянули эти правила в 2018 году в статье «Открытое программное обеспечение и государство: онлайн-рекомендации по приобретению и повторному использованию ПО», в которой было анонсировано начало публичных консультаций. В течение этого периода нам прислали много ценных комментариев, которыми гайдлайны были дополнены. Это чётко показало, что пришло время окончательно принять парадигму Open Source.


Спустя несколько месяцев, после одобрения Объединённой конференцией и Европейской комиссией, процесс принятия был завершён, а гайдлайны опубликованы в Official Journal (такая публикация является условием вступления закона в силу — прим. перев.).

Читать дальше →

Многомерные графики в Python — от трёхмерных и до шестимерных

Время на прочтение3 мин
Количество просмотров38K

Примеры многомерных графиков

Введение


Визуализация — важная часть анализа данных, а способность посмотреть на несколько измерений одновременно эту задачу облегчает. В туториале мы будем рисовать графики вплоть до 6 измерений.


Plotly — это питоновская библиотека с открытым исходным кодом для разнообразной визуализации, которая предлагает гораздо больше настроек, чем известные matplotlib и seaborn. Модуль устанавливается как обычно — pip install plotly. Его мы и будем использовать для рисования графиков.


Давайте подготовим данные


Для визуализации мы используем простые данные об автомобилях от UCI (Калифорнийский университет в Ирвине — прим. перев.), которые представляют собой 26 характеристик для 205 машин (26 столбцов на 205 строк). Для визуализации шести измерений мы возьмём такие шесть параметров.


Здесь показаны только 4 строки из 205

Загрузим данные из CSV с помощью pandas.


import pandas as pd
data = pd.read_csv("cars.csv")

Теперь, подготовившись, начнем с двух измерений.

Читать дальше →

Елена Балашова: «Активисты подняли вопрос о том, чтобы данные нашего ГИС-портала были открыты для OpenStreetMap»

Время на прочтение7 мин
Количество просмотров6.7K


Год назад администрация Тольятти перевела почти все свои интернет-ресурсы на лицензию Creative Commons Attribution, а данные своего ГИС-портала персонально разрешила использовать сообществу OpenStreetMap. Почему они решили это сделать, отчего чиновники боятся открытых данных и как лучше всего добиваться их получения — обо всем этом в интервью рассказала руководитель департамента информационных технологий и связи администрации г.о. Тольятти Елена Балашова.
Читать дальше →

Машинное обучение в микрофинансах: строим скоринговую модель для клиентов с пустой кредитной историей

Время на прочтение8 мин
Количество просмотров16K

Нет кредитной истории — не дают кредиты, не дают кредиты — нет кредитной истории. Замкнутый круг какой-то. Что делать? Давайте разбираться.


Привет! Меня зовут Марк, я data scientist в компании Devim. Недавно мы запустили модель для скоринга заемщиков МФК “До Зарплаты”, у которых отсутствует кредитная история. Хочу поделиться опытом поиска данных, особенностями конструирования и интерпретации признаков.


Читать дальше →

Как бесплатно автоматизировать мониторинг госзакупок

Время на прочтение4 мин
Количество просмотров28K
Скажу сразу, статья скорее техническая, это инструкция.
Но начну с истории.

Сейчас я работаю на компанию со 100 процентным государственным участием, учредитель — одна уважаемая госкорпорация.

Год назад я запустил здесь новый процесс — участие в госзакупках. Да — да, вот так бывает, госкомпания не участвовала в госзакупках.

Попытки запустить это были, но безуспешные.

Когда я пришел работать в эту компанию, закупки кто-то мониторил, но отдел продаж не получал конкурсов от этого кого-то, хотя им были высланы ключевые слова по тематике департамента. Процесс был сломан.

Я был в недоумении некоторое время, пока не решил перезапустить этот процесс, выпросив оплатить аккаунт на Контур.Закупках.

Всё настроил и стал мониторить сам. Находил конкурсы отдавал в отдел продаж, завертелось, закружилось.

Людям нравится когда что-то происходит. Отдел продаж загорелся.

Если кратко описать, что нужно, чтобы запустить процесс участия в госзакупках, то вам надо:
1. Настроить мониторинг госзакупок
2. Чтобы кто то отбирал проекты, понимая ФЗ и читая все требования. Убирать лишнее.
3. Вести учет состояния проектов в едином интерфейсе.
4. Готовить заявку на участие в конкурсе, понимая структуру вашей цены
5. Иметь аккаунты на электронных торговых площадках (ЭТП)
6. Уметь писать жалобы в ФАС на снос конкурсов (юрист)
7. Проводить аналитику своего, извиняюсь, рынка
Читать дальше →

Toolbox для исследователей — выпуск второй: подборка из 15 тематических банков данных

Время на прочтение4 мин
Количество просмотров4.2K
Банки данных помогают делиться результатами экспериментов и измерений, играют важную роль в формировании академической среды и в процессе развития специалистов.

Расскажем как о датасетах, полученных с помощью дорогостоящего оборудования (источниками этих данных нередко являются крупные международные организации и научные программы, чаще всего связанные с естественными науками), так и о государственных банках данных.



Читать дальше →