Pull to refresh
0
0
Send message

Проблемы с качеством данных: как плохое «топливо» тормозит работу систем бизнес-аналитики

Reading time5 min
Views2.4K

По материалам опроса среди аналитиков, дата-сайентистов, разработчиков и менеджеров болевых точках одной из главных проблем названы качество данных и множество ручной работы для обеспечения этого качества.

Так ли это?

Взгляд неспециалиста по Data Mining...
Rating0
Comments2

Google Play удалил наши аккаунты без предупреждения и лишил семью заработка

Reading time5 min
Views95K
Я около семи лет занимаюсь разработкой приложений на Android. Начал с того, что делал приложения в свободное время, чтобы ближе познакомиться с этим замечательным миром, а потом присоединился к компании, которая учит людей создавать собственные продукты и выводить их на рынок.

На мой взгляд, Google Play – лучшая платформа для распространения приложений. Но вместе с тем, ее руководство плохо справляется с очень важной проблемой – пользовательской поддержкой для разработчиков.

Существуют и другие сервисы Google – например, Admob или Google Ads. И когда у меня возникают трудности со, скажем, Google Ads, я могу быстро связаться с администрацией и получить помощь. Чтобы улучшить что-то в рекламной кампании, не нужно даже к ним обращаться, они сами присылают письма, где напоминают, что сотрудники поддержки к моим услугам. Был случай, когда мне даже довелось пообщаться с очень приятной женщиной по Google Meet.

Если же с проблемами сталкивается разработчик с аккаунтом на Google Play, всё происходит совсем иначе. Приходится довольствоваться текстовым полем, а в ответ неизменно получаешь письма, составленные по шаблону – обсудить свою проблему с человеком практически нереально.
Читать дальше →
Total votes 118: ↑101 and ↓17+111
Comments620

ЕГРЮЛ, доходы и расходы, налоги, количество сотрудников в XML и JSON бесплатно

Reading time7 min
Views35K

Налоговая отдаёт данные ЕГРЮЛ  по организации в виде PDF. Посредники за автоматический доступ по API хотят денег. На многих сайтах часть данных закрыто, часть функций недоступны бесплатно, и полно рекламы. 

Особенно интересно, что на некоторых сайтах предоставляющих данные по API имеется логотип Сколково. Это такой высокотехнологический бизнес, наверное, открытые данные продавать.

Налоговая просит 150 000 рублей в год за доступ к данным ЕГРЮЛ в виде сваленных в архивы XML-файлов. У ФНС классный бизнес. Вы проявляйте должную осмотрительность при выборе поставщиков, но доступ к данным за деньги. Если вы хотите получить доступ и к реестру индивидуальных предпринимателей (ЕГРИП), то платите ещё 150 000 рублей в год. Согласитесь 300 000 рублей в год приличная сумма.

Остальные реестры данных у налоговой доступны бесплатно. Однако, без базы ЕГРЮЛ их вряд ли можно использовать. Самая частая операция в бизнесе подставить реквизиты из ЕГРЮЛ по ИНН.

Сформировалась целая отрасль, можно сказать, торговцев воздухом открытыми данными, создающих ВВП из воздуха как бухгалтеры, работающие руками там, где должны работать программы. Сколько компаний платит налоговой по 300 000р. в год?! Сколько программистов занято написанием одинаковых по функциям парсеров, которые переводят данные из XML налоговой в SQL и JSON?! Сколько серверов заняты под одинаковые функции?! Где добавочная стоимость? Все вроде при деле, а за чей счёт банкет?

Ну, ладно, “скандалить, критиковать каждый может”(с) как говорил бессмертный товарищ Райкин. “А что ты предлагаешь?” — резонно вы меня спросите. А я вам отвечу.

Читать далее
Total votes 139: ↑137 and ↓2+159
Comments139

Tarantool: взгляд аналитика

Reading time7 min
Views4.8K
Всем привет! Меня зовут Андрей Капустин. Я работаю системным аналитиком в Mail.ru Group. Наши продукты формируют единую экосистему для пользователя, в которой данные генерируют множество независимых инфраструктур: службы заказов такси и еды, почтовые сервисы, соцсети. Сегодня чем быстрее и точнее мы можем спрогнозировать потребность клиента, тем быстрее и вернее мы можем предложить ему наши продукты.

Многие системные аналитики и инженеры сейчас задаются вопросами:

  1. Как спроектировать архитектуру триггерной платформы для real-time маркетинга?
  2. Как организовать структуру данных, соответствующую требованиям маркетинговой стратегии взаимодействия с клиентами?
  3. Как обеспечить стабильную работу подобной системы в условиях очень высоких нагрузок?

В основе таких систем лежат технологии высоконагруженной обработки и анализа больших данных. Мы накопили немалый опыт в этих сферах. И на примере одной реальной истории расскажу о нашем подходе к аналитике и разработке решений в сфере Real-time Marketing с использованием Tarantool.
Читать дальше →
Total votes 20: ↑19 and ↓1+32
Comments5

Разнообразие квантовых технологий: вычисления, сети, криптография, сенсорика

Reading time13 min
Views11K

Говоря про квантовые технологии, чаще всего мы подразумеваем квантовые компьютеры. Однако сфера применения квантовых технологий гораздо шире. Например, уже протянуты многие тысячи километров квантовых сетей, несколько компаний заняты разработкой постквантовых алгоритмов шифрования, тестируются квантовые сенсоры для биомедицинских приложений

В День российской науки вспоминаем Tech Science Meetup от SuperJob, на котором руководитель научной группы Российского квантового центра, профессор МФТИ Алексей Федоров рассказал о том, что представляют собой квантовые компьютеры, об их светлой и темной сторонах и какую роль сейчас играют квантовые технологии в сфере ИТ.

Читать далее
Total votes 11: ↑11 and ↓0+11
Comments4

Как Business Intelligence «купается» в озёрах данных: практика платформы «Форсайт»

Reading time20 min
Views8.6K

Всем привет.

В этой публикации мы начнем рассказ о том, как наша BI-платформа «Форсайт» работает с данными. Как организовано взаимодействие платформы с СУБД и какие объемы информации мы можем эффективно обрабатывать. Что такое связка «BI+Data Lake» и как можно ее сформировать. Как в OLAP-кубах получать сведения из разных слоев данных: сырые/неструктурированные, детальные, консолидированные, валидированные, аналитические и т.п. Зачем для BI нужно деление на горячие, теплые и холодные данные. Ответы на все эти вопросы вы найдете в цикле наших статей.

Осуществлять аналитическую обработку данных, причем зачастую разной природы и масштабов – дело достаточно сложное. Поэтому мы разделили наш рассказ на несколько частей.  Итак, давайте начнем первую часть нашего рассказа. Welcome под кат!

Читать далее
Total votes 6: ↑4 and ↓2+3
Comments3

Information

Rating
Does not participate
Registered
Activity