Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

28-29 августа прошел Data Science хакатон Digtial League AI Challenge

Data Engineering *
Recovery mode

28-29 августа в подмосковном парке "Патриот" в рамках форума Армия 2021 прошел хакатон на тему искусственного интеллекта. Главным организатором хакатона выступило Новое Общественное Движение Цифровая Лига.

В хакатоне приняли участие молодые Data Science инженеры из Москвы, Московской области и Санкт-Петербурга. На хакатон пришло 10 команд в составе от 2 до 5 чел., всего 33 участника.

На протяжении 2-х дней участники решали задачу от ГосНИИАС, суть которой была в создании алгоритма на основе нейронной сети для обнаружения и классификации мишеней для стрельб.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 718
Комментарии 0

mysqldump в csv формате

MySQL *
Значится так — есть задача вытянуть данные из таблицы mysql в простенький csv файлик, дабы его открыть быстренько в excel. Зачем белым людям нужна такая магия — мне никогда не понять, но раз заказчик попросил, то я сделал. Итак, отдаёмся во власть консоли и пишем:
mysqldump -u [USER_NAME] -p "--where=[WHERE]" "--fields-terminated-by=," "--tab=./" [DB_NAME] [TABLE] > [TABLE].txt

Вот и вся любовь (на выходе получим два файла — один с SQL и второй с CSV)

p.s. директория в которой выполняется эта команда должна быть открыта для записи, иначе оно ругаться будет ;)
Всего голосов 28: ↑20 и ↓8 +12
Просмотры 9.4K
Комментарии 18

Покорим Ruby вместе! Капля одиннадцатая

Программирование *
Еще одна капля в наш стакан Руби (1, 2, 3, 4, 5, 6, 7, 8, 9, 10). Поговорим о self, работе с CSV и обработке исключений.

Описывая и обсуждая компьютерные программы, мы часто используем образные и человеческие метафоры. Например, мы говорим, что находимся в классе или возвращаемся из вызова метода. Иногда имеет смысл говорить во втором лице, например, object.respond_to?("x"): “Эй, объект, ты ответишь на х? И пока программа интепретируется контекст меняется снова и снова.

Некоторые объекты везде означают одно и тоже, например, числа и ключевые слова вроде def и class. Однако значение большинства элементов зависит от контекста.
Продолжаем
Всего голосов 44: ↑34 и ↓10 +24
Просмотры 16K
Комментарии 16

Ruby & Ccsv. FasterCSV не такой уж и faster

Чулан
Предстала задача вытащить инфу с большого csv-файла (50 Мб).
Всегда пользовался FasterCSV, но так как он открывал этот файл больше минуты, начал поиски настоящего faster-а.
Без помощи гугла не обошлось.
Ccsv — быстрая и легкая либа для работы с Csv-файлами.

Ccsv реализован на C и подточен под Ruby. Как видите и разница во времени выполнения большая:
читать далее
Всего голосов 7: ↑6 и ↓1 +5
Просмотры 261
Комментарии 0

Gource — визуализируем историю работы над проектом

Системы управления версиями *
Спешу рассказать хабрасообществу о, относительно новом, дьявольски завораживающем проекте Gource которое еще не упоминалось. Это приложение позволяет визуализировать историю изменений в системе контроля версии. Отрисовывает невероятно красиво при помощи OpenGL.


Читать дальше →
Всего голосов 65: ↑61 и ↓4 +57
Просмотры 20K
Комментарии 51

Facebook обошёл ограничения Google Contacts API

Социальные сети и сообщества
Несколько дней назад Google внёс изменения в Terms of Service программных интерфейсов Google Contacts API, так что теперь каждый, кто ими воспользуется, обязан гарантировать взаимность. Это был выпад в сторону Facebook, чтобы заставить их открыть социальный граф и наказать за протекционизм в области пользовательских данных. Не вышло. Вот как Facebook изменил сегодня форму поиска по контактам Gmail.


Читать дальше →
Всего голосов 160: ↑145 и ↓15 +130
Просмотры 2K
Комментарии 76

Расширение Google Chrome для экспорта контактов Facebook

Социальные сети и сообщества
Несмотря на давление со стороны Google и даже критику от Тима Бернерса-Ли, компания Facebook упорно отказывается предоставить своим пользователям функцию экспорта социального графа, то есть информации обо всех френдах в сети. Она получает заслуженные упрёки в том, что захватывает юзеров в «информационную ловушку», из которой они не могут выбраться.

Но если очень нужно, то выход всё-таки найдётся. Некий неизвестный разработчик dimator выпустил расширение для Google Chrome Facebook Doesn’t Own My Friends (исходный код), позволяющее легко экспортировать список друзей из Facebook в CSV-файл или напрямую в список контактов Gmail (там создаётся новая группа “Imported from Facebook”).
Читать дальше →
Всего голосов 64: ↑51 и ↓13 +38
Просмотры 851
Комментарии 35

Пролог: База фактов из CSV файла

Программирование *Prolog *

Импорт фактов в базу пролога из файла в формате CSV



Для того чтобы работать с фактами базы данных в прологе их (факты) необходимо импортировать из внешнего источника.


На схеме условно показаны три области активностей:
Желтая — подготовка промежуточного файла. Для простого импорта это может быть просто сохранение документа в формате CSV. Для работы по регламенту возможна настройка компонентов БД (например MS SQL Server Integration Services) для периодической выгрузки. Данная активность в статье не рассматривается.
Красная — импорт данных из CSV файла в базу фактов.
Зеленая — работа с базой фактов в Прологе.
Примечание. Стрелками показаны потоки данных.
Читать дальше про красную и зеленую область...
Всего голосов 6: ↑4 и ↓2 +2
Просмотры 5.9K
Комментарии 4

Простой импорт/экспорт в CSV для PHP & MySQL

MySQL *

В ходе разработки сервиса по расчете статистики по управлению запасами для интернет-магазинов возникла задача быстро организовать импорт/экспорт таблиц между разными MySQL серверами. Поскольку надо было сделать просто и прозрачно — оптимизация будет впереди — решил воспользоваться авторскими рекомендация из документации по MySQL 5.0.
Читать дальше →
Всего голосов 22: ↑13 и ↓9 +4
Просмотры 94K
Комментарии 6

Язвы и грабли CSV и Excel: проблемы и решения

Блог компании Mail.ru Group
CSV является стандартом де-факто для связи между собой разнородных систем, для передачи и обработки объемных данных с «жесткой», табличной структурой. Во многих скриптовых языках программирования есть встроенные средства разбора и генерации, он хорошо понятен как программистам, так и рядовым пользователям, а проблемы с самими данными в нем хорошо обнаруживаются, как говорится, на глаз.

История этого формата насчитывает не менее 30 лет. Но даже сейчас, в эпоху повального использования XML, для выгрузки и загрузки больших объемов данных по-прежнему используют CSV. И, несмотря на то, что сам формат довольно неплохо описан в RFC, каждый его понимает по-своему.

В этой статье я попробую обобщить существующие знания об этом формате, указать на типичные ошибки, а также проиллюстрировать описанные проблемы на примере кривой реализации импорта-экспорта в Microsoft Office 2007. Также покажу, как обходить эти проблемы (в т.ч. автоматическое преобразование типов Excel-ом в DATETIME и NUMBER) при открытии .csv.

Читать дальше →
Всего голосов 87: ↑82 и ↓5 +77
Просмотры 344K
Комментарии 42

Конвертер для переноса контактов из Outlook в Android, для параноиков (с открытым кодом, без использования синхронизации с гуглом и сторонних утилит)

Разработка под Android *
Вчера обратился один товарищ, столкнувшийся с проблемой переноса контактов из смартфона на WM6 под новый Андроидофон. После недели тщетных попыток он опустил руки и передал csv-файл, полученный из аутлука, к которому ему довольно просто удалось подключить записную книжку телефона.

Он перепробовал множество конвертеров и способов, но все они либо не давали нужного результата — быстрого и бесплатного конвертирования в два клика, либо искажали информацию из-за кучерявой реализации локализации его версии Аутлука. Использовать привязку контактов к аккаунту он отказался по религиозно-политическим соображениям, велению внутренней морали или уклада жизни, я не уточнял.

В результате слегка погуглив, но не найдя простого решения пришлось налабать скриптик на великом и могучем, который создает vcf-файл контактов, который в свою очередь легко импортируется в Андроид стандартными средствами телефона.
Читать дальше →
Всего голосов 9: ↑7 и ↓2 +5
Просмотры 58K
Комментарии 18

Демо-данные для интернет-магазинов или верстаем правильно

Разработка веб-сайтов *
Не многие разработчики наполняют сайт реальными, или похожими на них, данными. В большинстве случаев все заканчивается созданием категорий Тест1, Тест2… и товаров Товар1, Товар2… Естественно, это не может отразить/показать настоящее поведение сайта/шаблона. Если с товаром еще не всегда все плохо, то с категориями почти всегда что-то не в порядке.
Читать дальше →
Всего голосов 43: ↑32 и ↓11 +21
Просмотры 29K
Комментарии 29

Пожаробезопасность в системах управления версиями

Системы управления версиями *
image
На сегодняшний день существуют два типа систем управления версиями: клиент-серверный и распределенный. Но несмотря на огромное различие между ними мы все-равно продолжаем использовать центральный сервер для синхронизации работы между участниками команды.
А что будет если в один прекрасный день центральный сервер сгорит?
Давайте это обсудим
Читать дальше →
Всего голосов 9: ↑4 и ↓5 -1
Просмотры 4K
Комментарии 11

Генератор умных перечислений, EnumGenerator

C++ *Lua *
Привет всем!

Несколько лет назад меня начал беспокоить вопрос создания статических (создаваемых и изменяемых до процесса компиляции) перечислений. Перечислений я хотел не простых, которые реализованы в С/С++, а с набором дополнительных возможностей, в том числе и ассоциированными столбцами данных произвольного типа, своего рода статическая база данных с доступом по уникальному идентификатору.

Тогда в моем понимании ясно выделились три типа объектов, которые могут быть уникальным идентификатором: числовой индекс, числовой идентификатор, символьный идентификатор. При попытке применить каждый из них для решения задачи перехода от ключа к значению сформировались основные их недостатки и преимущества:
Читать дальше →
Всего голосов 8: ↑6 и ↓2 +4
Просмотры 5.4K
Комментарии 9

Суп из SAN. Строим виртуальный SAN на платформе Windows Server 2012 R2

Виртуализация *
Из песочницы
Итак, вы только что закончили восстанавливать систему после сбоя. К счастью, на этот раз обошлось — сервисы, слава богу, поднялись. Но ваш босс недоволен — требует «сделать выводы и принять меры». Очевидно, настало время задуматься о том, как жить дальше. Возможно стоит пересмотреть существующие подходы к построению инфраструктуры и предпринять шаги к обеспечению отказоустойчивости вашей продакшн-системы.

Читать дальше →
Всего голосов 15: ↑12 и ↓3 +9
Просмотры 39K
Комментарии 14

Office как Платформа, выпуск №2: Power BI – новый подход к созданию бизнес-аналитики

Блог компании Microsoft Big Data *Открытые данные *Визуализация данных Разработка для Office 365 *


На сегодняшний день, одной из важных задач, с которыми мы сталкиваемся в процессе работы, является задача правильного и красивого предоставления данных. Мы стремимся превратить безликие цифры в интересные и информативные материалы, оживить свои отчеты и презентации. Более того, объем данных, поступаемых в мозг человека, увеличивается с каждым годом, поэтому, наряду с получением любых результатов нам необходимо правильно их обработать и структурировать.

Сегодня, на примере ряда задач, мы с вами рассмотрим мощный облачный инструмент, который позволяет создавать различные яркие и красочные отчеты на основе огромного числа источников данных. А именно, спешу поделиться с вами новым инструментом, который поможет вам визуализировать ваши данные – Power BI.
Читать дальше →
Всего голосов 19: ↑18 и ↓1 +17
Просмотры 47K
Комментарии 17

Конвертация многостраничного xls/xslx в csv при помощи PHPExcel

PHP *
Из песочницы
В моих проектах часто нужно было собирать данные из разных источников в CSV формат, и пока не нужно было получать данные из нескольких страниц таблиц xls, мне хватало простого fgetcsv() / fputcsv(). Но вот наступил всё-таки тот день, когда передо мной была поставленна задача «получать данные со всех страниц документа». И, как водится, я начал искать готовое решение, чтобы не строить свой «велосипед». Но, к сожалению, именно того, что мне нужно было, я не нашёл: было похожее решение, которое выводило многостраничный документ на экран, но использовалась другая библиотека, которая, как я понял, не поддерживала формат xslx (Excel 2007 +). Ещё немного поискав другие варианты, я понял, что дело гиблое и решил разобраться с библиотекой самостоятельно. Совместив некоторые подсказки по работе с библиотекой PHPExcel в одно целое, я получил следующий скрипт. Итак, приступим.
Читать дальше →
Всего голосов 18: ↑12 и ↓6 +6
Просмотры 16K
Комментарии 11

Автоматизация оформления документации

Python *Визуализация данных Подготовка технической документации *
Работая над проектами связанными с авионикой мне потребовалось оформить несколько комплектов документации с полным описанием проекта. Также следовало учитывать требования многих ГОСТов на оформление и на содержание документации, таких как ЕСПД, КТ-178B и других.

Описание должно было в себя включать:
  • Планы разработки ПО
  • Требования к ПО
  • Описание реализации требований к ПО
  • Таблицы трассируемости(соответствия) требований к ПО и реализации
  • Описание тестов на ПО (Примеры и процедуры верификации ПО)
  • Таблицы трассируемости(соответствия) требований к ПО и тестов
  • Отчет об обнаруженных проблемах
  • Указатель конфигурации(описание версии ПО и совместимости со сторонним ПО и оборудованием)


Объем документирования очень большой. Данные во всех документах связаны друг с другом, поэтому при изменении проекта (например добавления нового требования), приходится редактировать практически все документы. Плюс к этому можно где-то ошибиться или забыть поправить, что приводит к ошибкам в документации.



Далее в статье я расскажу как я решил эту проблему.

Читать дальше →
Всего голосов 9: ↑8 и ↓1 +7
Просмотры 18K
Комментарии 2

Производительность Apache Parquet

Data Mining *Scala *Big Data *
Перевод

Плохой пример хорошего теста


В последнее время в курилках часто возникали дискуссии на тему сравнения производительности различных форматов хранения данных в Apache Hadoop — включая CSV, JSON, Apache Avro и Apache Parquet. Большинство участников сразу отметают текстовые форматы как очевидных аутсайдеров, оставляя главную интригу состязанию между Avro и Parquet.


Господствующие мнения представляли собой неподтвержденные слухи о том, что один формат выглядит "лучше" при работе со всем датасетом, а второй "лучше" справляется с запросами к подмножеству столбцов.


Как любой уважающий себя инженер, я подумал, что было бы неплохо провести полноценные performance-тесты, чтобы наконец проверить, на чьей стороне правда. Результат сравнения — под катом.


Apache Parquet Logo

Читать дальше →
Всего голосов 9: ↑9 и ↓0 +9
Просмотры 13K
Комментарии 0

Выбираем html-парсер для Apache.JMeter

Тестирование IT-систем *HTML *Тестирование веб-сервисов *
Среднее качество полноты извлечения ссылок на встроенные ресурсы html-парсерами Apache.JMeter
Среднее качество работы парсеров (для семи сайтов)

Предлагаю:

  • посчитать среднее качество полноты извлечения ссылок на встроенные ресурсы html-парсерами Apache.JMeter;
  • проверить правда ли извлечение ссылок в Apache.JMeter 3.0 стало более полным;
  • испытать в деле плагин CsvLogWriter.

Как гласит народная мудрость: Верить верь, но…
проверь
Всего голосов 10: ↑10 и ↓0 +10
Просмотры 7.8K
Комментарии 5
1