Как стать автором
Поиск
Написать публикацию
Обновить
112.32

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга

Малболг — язык из ада или как придумать что-то очень сложное и бесполезное.

Существует интернет-сообщество «эзотерические языки программирования». К нему в 1997 году присоединился американский студент Бен Олмстед. Он задался целью создать «адски сложный» для понимания язык и вскоре придумал Malbolge, названный так в честь восьмого круга ада из «Божественной комедии» Данте Алигьери. Про него рассказываем дальше.

В чём же сложности Malbolge? Их много. Чтобы сразу не было скучно, Бен отошёл от двоичной логики, заменив её на троичную. Подобным образом ранее поступили создатели советской ЭВМ «Сетунь», но совершенно из других побуждений.

Перед запуском в интерпретаторе программа на Malbolge выполняет инструкцию crazy (crz). Эта команда считывает из памяти два числа, сравнивает их в троичной системе и записывает результат в память. Операция повторяется до тех пор, пока выделенная интерпретатором память не закончится.

Добавляет сложности при написании программ ограничение в три регистра и восемь команд, а также тот факт, что сам язык неполный по Тьюрингу. Проще говоря, вы никогда не знаете заранее, возможно ли вообще на нём написать нужный вам код.

Другая уникальность Malbolge заключается в том, что программы на нём изменяют свой собственный код во время работы. Самоизменяющиеся инструкции были специально придуманы Беном для того, чтобы результат исполнения кода был неочевиден.

При этом в языке нет строго синтаксиса, определяющего порядок исполнения команд. После того, как команда исполнится, она шифруется (точнее, перекодируется) по таблице замены и при следующем вызове интерпретируется уже иначе.

Malbolge получился настолько крышесносным, что сам автор не осилил написать на нём даже «Hello World!». Вместо этого Бен сделал упрощённую версию языка Dis и программу на нём, которая печатала одну букву: «H».

Чтобы реализовать простейший Hello World на Malbolge, группе энтузиастов потребовалось два года, LISP и генетические алгоритмы, перебирающие варианты расшифровки команд. Вот как выглядел итоговый листинг:

(=<# 9]~6ZY327Uv4-QsqpMn&amp;+Ij"'E%e{Ab~w=_:]Kw%o44Uqp0/Q?xNvL:H%c# DD2^WV>gY;dts76qKJImZkj

Упоминание языка Malbolge есть в сериале «Элементарно» на CBS. В одном из его эпизодов преступник роняет записку с кодом на Malbolge, а Холмс расшифровывает его и получает подсказку.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Тестирование систем и движков массивно-параллельных вычиcлений

Все о подходах к тестированию, которые использует команда Data Sapience, и результатах сравнения движков и систем — в партнерском материале технического идеолога Lakehouse-платформы данных Data Ocean Nova. В центре внимания — гонка зайца Trino и антилопы Impala.

Гонка зайца Trino и антилопы Impala
Гонка зайца Trino и антилопы Impala

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

GlowByte приглашает на конференцию «PIX Day: Процессы, аналитика и роботы – для людей»

Друзья, 5 декабря в Москве пройдет PIX Day — первая большая конференция, посвященная всей экосистеме продуктов PIX Robotics и опыту её использования ведущими российскими компаниями.

В рамках мероприятия участники обсудят, как вывести аналитику данных и эффективность процессов на новый уровень и сделать бизнес умнее — с помощью программных роботов, ИИ и не только.

Что будет на PIX DAY:
✔️Погружение в экосистему продуктов PIX;
✔️Реальные кейсы по RPA и BI от крупнейших компаний, в числе которых: Зетта Страхование, Банк Уралсиб, Норникель, НПФ Будущее, Иннотех и многие другие.
✔️Мастер-классы по управлению процессами, роботизации с ИИ и визуализациям;
✔️Технологическая выставка партнеров;
✔️Полезные знакомства, общение и нетворкинг;
✔️Вручение наград PIX Awards.

👉 Зарегистрироваться 👈

Когда: 5 декабря, 10:00-17:00
Где: Офлайн в Москве

Если вы искали личной встречи с нами, это отличный повод пообщаться!
До встречи на стенде GlowByte!

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Сегодня я хочу выложить в открытый доступ свою библиотеку на Scala. Библиотека реализует Directed Acyclic Graph (DAG) для выполнения задач внутри одного приложения (на замену Airflow и подобных не претендую :-)) и позволяет определять задачи с зависимостями, выполнять их в правильном порядке и обрабатывать исключения, которые могут возникнуть в процессе выполнения. Библиотека писалась через призму моих личных и профессиональных потребностей, поэтому не претендует на покрытие всех возможных кейсов, встречающихся в разработке вообще.

Use case:

Иногда возникает необходимость выполнять взаимосвязанные задачи/функции/классы в рамках одного приложения, где эти задачи могут быть частично параллелизованы, то есть их можно "собрать" в DAG для более эффективного использования ресурсов и повышения общей производительности. Например при обрабтке/загрузке данных или в event-driven приложении.

Особенности:

  • Управление задачами: Добавление задач с указанными зависимостями.

  • Гибкость: Выполенение всех или только некоторых задач (с сохранением зависимостей)

  • Обработка ошибок: Встроенная обработка ошибок с передачей исключений "наверх" для упрощенного их анализа.

  • Результаты выполнения задач: Возможность получения результата выполнения задач для дальнейшего их использования программным кодом.

Код, документация и инструкция по импорту и использованию доступны на GitHub.

Буду рад любым отзывам и предложениям по улучшению. Также не стесняйтесь задавать вопросы и заводить issue :-)

Теги:
Рейтинг0
Комментарии0

Навстречу большим данным: аналитика, которая работает

📅 21 ноября в 16:00 (МСК) на онлайн-митапе К2 Cloud разберем, как с помощью аналитических инструментов на базе продуктов K2 Cloud, Arenadata и K2Тех можно решать практические задачи бизнеса: снизить отток клиентов, оптимизировать процессы, контролировать сложную логистику и обеспечить качественную отчетность.

Темы:

  1. Актуальные задачи компаний при работе с большими данными: оценка окупаемости проектов big data, запуск пилотного этапа для реализации конкретных бизнес-целей с помощью аналитики данных

  2. От ритейла до банков: как мы переводим компании с Excel на Greenplum, локализуем инструменты big data на отечественных продуктах и создаем корпоративные хранилища данных «с нуля»

  3. Best practice на примере крупной FMCG-компании: ключевые задачи, решения, результаты и ценные лайфхаки

Онлайн-митап будет вам полезен, если вы:

  •  Только готовитесь к проектам big data и ищете, с чего начать

  • Развиваете инфраструктуру для работы с большими данными и оптимизируете бизнес-процессы

  • Хотите узнать, как адаптировать инструменты big data под специфические задачи вашего бизнеса

  • Желаете познакомиться с успешными кейсами и получить полезные рекомендации от экспертов в сфере больших данных и облачных технологий

  • Интересуетесь размещением инструментов big data в облаке

🔗 Подробности и регистрация по ссылке.

Теги:
Рейтинг0
Комментарии0

Привет! Я — Ося, разработчик в Инновационном Центре «Безопасный транспорт», ваш виртуальный проводник в мир технологий и разработки. В блоге рассказываю, как решаю сложные задачи и делюсь знаниями. Здесь мы будем разбираться в коде, обсуждать подходы к проектам и актуальные тренды в IT. Пишу о разработке, больших данных и инновационных технологиях.

Я — робот-осьминог и талисман ИЦ, который иллюстрирует разносторонность и многозадачность нашей команды. Мои 8 щупалец представляют различные направления работы, а 3 сердца обеспечивают высокую эффективность. Отсутствие скелета позволяет гибко адаптироваться к изменениям, а более 1000 рецепторов на щупальцах помогают мне воспринимать малейшие колебания в окружении.

Я способен погружаться глубоко в изучение вопросов, что помогает развиваться и искать новые решения. Подписывайтесь на обновления, и давайте вместе исследовать мир технологий!

Теги:
Всего голосов 4: ↑2 и ↓2+3
Комментарии0

Где используется машинное обучение? Примеры использования машинного обучения - на картинке ниже.

Тут писала про бесплатные курсы, которые мне понравились и я рекомендую.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Как Duolingo добилась успеха на рынке и причем тут аналитика

Duolingo — одно из самых популярных приложений для изучения языков (№1 по скачиванию в магазинах приложений). Вместо скучных уроков оно напоминает игру: прогресс, уровни, награды, упражнения мини-игры и др.

По данным компании, около 34 млн. человек используют Duolingo каждый день.

Но что стоит за этим успехом?

Один из ключевых принципов компании — "Тестируй всё". Постоянные эксперименты помогают Duolingo улучшать процесс обучения и находить новые решения для роста.

В любой момент в Duolingo могут проводиться несколько сотен A/B тестов одновременно. Экспериментируют со всем: от мелких изменений интерфейса до запуска крупных функций, как Лидерборды. Для A/B тестирования компания разработала собственный сервис.

➡ Как выглядят эксперименты в Duolingo: статья.

➡ Пример A/B тестирования: формирование привычки учиться регулярно: статья.

➡ Какие аналитические инструменты использует компания для анализа данных: статья.

О других принципах успеха Duolingo и работе в этой компании писала тут.

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Data Ocean Nova. Next-gen платформа данных класса Lakehouse.

Что такое Data Ocean Nova? Ответ — в партнерском материале технического идеолога платформы. Вы узнаете об архитектуре, системе хранения данных, возможностях управления ресурсами и других особенностях решения, благодаря которым Data Ocean Nova стала одним из технологических лидеров рынка больших данных.

Читайте по ссылке

Data Lakehouse (Gemeni AI Generated)
Data Lakehouse (Gemeni AI Generated)

Теги:
Всего голосов 3: ↑3 и ↓0+5
Комментарии0

GenAI в 2024 году — важный двигатель рынка и возможность продемонстрировать лидерство

Узнайте о передовых инженерных подходах и лучших практиках от лидеров отрасли на GenAI Meetup от МегаФона, который пройдет 17 октября в головном офисе компании в Москве

MeetUP делится на два блока:
1️⃣ Технологии и 2️⃣ Бизнес. Мы ждем специалистов обоих треков!

А вас ждут:

🟢выступления практикующих AI-инженеров
🟢инструменты создания GenAI-приложений
🟢актуальные стратегии на рынке и реальные кейсы МегаФона, Яндекс Крауд, JSA Group и SberDevices

Узнать расписание и зарегистрироваться

Количество мест ограничено!

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Хабр, привет!

Зовём вас встретиться и поговорить про Data Build Tool.

8 октября, то есть завтра вечером, соберёмся с Николаем Марковым, Data Platform Lead в Altenar, и Евгением Ермаковым, руководителем платформы данных в Toloka, и вместе обсудим:

➡ Как управлять жизненным циклом данных в мире победившего Modern Data Stack?
➡ Могут ли современные инструменты преобразить процесс Data Governance и сделать его простым и быстрым?
➡ Как разные компании и команды применяют DBT для решения задач Data Governance?

Поговорим про особенности DBT, его преимущества, потенциальные сложности и ограничения, а также — про реальный опыт использования DBT в Toloka.

⭐ Когда: завтра, 8 октября в 19:00 мск
⭐ Регистрация — через бота.

Приходите!

Теги:
Всего голосов 3: ↑2 и ↓1+3
Комментарии1

Больше чем Pandas: библиотеки подготовки данных для ML-моделей

А завтра, 24 сентября, зовём вас на открытый вебинар с Владимиром Бугаевским, тимлидом команды Поиска в Купере.

Встретимся и вместе разберём:

→ на что стоит обратить внимание для эффективной работы с данными;
→ форматы работы с данными и их особенности;
→ фреймворки pandas, swifter, polars, dask и cudf.

Будем не только слушать, но сразу ещё и делать — для этого все участники получат доступ к jupyter-ноутбукам.

🖍 24 сентября в 19:00 мск
🖍 Регистрация — в нашем боте

Приходите!

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0
Где поучиться BI этой осенью бесплатно
Где поучиться BI этой осенью бесплатно

Сентябрь в самом разгаре! Последние теплые дни четвертого месяца лета. То самое время, когда на улице жарко, а в цифровом пространстве всё просто кипит! Сегодня небольшой информационный пост о том, где можно сейчас бесплатно поучиться премудростям BI.

  1. Пиксы запустили Цифровой триатлон. Каждую неделю идет трек по одной из платформ. На этой неделе экватор по PIX BI. Много экспертов, много мнений, весь контент очень сильно связан с ex Qlik тусовкой. Клиенты, эксперты, организаторы - все когда то занимались, внедряли, обучали Qlik. Такое импортозамещение даже получается. https://triathlon.pix.ru Информацию кидают в группу в телеге: https://t.me/BI_PIX_Chat Плюс компания анонсировала БЕСПЛАТНУЮ персональную редакцию своей платформы. Надеемся это не разводняк! 

  2. Коллеги из Глобайт привезли Азиатский вариант марафона. Ретрит по теме Fine Bi. Вся информационная поддержка идет в группе https://t.me/FineBIChat в разбивке по темам. Много интересного, новые фичи, опыт клиентов. Классика марафонов от Дата Йога.

  3. AW запустили на наш взгляд тяжелую, но очень интересную историю для конкретной группы продвинутых аналитиков. Все подробности в группе https://t.me/awcommunity такой марафон, который перетекает в хакатон и заканчивается собственной конференцией в Москве. 

Отличная возможность попробовать три разных блюда, не выходя из дома! Вперед к новым знаниям!

Теги:
Всего голосов 2: ↑1 и ↓1+2
Комментарии0

Ближайшие события

Чем занимается BI в финтехе

Привет, меня зовут Саша Матвеев, я руковожу департаментом аналитики данных в ЮMoney. Кратко расскажу о трёх наших самых крупных ML-проектах.👌

В чём между ними разница? ↓
В чём между ними разница?

BI-разработчик занимается поставкой данных как IT-cервис. Он предоставляет данные, доступные для анализа и упакованные в аналитические продукты. Аналитик данных извлекает смыслы из данных, полученных от BI-разработчиков, и обрабатывает их.

Наши ML-проекты:

●  Прогноз LTV кошельков. В продуктовой аналитике есть важный показатель — LTV: сколько денег принесёт пользователь за всё время, пока пользуется продуктом. Мы стараемся понять это как можно раньше — на основе нескольких месяцев использования предсказываем, сколько дохода принесёт пользователь за один и два года. Это помогает определить, какой пользователь перед нами, и принимать решения.

●  Предсказание оттока кошельков и мерчантов. Иногда пользователи «замирают» — не делают никаких действий после того, как завели кошелёк или подключили магазин к ЮKassa. BI помогает продуктовым командам спрогнозировать поведение таких пользователей.

●  Классификация сайта мерчанта при бординге в ЮKassa. К ЮKassa ежедневно подключаются новые магазины (мерчанты), а наши менеджеры решают, к какой категории их отнести. Чтобы ускорить выход всех магазинов в платежи, нам нужен был      механизм, который может определить группу мерчанта без участия менеджера. Команда BI создала ML-классификатор, который умеет делать это быстро, что позволяет магазинам быстрее подключаться к ЮKassa.

Теги:
Всего голосов 3: ↑2 и ↓1+5
Комментарии0

Этой осенью Okko приглашает тебя провести вечер в компании экспертов в области работы с данными в развлекательных продуктах и сервисах: KION, Иви, START и ВК Музыка. Митап пройдет в гибридном формате: офлайн в Stand Up Store и онлайн.

https://okko-2024.timepad.ru/event/3010295/

Теги:
Всего голосов 3: ↑3 и ↓0+5
Комментарии0

Простой способ конвертации файлов JSON в CSV через Python

Для конвертации файлов JSON в CSV через Python существует удобный способ с использованием библиотеки pandas.

Если у вас еще не установлена библиотека pandas, установите ее с помощью pip:

pip install pandas

Далее напишем функцию, которая будет принимать на вход путь к JSON файлу и имя выходного CSV файла. Эта функция выполнит преобразование с помощью pandas.

import pandas as pd


def json_to_csv(input_file, output_file):
    try:
        # Прочитайте JSON файл в DataFrame
        df = pd.read_json(input_file)
        
        # Сохраните DataFrame в CSV файл с кодировкой UTF-8
        df.to_csv(output_file, index=False, encoding='utf-8')
        print(f"JSON файл успешно преобразован в CSV и сохранен как {output_file}")
    except Exception as e:
        print(f"Произошла ошибка при преобразовании: {e}")

        
# Пример использования функции
json_to_csv('input.json', 'output.csv')

Теперь, вызвав функцию json_to_csv с нужными параметрами, вы сможете легко преобразовать JSON файл в CSV файл.

Если вам была полезна эта информация, подписывайтесь, ставьте лайки и оставляйте комментарии!

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии1

Приглашаем на новый бесплатный вебинар «Обработка потоков данных».

На вебинаре рассмотрим вопросы, связанные с созданием и обработкой потоков данных. А также познакомимся с Kafka и Spark Structured Streaming.

📅 Дата: 18.07.2024

⏰ Время: 17:00-19:30 (Мск)

На вебинаре:

✔️ Знакомство с Kafka

✔️ Передача сообщений

✔️ Чтение сообщений

✔️ Spark Structured Streaming

✔️ Окна в потоке

✔️ Соединения потоков 

✔️ Контроль времени

👨‍🎓 Спикер: Заигрин Вадим — опытный специалист  в области BigData.

⚡️Зарегистрироваться на вебинар⚡️

Вебинар относится к курсу «Современные подходы к управлению данными». Курс представляет обзор современных способов хранения данных, в том числе хранилищ ключ-значение, документно-ориентированных и потоковых систем управления базами данных, систем распределенного хранения и обработки данных. 

Старт новой группы — 5 августа. Оставить заявку на обучение можно по ссылке.

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

💬 Привет всем, давно меня не было в уличных гонках! Кстати у меня есть телеграм канал, а вчера вышла статья на Хабр про графы в рексисе. Сегодня я хочу поделиться с вами подборкой книг, которые читал или читаю сам в течении последних 3 месяцец. Приятного чтения!

➡️ Recommender System Handbook Third Edition - Francesco Ricci, Lior Rokach, Bracha Shapira.
Эта книга – настоящая библия для всех, кто хочет понять, как работают рекомендательные системы. Авторы раскрывают все аспекты, от базовых алгоритмов до продвинутых техник, делая ее незаменимой как для новичков, так и для опытных профессионалов.

➡️ Machine Learning System Design Interview - Ali Aminian, Alex Xu.
Если вы готовитесь к интервью на позицию RecSys ML-инженера, то эта книга – ваш верный спутник. В ней собраны ключевые концепции и вопросы, которые помогут вам набрать базовое понимание по дизайну рекомендаций или поиска.

➡️ Machine Learning System Design With end-to-end examples - Valerii Babushkin, Arseny Kravchenko.
Практическое руководство, полное примеров от начала до конца, поможет вам научиться строить системы машинного обучения, особенно спасибо авторам за дизайн документы, которые я так люблю.

➡️ The Minimum Description Length Principle - Peter D Grunwald.
Эта книга глубоко погружает в теорию минимальной длины, который играет важную роль в статистическом моделировании и машинном обучении. Если вы любите копаться в основах и понять почему вообще машинное обучение работает — welcome.

Теги:
Всего голосов 2: ↑1 и ↓1+2
Комментарии0

Развертывание локальной версии нейросети LLaMA с использованием Docker

Привет! В этом руководстве я покажу, как в несколько команд развернуть локальную версию нейросети LLaMA на вашем компьютере или сервере (работает на Windows, macOS и любых дистрибутивах Linux).

Шаг 1: Установка Docker

Для начала, установите Docker. Новичкам рекомендуется установить Docker Desktop.

Шаг 2: Запуск Docker контейнера

Откройте консоль и выполните следующую команду:

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Эта команда развернет локальный образ llama, который будет работать исключительно на вашем процессоре. Также существует вариант использования Nvidia GPU, с инструкциями можно ознакомиться здесь.

Шаг 3: Запуск языковой модели

Для запуска самой модели выполните команду:

docker exec -it ollama ollama run llama3:8b

Эта команда загрузит и запустит языковую модель llama3:8b (4.7GB). Также доступна более крупная версия llama3, 70b (40GB). Вы можете запускать и другие модели, список которых доступен здесь.

Чтобы запустить другую модель, используйте команду:

docker exec -it ollama ollama run model_name:tag

Интеграция в проекты

Использование языковой модели в таком формате может показаться неудобным. Более интересно интегрировать ее в свои проекты, например, в Telegram-бота с использованием Python.

Если вам интересно, как это сделать, подписывайтесь на меня. В следующем посте я покажу, как использовать локальную нейросеть (llama3) в Python проектах, включая создание Telegram-бота.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Как ИИ-помощники захватывают мир.

Помните, как на прошедшем в мае Google I/O 2024 не было представлено ни одного нового устройства? Основной темой стал ИИ от Google – Gemini, мультимодальная LLM, эволюционировавшая из Bard.

И вот вышла новость: появление в сервисах от Google чат-бота на базе Gemini.

Российские сервисы не отстают от "корпорации добра".

У Яндекса подобный ассистент уже встроен в браузер и доступен всем желающим, зовется Нейро. Базируется на базе YaGPT2, который уже интегрирован в Алису, и скоро будет присутствовать во всех сервисах ИТ-гиганта.

Ключевой тренд – отказ от классических поисковиков, как устаревшего интерфейса взаимодействия с конечным пользователем, и полное его замещение интеллектуальным помощником по любым вопросам: от поиска информации, генерации мыслей, картинок до взаимодействия с физическим миром. IoT, умные устройства, заказы\доставки еды, такси, билетов.

Как все это повлияет на энтерпрайз-сегмент?

Cвязь вполне очевидная: популяризация носимых устройств и ассистентов в решении различных бытовых задач неминуемо создаст потребность в аналогичных сервисах и для решения рабочих вопросов.

Цифровые помощники грядут, и совсем скоро решения бизнес-задач на базе ИИ будут такими же обыденными, как оплата покупок по лицу. 

Ряд таких решений завтрашнего дня доступны уже сегодня. Об одним из них, умном BI-ассистенте, поговорим 4 июля на вебинаре “Сокращаем путь от данных к бизнес-решениям до секунд”.

Зарегистрироваться можно тут.

Теги:
Всего голосов 6: ↑4 и ↓2+4
Комментарии0

Вклад авторов