Все потоки

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

FreightOne 26 июн в 10:33

Прокачаться в data science: блоги и каналы

7 мин

4.1K

Блог компании Первая грузовая компания (ПГК)Учебный процесс в ITМашинное обучение * Анализ и проектирование систем * Data Engineering *

Обзор

Делимся блогами, посвященными машинному обучению и data science. Материалы от практикующих дата-сайентистов, программистов, физиков и биоинформатиков будут интересны как начинающим, так и «прожженным» специалистам.

Читать далее

+11

kucev 26 июн в 09:25

Вселенная OpenAI: полный путеводитель по семейству моделей GPT в 2025 году

12 мин

4.3K

Машинное обучение * Искусственный интеллектData Engineering * Big Data * Data Mining *

(версия статьи актуальна на 26 июня 2025 года)

OpenAI за несколько лет превратила ChatGPT из экспериментального проекта в полноценного цифрового помощника, который умеет не только писать тексты, но и думать, видеть, слышать и даже спорить. Это стало настоящим поворотным моментом в истории ИИ и индустрия вошла в новый цикл развития. Появились тысячи приложений на базе LLM, десятки компаний сменили стратегию, а работа с языковыми моделями стала повседневной реальностью.

Новые версии выходят регулярно, и если вы чувствуете себя потерянными в этом потоке, то вы не одиноки. Мы специально подготовили этот материал, чтобы рассказать обо всех ключевых GPT-моделях и сопутствующих инструментов OpenAI, чем они отличаются и какую из них выбрать для своих задач.

Читать далее

+7

itglobalcom 25 июн в 12:14

HPE построит самый мощный суперкомпьютер в Южной Корее

6 мин

516

Блог компании ITGLOBAL.COMIT-компанииData Engineering * IT-инфраструктура *

Обзор

Южная Корея запускает KISTI-6 — самый мощный суперкомпьютер в стране. В качестве подрядчика Корейский институт научной и технической информации (KISTI) выбрал Hewlett Packard Enterprise (HPE).

Компания возьмет на себя строительство шестого по счёту кластера KISTI, получившего название KISTI-6. Он станет самым мощным суперкомпьютером в Южной Корее с передовой системой безвентиляторного прямого жидкостного охлаждения.

Применение данной технологии обеспечит плотность размещения, эффективность и устойчивость системы на новом уровне.

Читать далее

+1

ai_lab_experiments5566 25 июн в 09:16

Обнаружение дронов (БПЛА) с использованием ИИ и компьютерного зрения

Средний

8 мин

7.6K

Python * Искусственный интеллектМашинное обучение * Data Engineering * Data Mining *

Из песочницы

Обнаружение дронов (БПЛА) object-detection с использованием ИИ YOLOv12 и компьютерного зрения OpenCV.

Читать далее

+18

NITIKO 24 июн в 10:12

СТЦ продолжает открывать мир с орбиты

1 мин

1.5K

Блог компании Специальный Технологический ЦентрData Engineering * HabrКосмонавтика

Любителям космического контента посвящается – делимся новой порцией фотографий, сделанными нашими кубсатами III пусковой кампании. В этот раз в фокусе 12-юнитового МКА оказались такие мировые столицы, как Нью-Йорк, Париж и Брюссель.

Читать далее

+4

Lanun 24 июн в 09:01

Как мы создали систему раннего предупреждения импульсивных торговых решений: опыт отдела Rapid и Лаборатории инноваций

Средний

5 мин

1.8K

Блог компании MOEXData Engineering * Python * Анализ и проектирование систем * Искусственный интеллект

Система раннего предупреждения импульсивных торговых решений

🚨 Как машинное обучение помогает предотвратить эмоциональные ошибки в трейдинге

Импульсивные решения — главный враг трейдера. Эмоциональные сделки, увеличение позиций после потерь, торговля в ночное время — все это приводит к убыткам даже у опытных участников рынка.

В этой статье я расскажу, как с помощью анализа данных и машинного обучения создать систему, которая заранее предупреждает о высоком риске принятия импульсивного решения.

Что вы узнаете:
• Какие поведенческие паттерны выдают склонность к импульсивным решениям
• Как XGBoost и логистическая регрессия помогают выявить "группы риска"
• Практические рекомендации по внедрению системы предупреждений
• Реальные результаты анализа данных 1000+ трейдеров

Ключевые находки:

88% точность предсказания импульсивных решений

5 основных факторов риска, которые можно отслеживать автоматически

Снижение убыточных сделок на 23% при использовании системы

Статья будет полезна как начинающим трейдерам, так и разработчикам торговых систем. Все графики, код и методология — в открытом доступе.

#машинноеобучение #трейдинг #анализданных #финтех #python #xgboost

Читать далее

+6

absurd_logik 24 июн в 07:00

Простые вещи, которых я не знаю: юнит-тесты

Средний

10 мин

5.8K

Data Engineering * Python * Проектирование и рефакторинг * Тестирование IT-систем *

Мнение

В этом топике я не пытаюсь доказать, что тесты бесполезны. Это скорее мои размышления вслух и личная попытка нащупать их реальную ценность. Некоторые идеи в процессе всё-таки зацепили - но скорее как частные случаи, а не что-то универсальное.

Я программирую уже больше шести лет. На самом деле существенно больше (на свой первый аутсорс на PHP я попал примерно в 2016 году), но осознанно подходить к своей карьере я начал не сразу. За это время я вполне успешно поработал в довольно разных местах, от маленьких стартапов до международных компаний.

Недавно я проходил очередное собеседование, и на мой взгляд я неплохо держался. Как минимум до вопроса о том, как я покрываю свой код тестами. После него я стыдливо пробормотал о том, что знаю, как работает assert в python, и даже слышал про pytest. И что я с радостью начну писать тесты как только попаду к ним на проект, просто в наших проектах их не требовали. После чего мы плавно перешли к следующей теме, а оффер я так и не получил.

Пришлось разбираться, что я делаю не так

+3

kucev 23 июн в 11:30

MCP и будущее AI: что стоит знать сегодня, чтобы не отстать завтра

11 мин

5.5K

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

С тех пор как OpenAI внедрила функцию function calling в 2023 году, я всё чаще задумываюсь о том, что потребуется, чтобы по-настоящему разблокировать экосистему агентов и инструментов. По мере того как базовые модели становятся всё более интеллектуальными, возможности агентов взаимодействовать с внешними инструментами, данными и API всё больше фрагментируются: разработчики вынуждены реализовывать агентов с индивидуальной бизнес-логикой под каждую отдельную систему, в которой агент работает или с которой интегрируется.

Очевидно, что необходим единый стандартный интерфейс для исполнения, извлечения данных и вызова инструментов. API стали первым универсальным стандартом для Интернета — общим языком, с помощью которого взаимодействуют программные системы. Но у AI-моделей до сих пор нет эквивалента такого унифицированного протокола.

Model Context Protocol (MCP), представленный в ноябре 2024 года, привлек большое внимание в сообществе разработчиков и AI-энтузиастов как потенциальное решение этой проблемы. В этой статье мы разберем, что такое MCP, как он меняет способ взаимодействия AI с инструментами, что уже создают разработчики на его основе и какие задачи еще предстоит решить.

Поехали.

Читать далее

+6

just_ai 23 июн в 11:03

Jay Knowledge Hub: от прототипа до промышленного PaaS создания баз знаний полного цикла

Средний

10 мин

1.1K

Блог компании Just AIИскусственный интеллектData Engineering * Базы данных *

Ретроспектива

Привет, Хабр! Меня зовут Никита, я руководитель команды разработки умного поиска на основе генеративного AI в Just AI. В этой статье я расскажу о нашем опыте в умный поиск — как от mvp RAG-сервиса для Q&A бота нашей службы поддержки мы пришли к облачной платформе Jay Knowledge Hub (сокращенно KHUB), которая помогает нашим клиентам автоматизировать поиск по различным источникам знаний.

Читать далее

+7

xacneo0 21 июн в 13:16

«Облачные хранилища: как выбрать идеальное решение для бизнеса» (1 часть)

Простой

5 мин

1.6K

Data Engineering * DNS * Облачные сервисы * Серверное администрирование * Хранение данных *

Из песочницы

В июле 2023 года Gartner представил отчет «Hype Cycle for Storage and Data Protection Technologies», предсказывая, что к 2026 году объем неструктурированных данных в локальных, периферийных и публичных облаках крупных предприятий вырастет в три раза!

Читать далее

+1

elizaveta_roschina 20 июн в 12:42

Путь к современному MDM на примере клиентского домена данных

6 мин

923

Блог компании Data SapienceData Engineering * Хранение данных * Терминология ITBig Data *

Путь к современному MDM на примере клиентского домена данных

Привет, Хабр! На связи команда российского вендора Data Sapience. Наши специалисты в течение многих лет занимались внедрением и адаптацией различных ИТ-решений, в том числе MDM-систем: как российских, так и зарубежных. Объединив накопленные знания, мы выпустили собственный высокопроизводительный мультидоменный продукт Data Ocean Governance MDM.

Data Sapience стремилась сделать Data Ocean Governance MDM гибким, комфортным и производительным решением, поэтому внимательно изучала рынок и его потребности. Сегодня хотим поделиться с вами результатами анализа и порассуждать, зачем MDM-решения нужны современному бизнесу, какую роль они выполняют и какие задачи закрывают на примере клиентского домена данных.

Читать далее

0

aprygin 20 июн в 10:26

Как настроить ежедневный алертинг по маркетинговым метрикам с помощью SQL

Средний

10 мин

1.7K

Блог компании Garage EightData Engineering * SQL * Статистика в IT

Кейс

Привет, Хабр! На связи Антон Прыгин, аналитик данных в Garage Eight. Расскажу, как с помощью простых SQL-запросов и базовых математических методов получилось построить систему ежедневного мониторинга и алертинга маркетинговых метрик, которая работает в связке с таск-трекером.

+8

kucev 20 июн в 09:05

Как мы сделали полезным крупнейший русскоязычный датасет запросов к LLM

4 мин

2K

Data Engineering * Data Mining * Big Data * Машинное обучение * Искусственный интеллект

Привет! Меня зовут Роман Куцев, я основатель LLM Arena. У нас каждый день сотни людей общаются с языковыми моделями, тестируют, сравнивают, задают вопросы. В какой-то момент стало ясно: в этих логах — не просто сессии пользователей. Это — живая картина того, как люди используют LLM в реальности.

Так родилась идея: собрать открытый, структурированный датасет промптов и дать AI-комьюнити инструмент, с которым можно не просто смотреть, но и исследовать, фильтровать, понимать логику запросов юзеров к LLM.

Изучая Arena Explorer от LMSYS, мы сначала хотели взять их путь за основу. Но быстро стало понятно — мы можем и должны пойти дальше. И построили систему, которая обусловлена русскоязычным контекстом, с другим уровнем прозрачности и внимания к качеству.

Читать далее

+4

Conzol 19 июн в 13:21

Apache Airflow на практике: погружение в инструмент для оркестрации ETL-процессов

Средний

6 мин

734

Data Engineering *

Apache Airflow давно стал стандартом в мире Data Engineering благодаря своей гибкости, масштабируемости и богатой экосистеме. В этой статье мы подробно разберём, что такое Airflow, почему он так популярен, как эффективно использовать его в аналитической архитектуре, а также предоставим максимально подробную инструкцию по развертыванию Airflow.

Читать далее

0

piece-of-iron 19 июн в 07:00

Как мы решили проблему батчевых загрузок в реляционные СУБД, или Немного хорошего о «худших практиках» в Spark

11 мин

2K

Блог компании МТСBig Data * Data Engineering *

Всем привет! Меня зовут Алексей Николаев, я работаю дата-инженером в команде ETL-платформы MWS Data (ex DataOps). Часто сталкиваюсь с тем, что в сложной инфраструктуре и больших проектах простые, на первый взгляд, задачи по работе с данными очень сильно усложняются. В результате возникают ситуации, когда хорошие практики превращаются в плохие решения, а плохие практики как раз могут дать хороший результат.

Мои коллеги уже рассказывали про нашу платформу, ее внедрение внутри экосистемы и наши инструменты для работы с данными. В процессе развития продукта перед нами встала проблема массовых регламентных загрузок данных из реляционных источников. Для этого мы создали внутренний инструмент — библиотеку d-van. В качестве движка в ней используется Apache Spark, с которым она взаимодействует через библиотеку onETL. На примере d-van я покажу нестандартный подход к использованию возможностей Apache Spark. Расскажу, какие задачи можно решить с помощью режима master=local и как свой инструмент может стать альтернативой Apache Nifi или Debezium.

Читать далее

+33

Conzol 18 июн в 11:22

Коротко о ETL: как эффективно управлять потоками данных в бизнесе

Простой

3 мин

580

Data Mining * Data Engineering *

Сегодня данные являются ключевым ресурсом для любого бизнеса. Но прежде чем они превратятся в полезную информацию, пригодную для принятия решений, данные проходят длительный и многоступенчатый путь — от извлечения до представления конечному пользователю. Именно этот процесс получил название ETL (Extract, Transform, Load).

Процесс ETL включает:

Читать далее

-1

GiantLynx 18 июн в 09:22

Как обучают ИИ: без формул, но с котами

Простой

10 мин

7.5K

Машинное обучение * Искусственный интеллектИстория ITData Engineering * Научно-популярное

Туториал

В этой статье — без воды, трюизмов, академизмов и формул — разберёмся, в чём принципиальное отличие машинного обучения (ML) от до-ИИ программирования, а затем генеративного ИИ от классических моделей машинного обучения (ML). Поговорим о типах генеративных моделей, их архитектуре и областях применения.
Заодно затронем важный вопрос: где проходит граница между классическим программированием и вероятностным творчеством, на котором построены современные нейросети.
Статья ориентирована прежде всего на тех, кто делает первые шаги в ИИ, но если ты начинающий ML-инженер, архитектор ИИ-приложений, основатель стартапа или просто хочешь разобраться, что на самом деле происходит под капотом у ChatGPT и Midjourney — ты, скорее всего, найдёшь здесь для себя что-то полезное.

Читать далее

+31

alfredlao 15 июн в 05:33

Агенты. Деньги. Бизнес и Работа

Простой

6 мин

609

Информационная безопасность * IT-компанииData Engineering * Искусственный интеллектНаучно-популярное

Дайджест

По материалам Fast Company, Venture Beat, CIO, NY Times, New Scientist, Wired, McKinsey и других ресурсов. Минимум булшита, максимум инсайтов.

Решается судьба будущего интернета: станет ли он открытым пространством для всех или превратится в сеть закрытых экосистем, контролируемых Big Tech...

ChatGPT на пике растет со скоростью 1 000 000 пользователей за пару часов...

Читать далее

+12

Alfadc 14 июн в 07:16

Оптический бюджет в ВОЛС. Как не оступиться в эпоху 100G+ и плотных ЦОД?

6 мин

967

Data Engineering * Серверная оптимизация * Читальный залПериферияОблачные сервисы *

Из песочницы

Оптический бюджет в ВОЛС: Невидимая грань между работоспособностью и отказом. Как не оступиться в эпоху 100G+ и плотных ЦОД?

Представьте: вы спроектировали идеальную магистраль, выбрали "качественные" компоненты, смонтировали... И линк не поднимается. Или работает, но с ошибками. Или стабилен сегодня, но "падает" при нагреве летом. Часто корень зла кроется в нарушении оптического бюджета мощности (Optical Power Budget - OPB). Это не абстрактная цифра из даташита – это фундаментальный закон сохранения энергии в мире оптики. Игнорируете его – гарантируете себе головную боль. Сегодня, с ростом скоростей (100G, 400G, 800G) и плотности в ЦОД, понимание и точный расчет OPB критичны как никогда. Давайте разберемся, что это, из чего складывается, где поджидают ловушки и как избежать фатальных ошибок.

1. Суть Оптического Бюджета: Проще, Чем Кажется (На Словах)

По сути, OPB – это разница между мощностью, которую передатчик (Tx) излучает в волокно, и минимальной мощностью, необходимой приемнику (Rx) для корректной работы (чувствительностью) с учетом требуемого запаса (System Margin).

Упрощенная формула:
OPB = P_Tx_min - P_Rx_min - System_Margin

Где:

Читать далее

+1

dvgureev 13 июн в 11:48

Большой тест 12 LLM моделей на арифметику (~100 тыс запросов)

Средний

6 мин

1.4K

Data Engineering * Искусственный интеллект

Обзор

Ловушка для бизнеса: почему LLM иногда 'угадывает' математику, а потом подводит? Часто вижу, как на моих ИИ-интенсивах пытаются автоматизировать нейросетями то, что легко делается без них – например, финансовый анализ из PDF. И поначалу LLM даже выдает верные цифры! Это создает опасную иллюзию, что им можно доверять расчеты.

Поэтому решил получить конкретные значения: когда именно LLM начинает ошибаться в элементарных операциях – сложении, вычитании, умножении?

Протестировал 12 моделей на числах разной длины. Результаты – внутри и почему калькулятор все еще ваш лучший друг, когда речь идет о числах больше 4 знаков.

Читать далее

+8

1 2 ...

14

15 16 ...