Все потоки
Поиск
Написать публикацию
Обновить
95.74

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Вселенная OpenAI: полный путеводитель по семейству моделей GPT в 2025 году

Время на прочтение12 мин
Количество просмотров5K

(версия статьи актуальна на 26 июня 2025 года)

OpenAI за несколько лет превратила ChatGPT из экспериментального проекта в полноценного цифрового помощника, который умеет не только писать тексты, но и думать, видеть, слышать и даже спорить. Это стало настоящим поворотным моментом в истории ИИ и индустрия вошла в новый цикл развития. Появились тысячи приложений на базе LLM, десятки компаний сменили стратегию, а работа с языковыми моделями стала повседневной реальностью.

Новые версии выходят регулярно, и если вы чувствуете себя потерянными в этом потоке, то вы не одиноки. Мы специально подготовили этот материал, чтобы рассказать обо всех ключевых GPT-моделях и сопутствующих инструментов OpenAI, чем они отличаются и какую из них выбрать для своих задач.

Читать далее

Тестирование систем и движков массивно-параллельных вычислений. Часть II. TPC-DS

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров2.3K

Привет! Сегодня я продолжаю тему сравнения систем и движков массивных параллельных вычислений. В прошлой публикации я раскрыл основные принципы проведения тестирования, которыми руководствуется наша команда, и привел результаты как реальных промышленных сценариев, так и синтетических тестов. Материал вызвал интерес и дискуссию: значит, он актуальный и полезный. Для кого-то факты стали убедительными, а кто-то усомнился в объективности результатов, поэтому, как и было обещано, я делюсь материалами сравнительного тестирования, выполненного по общепринятому стандарту TPC-DS. Сегодня вы узнаете, повлияла ли смена методики на результаты.

Читать далее

Зачем банку ещё одна ALM-система

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров2.1K

Хабр, привет! В этой статье расскажем, как команда банка ВТБ построила собственную аналитическую систему на базе открытых технологий и с использованием решений Arenadata. Мы рассмотрим архитектуру платформы, разберём её сильные и слабые стороны, а также заглянем «под капот» — покажем, как устроены процессы внутри банка и почему ВТБ решил идти своим путём, а не использовать готовые вендорские системы.

Читать далее

Часть 1: ResNet-18 — Архитектура, покорившая глубину

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.8K

Разбор "на пальцах": Как из изображения получается предсказание? Разберем как устроена классическая сеть ResNet.

Читать далее

«Облачные хранилища: как выбрать идеальное решение для бизнеса» (2 часть)

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.5K

В первой части нашего исследования мы провели сравнительный анализ облачных хранилищ, рассматривая предложения различных провайдеров, включая крупные компании и менее известные игроки на рынке. Мы изучили ключевые аспекты, такие как уровень технической поддержки, доступные конфигурации серверов и дополнительные услуги, что позволило оценить сильные и слабые стороны различных решений в контексте конкурентной среды.

Теперь мы переходим ко второй части нашего анализа, в которой сосредоточимся на ценовой политике облачных хранилищ. Мы сравним тарифные планы различных провайдеров, чтобы выяснить, как они позиционируются на рынке с точки зрения стоимости услуг. Этот анализ поможет понять, насколько конкурентоспособны цены и как они соотносятся с качеством предоставляемых услуг.

Читать далее

База про юнит-тесты в C# на xUnit v3

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3.5K

Привет, Хабр!

Сегодня разберёмся с юнит‑тестами в C# на основе xUnit v3 — библиотеки, которая стала практически стандартом де‑факто в.NET‑среде.

Почему именно xUnit? Всё просто: его создали Джим Ньюкирк и Брэд Уилсон — разработчики NUnit. Они решили выкинуть всю архаику вроде [SetUp], [TearDown] и прочих рудиментов и построили фреймворк с нуля, строго под TDD. Весной вышла xUnit v3 2.0.2, в которой завезли Assert.MultipleAsync, полностью обновили сериализацию. А в.NET 9 уже штатно продвигается Microsoft.Testing.Platform (MTP) — сверхлёгкий тестовый рантайм, с которым xUnit v3 работает прямо из коробки. Короче говоря, это самый нативный выбор под.NET 9 на сегодня.

Читать далее

MCP и будущее AI: что стоит знать сегодня, чтобы не отстать завтра

Время на прочтение11 мин
Количество просмотров8.2K

С тех пор как OpenAI внедрила функцию function calling в 2023 году, я всё чаще задумываюсь о том, что потребуется, чтобы по-настоящему разблокировать экосистему агентов и инструментов. По мере того как базовые модели становятся всё более интеллектуальными, возможности агентов взаимодействовать с внешними инструментами, данными и API всё больше фрагментируются: разработчики вынуждены реализовывать агентов с индивидуальной бизнес-логикой под каждую отдельную систему, в которой агент работает или с которой интегрируется.

Очевидно, что необходим единый стандартный интерфейс для исполнения, извлечения данных и вызова инструментов. API стали первым универсальным стандартом для Интернета — общим языком, с помощью которого взаимодействуют программные системы. Но у AI-моделей до сих пор нет эквивалента такого унифицированного протокола.

Model Context Protocol (MCP), представленный в ноябре 2024 года, привлек большое внимание в сообществе разработчиков и AI-энтузиастов как потенциальное решение этой проблемы. В этой статье мы разберем, что такое MCP, как он меняет способ взаимодействия AI с инструментами, что уже создают разработчики на его основе и какие задачи еще предстоит решить.

Поехали.

Читать далее

Путь к современному MDM на примере клиентского домена данных

Время на прочтение6 мин
Количество просмотров1.2K

Путь к современному MDM на примере клиентского домена данных

Привет, Хабр! На связи команда российского вендора Data Sapience. Наши специалисты в течение многих лет занимались внедрением и адаптацией различных ИТ-решений, в том числе MDM-систем: как российских, так и зарубежных. Объединив накопленные знания, мы выпустили собственный высокопроизводительный мультидоменный продукт Data Ocean Governance MDM

Data Sapience стремилась сделать Data Ocean Governance MDM гибким, комфортным и производительным решением, поэтому внимательно изучала рынок и его потребности. Сегодня хотим поделиться с вами результатами анализа и порассуждать, зачем MDM-решения нужны современному бизнесу, какую роль они выполняют и какие задачи закрывают на примере клиентского домена данных.

Читать далее

Как мы сделали полезным крупнейший русскоязычный датасет запросов к LLM

Время на прочтение4 мин
Количество просмотров2.6K

Привет! Меня зовут Роман Куцев, я основатель LLM Arena. У нас каждый день сотни людей общаются с языковыми моделями, тестируют, сравнивают, задают вопросы. В какой-то момент стало ясно: в этих логах — не просто сессии пользователей. Это — живая картина того, как люди используют LLM в реальности.

Так родилась идея: собрать открытый, структурированный датасет промптов и дать AI-комьюнити инструмент, с которым можно не просто смотреть, но и исследовать, фильтровать, понимать логику запросов юзеров к LLM. 

Изучая Arena Explorer от LMSYS, мы сначала хотели взять их путь за основу. Но быстро стало понятно — мы можем и должны пойти дальше. И построили систему, которая обусловлена русскоязычным контекстом, с другим уровнем прозрачности и внимания к качеству.

Читать далее

Как мы решили проблему батчевых загрузок в реляционные СУБД, или Немного хорошего о «худших практиках» в Spark

Время на прочтение11 мин
Количество просмотров2.7K

Всем привет! Меня зовут Алексей Николаев, я работаю дата-инженером в команде ETL-платформы MWS Data (ex DataOps). Часто сталкиваюсь с тем, что в сложной инфраструктуре и больших проектах простые, на первый взгляд, задачи по работе с данными очень сильно усложняются. В результате возникают ситуации, когда хорошие практики превращаются в плохие решения, а плохие практики как раз могут дать хороший результат.

Мои коллеги уже рассказывали про нашу платформу, ее внедрение внутри экосистемы и наши инструменты для работы с данными. В процессе развития продукта перед нами встала проблема массовых регламентных загрузок данных из реляционных источников. Для этого мы создали внутренний инструмент — библиотеку d-van. В качестве движка в ней используется Apache Spark, с которым она взаимодействует через библиотеку onETL. На примере d-van я покажу нестандартный подход к использованию возможностей Apache Spark. Расскажу, какие задачи можно решить с помощью режима master=local и как свой инструмент может стать альтернативой Apache Nifi или Debezium.

Читать далее

Вселенная на ладони: крупнейший релиз данных JWST открывает космос для всех

Время на прочтение5 мин
Количество просмотров1.9K

В июне 2025 года астрономы всего мира получили доступ к огромному массиву данных от телескопа Джеймс Уэбб (JWST). Проект COSMOS-Web, поддерживаемый NASA, выложил в открытый доступ 1,5 терабайта информации со снимками, фотометрическими каталогами и интерактивными инструментами для изучения глубокого космоса. Open-source-модель исследований, которая лежит в основе проекта, обещает «сделать звезды ближе» для всех нас. Разберемся, что это за данные, почему они важны и как меняют подход к науке.

Читать далее

Обнаружение аномалий в данных временных рядов с помощью статистического анализа

Уровень сложностиПростой
Время на прочтение20 мин
Количество просмотров6.3K

Настройка оповещений для различных метрик не всегда представляет из себя тривиальную задачу. В некоторых случаях может быть вполне достаточно простого порогового значения, например, для отслеживания свободного места на диске устройства. Вы можете просто установить оповещение о том, что осталось 10% свободного места, и все готово. То же самое касается и мониторинга доступной памяти на сервере.

Однако что делать, если необходимо отслеживать поведение пользователей на веб‑сайте? Представьте, что вы управляете интернет‑магазином, где продаете товары. Одним из подходов может быть установка минимального порога для ежедневных продаж и проверка его раз в день. Но что, если вам нужно выявить проблему гораздо раньше, в течение нескольких часов или даже минут? Статичный порог не позволит этого сделать, так как активность пользователей может меняться в течение дня. Именно здесь на помощь приходит обнаружение аномалий.

Читать далее

5 техник, применяемых в анализе временных рядов, которые должен знать каждый. Часть 1

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров7.1K

В этом руководстве мы будем разбираться, как повысить качество прогнозирования с помощью машинного обучения, используя точные методы разделения данных, перекрестную проверку временных рядов, конструирование признаков и многое другое.

Читать далее

Ближайшие события

Управление обувным заводом: от аналогии с автомобилем к рекомендательной системе на основе ИИ

Время на прочтение4 мин
Количество просмотров651

В предыдущей статье мы сравнили управление производством с управлением автомобилем. Сегодня углубимся в детали и покажем, как настроить рекомендательную систему на примере обувного производства. Основными выгодоприобретателями будут начальник цеха и мастер участка.

Читать далее

5 техник, применяемых в анализе временных рядов, которые должен знать каждый. Часть 2

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров6.9K

В отличие от традиционных наборов данных, где объекты часто остаются статичными, данные временных рядов  обладают уникальными временными паттернами, которые необходимо использовать для извлечения значимых признаков.

В этом разделе мы рассмотрим некоторые из наиболее эффективных методов.

Читать далее

Витрина данных: сверка с эталоном

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров1.6K

Одним из этапов разработки витрин данных является тестирование результата и подтверждение корректности разработанного функционала. При этом организовано тестирование может быть по-разному.

Определим несколько видов тестирования:

1.     Технические тесты

Техническими тестами легко можно проверить корректность сборки витрины. Из основных видов технических тестов можно выделить:

·       Дубли - проверка на наличие дублей по ключу

·       Разрывы - проверка на разрывы в истории

·       Перекосы - проверка наложения исторических записей друг на друга

·       Даты - проверка корректности формирования дат

·       NULL в ключе - проверка NULL в ключевых и обязательных к заполнению полях

Подробно на этих тестах останавливаться не будем, информация по ним есть в открытом доступе.

2.     Бизнес-тесты

Это набор тестовых запросов, направленных на выявление ошибок в бизнес-данных. Как правило набор бизнес-тестов предоставляет владелец объекта.

Бизнес-тестов может быть великое множество, здесь все зависит от вашего бизнес-домена и от конкретных требований к витрине.

Приведу примеры некоторых бизнес-тестов:

Читать далее

Новые векторные СУБД и другие инструменты для эмбеддингов и RAG

Время на прочтение6 мин
Количество просмотров4.2K

Ранее в блоге beeline cloud мы рассказывали об открытых СУБД для систем ИИ. Продолжим тему и рассмотрим еще несколько находок в этой области — разносторонние инструменты, упрощающие работу с эмбеддингами, семантическим поиском и RAG.

Читать далее

Новые правила РКН: как работать с аналитикой после 1 июля 2025 года

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров5.9K

С 1 июля 2025 года вступают в силу ужесточенные требования Роскомнадзора к трансграничной передаче персональных данных. Это напрямую затрагивает цифровые продукты, использующие иностранные облачные решения для веб-аналитики и маркетинга — включая Google Analytics и Google Tag Manager (GTM).

В этой статье разбираем, как адаптироваться к новым реалиям, избежать юридических рисков и сохранить полноту цифровой аналитики.

Читать далее

Будущее доставки Amazon: гуманоидные роботы

Время на прочтение2 мин
Количество просмотров548

Amazon готовится к революции в доставке посылок, внедряя гуманоидных роботов, которые будут работать в связке с электрическими фургонами Rivian. По данным The Information, компания разрабатывает программное обеспечение на базе ИИ, которое позволит роботам выполнять функции курьеров, доставляя посылки прямо к дверям клиентов. В ближайшее время Amazon планирует начать реальные испытания этой технологии в новом специализированном центре.

Согласно анонимному источнику, участвующему в проекте, Amazon почти завершил строительство «парка гуманоидов» в одном из своих офисов в Сан-Франциско. Этот испытательный полигон размером с небольшую кофейню включает полосу препятствий и один фургон Rivian для тренировок. Цель — научить гуманоидных роботов перемещаться в фургонах Amazon и оперативно доставлять посылки к месту назначения.

Этот проект сопровождается созданием новой команды Amazon по агентному ИИ, которая занимается разработкой технологий для управления роботами в распределительных и логистических центрах. В заявлении для Silicon Valley компания сообщила: «Вместо узкоспециализированных роботов мы создаем системы, способные понимать и выполнять команды на естественном языке, превращая складских роботов в универсальных помощников».

Amazon уже использует автономных роботов в своих складских операциях, включая тестирование гуманоида Digit от Agility Robotics. Этот робот изначально разрабатывался для задач вроде доставки посылок из фургона и других логистических функций. Новый тренировочный центр Amazon направлен на реализацию этой концепции. По данным The Information, в центре будут тестироваться различные модели гуманоидных роботов, включая модель стоимостью $16 000 от китайской компании Unitree.

Читать далее

Тренды 2025 года в сфере работы с данными и ИИ

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров2.6K

Привет! Меня зовут Антон Моргунов, я академический руководитель программы онлайн-магистратуры Яндекса и МИФИ «Специалист по работе с данными и применению ИИ», которая стартует в сентябре 2025 года. В этой статье я расскажу об актуальных трендах, профессиях и навыках в сфере работы с данными.

Читать далее

Вклад авторов