Как стать автором
Обновить
87.19

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Порог рейтинга
Уровень сложности

Кто, как и зачем внедряет Gen AI в 2025: опыт 100 CIO

Время на прочтение13 мин
Количество просмотров107

Чуть больше года назад мы выделили 16 ключевых изменений в том, как компании подходили к разработке и закупке генеративных ИИ. С тех пор ландшафт продолжил стремительно эволюционировать, поэтому мы снова провели беседы с более чем двумя десятками корпоративных заказчиков и опросили 100 CIO из 15 отраслей, чтобы помочь фаундерам понять, как в 2025 в корпорациях используют, приобретают и закладывают бюджеты под generative AI.

Даже в такой динамичной сфере, где единственная постоянная — это перемены, структура рынка genAI изменилась куда сильнее, чем мы ожидали после прошлого исследования.

Читать далее

Новости

Как нейросетям перестать бояться и полюбить «синтетику»

Время на прочтение8 мин
Количество просмотров247

LLM требуют все больше данных для обучения, но обучаться постепенно становится не на чем: аппетиты ИИ-систем превосходят возможности человечества по генерации контента, к тому же использовать реальные данные в одних случаях дорого, в других — не очень-то законно.

Спасти ситуацию может «синтетика», но и с ней не все гладко. Мы в beeline cloud решили разобраться, какие риски несут в себе подобные датасеты, что такое «ML-аутофагия» и как с ней борются разработчики LLM.

Читать далее

Мой ответ Андрею Карпаты или зачем нам Когнитивный Инженер

Время на прочтение5 мин
Количество просмотров587

Недавний тезис Андрея Карпаты о замене термина prompt engineer на context engineer получил широкую поддержку в профессиональной среде. Действительно, промпт это лишь малая часть взаимодействия с LLM: краткая инструкция, команда или запрос. А вот построение контекста, в который этот промпт попадает, уже куда более сложная инженерная задача.

Читать далее

Джейлбрейкаем чатботы: ChatGPT без фильтров

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров3.1K

Привет! Сегодня мы копнём в одну из самых спорных и недооценённых тем в мире ИИ — джейлбрейки чатботов. То самое, что позволяет убрать встроенные тормоза и меньше читать “I'm sorry, I cannot help with that” и заставить чатбот говорить с вами как с взрослым человеком, а не как корпоративный душнила.

Читать далее

Локальный чатбот без ограничений: гайд по LM Studio и открытым LLM

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров12K

В этой статье мы не только установим локальный (и бесплатный) аналог ChatGPT, но и сделаем обзор нескольких открытых LLM, разберёмся в продвинутых настройках LM Studio, подключим чатбота к Visual Studio Code и научим его помогать нам в программировании. А ещё мы посмотрим, как можно тонко настраивать поведение модели с помощью системных промптов.

Читать далее

Малоиспользуемые возможности ES: векторный поиск

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров939

Всем привет! Хочу поделиться опытом применения одной из редко используемых, но полезных функций Elasticsearch, которую успешно применили в одном из проектов. Речь пойдет о векторном поиске...

Читать далее

Регулярная отчетность. Цифры решают все

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров451

В послевоенное советское время убивали словом, по крайней мере, так было принято в кругу друзей прекрасного поэта Шефнера. Никакой крамолы, но это только полуправда: в Люблино уже тогда куда больше ценилась финка за голенищем, но оставим былое.

Как говорят нам опытные инфоцыгане коучи в модно-стильно-молодежно снятых роликах на YouTube RuTube — сейчас время data driven подхода! А значит убивают нынче цифрой. Я, если кому-то интересно, предпочитаю, семерку, она более всего походит на старый добрый мушкет или, на крайний случай, серп.

Шутки в сторону. В современном мире, когда каждая наша «улыбка» — не более чем поток единиц и нулей, который позволяет системе распознавания лиц списать с нас 67 рублей за проезд, цифры, действительно, определяют многое. Раньше обидным было слышать про небольшой размер достоинства, теперь, у топ-менеджмента корпораций досаду, гнев и злость вызывать маленькая EBITDA или ROI. О времена! О нравы! Да простит меня Александр Сергеевич.

10 лет назад я впервые познал силу цифр. До того момента я думал, что аналитика — это красивые отчеты, за которые платят много денег западным консалтинговым компаниям ради имиджа. Функциональное назначение трудов PWC, Mckinsey и прочих сильных мира сего ограничивалось следующим: орудие для удара по голове нерадивому сотруднику, оконный ограничитель летом в душном офисе, ну и, конечно, подставка под шатающийся стул. Все. То есть совсем все. Ни разу не видел, чтобы кто-то открыл их для того, чтобы принять какое-то важное решение, по крайней мере, так не везло мне. Творцы этих шедевров: несчастные стажеры, дизайнеры и прочие ребята в красивых костюмах с очень утомленными лицами и натянутыми улыбками, за которые тогда хотя бы не списывали деньги, сами в кулуарах признавали тщетность своих мук. Впрочем, это не мешало им продолжать ночами повторять сизифов труд, чтобы потом потратить заработанное на волшебные таблетки самого разного цвета и магических свойств.

Читать далее

Прокачаться в data science: блоги и каналы

Время на прочтение7 мин
Количество просмотров4.2K

Делимся блогами, посвященными машинному обучению и data science. Материалы от практикующих дата-сайентистов, программистов, физиков и биоинформатиков будут интересны как начинающим, так и «прожженным» специалистам.

Читать далее

Вселенная OpenAI: полный путеводитель по семейству моделей GPT в 2025 году

Время на прочтение11 мин
Количество просмотров2.4K

(версия статьи актуальна на 26 июня 2025 года)

OpenAI за несколько лет превратила ChatGPT из экспериментального проекта в полноценного цифрового помощника, который умеет не только писать тексты, но и думать, видеть, слышать и даже спорить. Это стало настоящим поворотным моментом в истории ИИ и индустрия вошла в новый цикл развития. Появились тысячи приложений на базе LLM, десятки компаний сменили стратегию, а работа с языковыми моделями стала повседневной реальностью.

Новые версии выходят регулярно, и если вы чувствуете себя потерянными в этом потоке, то вы не одиноки. Мы специально подготовили этот материал, чтобы рассказать обо всех ключевых GPT-моделях и сопутствующих инструментов OpenAI, чем они отличаются и какую из них выбрать для своих задач.

Читать далее

HPE построит самый мощный суперкомпьютер в Южной Корее

Время на прочтение6 мин
Количество просмотров537

Южная Корея запускает KISTI-6 — самый мощный суперкомпьютер в стране. В качестве подрядчика Корейский институт научной и технической информации (KISTI) выбрал Hewlett Packard Enterprise (HPE).

Компания возьмет на себя строительство шестого по счёту кластера KISTI, получившего название KISTI-6. Он станет самым мощным суперкомпьютером в Южной Корее с передовой системой безвентиляторного прямого жидкостного охлаждения. 

Применение данной технологии обеспечит плотность размещения, эффективность и устойчивость системы на новом уровне.

Читать далее

Обнаружение дронов (БПЛА) с использованием ИИ и компьютерного зрения

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров5.2K

Обнаружение дронов (БПЛА) object-detection с использованием ИИ YOLOv12 и компьютерного зрения OpenCV.

Читать далее

СТЦ продолжает открывать мир с орбиты

Время на прочтение1 мин
Количество просмотров1.1K

Любителям космического контента посвящается – делимся новой порцией фотографий, сделанными нашими кубсатами III пусковой кампании. В этот раз в фокусе 12-юнитового МКА оказались такие мировые столицы, как Нью-Йорк, Париж и Брюссель.

Читать далее

Как мы создали систему раннего предупреждения импульсивных торговых решений: опыт отдела Rapid и Лаборатории инноваций

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров1.8K

Система раннего предупреждения импульсивных торговых решений

🚨 Как машинное обучение помогает предотвратить эмоциональные ошибки в трейдинге

Импульсивные решения — главный враг трейдера. Эмоциональные сделки, увеличение позиций после потерь, торговля в ночное время — все это приводит к убыткам даже у опытных участников рынка.

В этой статье я расскажу, как с помощью анализа данных и машинного обучения создать систему, которая заранее предупреждает о высоком риске принятия импульсивного решения.

Что вы узнаете:
• Какие поведенческие паттерны выдают склонность к импульсивным решениям
• Как XGBoost и логистическая регрессия помогают выявить "группы риска"
• Практические рекомендации по внедрению системы предупреждений
• Реальные результаты анализа данных 1000+ трейдеров

Ключевые находки:

88% точность предсказания импульсивных решений

5 основных факторов риска, которые можно отслеживать автоматически

Снижение убыточных сделок на 23% при использовании системы

Статья будет полезна как начинающим трейдерам, так и разработчикам торговых систем. Все графики, код и методология — в открытом доступе.

#машинноеобучение #трейдинг #анализданных #финтех #python #xgboost

Читать далее

Ближайшие события

Простые вещи, которых я не знаю: юнит-тесты

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров7.1K

В этом топике я не пытаюсь доказать, что тесты бесполезны. Это скорее мои размышления вслух и личная попытка нащупать их реальную ценность. Некоторые идеи в процессе всё-таки зацепили - но скорее как частные случаи, а не что-то универсальное.

Я программирую уже больше шести лет. На самом деле существенно больше (на свой первый аутсорс на PHP я попал примерно в 2016 году), но осознанно подходить к своей карьере я начал не сразу. За это время я вполне успешно поработал в довольно разных местах, от маленьких стартапов до международных компаний.

Недавно я проходил очередное собеседование, и на мой взгляд я неплохо держался. Как минимум до вопроса о том, как я покрываю свой код тестами. После него я стыдливо пробормотал о том, что знаю, как работает assert в python, и даже слышал про pytest. И что я с радостью начну писать тесты как только попаду к ним на проект, просто в наших проектах их не требовали. После чего мы плавно перешли к следующей теме, а оффер я так и не получил.

Пришлось разбираться, что я делаю не так

MCP и будущее AI: что стоит знать сегодня, чтобы не отстать завтра

Время на прочтение11 мин
Количество просмотров6.1K

С тех пор как OpenAI внедрила функцию function calling в 2023 году, я всё чаще задумываюсь о том, что потребуется, чтобы по-настоящему разблокировать экосистему агентов и инструментов. По мере того как базовые модели становятся всё более интеллектуальными, возможности агентов взаимодействовать с внешними инструментами, данными и API всё больше фрагментируются: разработчики вынуждены реализовывать агентов с индивидуальной бизнес-логикой под каждую отдельную систему, в которой агент работает или с которой интегрируется.

Очевидно, что необходим единый стандартный интерфейс для исполнения, извлечения данных и вызова инструментов. API стали первым универсальным стандартом для Интернета — общим языком, с помощью которого взаимодействуют программные системы. Но у AI-моделей до сих пор нет эквивалента такого унифицированного протокола.

Model Context Protocol (MCP), представленный в ноябре 2024 года, привлек большое внимание в сообществе разработчиков и AI-энтузиастов как потенциальное решение этой проблемы. В этой статье мы разберем, что такое MCP, как он меняет способ взаимодействия AI с инструментами, что уже создают разработчики на его основе и какие задачи еще предстоит решить.

Поехали.

Читать далее

Jay Knowledge Hub: от прототипа до промышленного PaaS создания баз знаний полного цикла

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров726

Привет, Хабр! Меня зовут Никита, я руководитель команды разработки умного поиска на основе генеративного AI в Just AI. В этой статье я расскажу о нашем опыте в умный поиск — как от mvp RAG-сервиса для Q&A бота нашей службы поддержки мы пришли к облачной платформе Jay Knowledge Hub (сокращенно KHUB), которая помогает нашим клиентам автоматизировать поиск по различным источникам знаний.

Читать далее

«Облачные хранилища: как выбрать идеальное решение для бизнеса» (1 часть)

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.7K

В июле 2023 года Gartner представил отчет «Hype Cycle for Storage and Data Protection Technologies», предсказывая, что к 2026 году объем неструктурированных данных в локальных, периферийных и публичных облаках крупных предприятий вырастет в три раза!

Читать далее

Путь к современному MDM на примере клиентского домена данных

Время на прочтение6 мин
Количество просмотров969

Путь к современному MDM на примере клиентского домена данных

Привет, Хабр! На связи команда российского вендора Data Sapience. Наши специалисты в течение многих лет занимались внедрением и адаптацией различных ИТ-решений, в том числе MDM-систем: как российских, так и зарубежных. Объединив накопленные знания, мы выпустили собственный высокопроизводительный мультидоменный продукт Data Ocean Governance MDM

Data Sapience стремилась сделать Data Ocean Governance MDM гибким, комфортным и производительным решением, поэтому внимательно изучала рынок и его потребности. Сегодня хотим поделиться с вами результатами анализа и порассуждать, зачем MDM-решения нужны современному бизнесу, какую роль они выполняют и какие задачи закрывают на примере клиентского домена данных.

Читать далее

Как настроить ежедневный алертинг по маркетинговым метрикам с помощью SQL

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2K

Привет, Хабр! На связи Антон Прыгин, аналитик данных в Garage Eight. Расскажу, как с помощью простых SQL-запросов и базовых математических методов получилось построить систему ежедневного мониторинга и алертинга маркетинговых метрик, которая работает в связке с таск-трекером.

Погнали

Как мы сделали полезным крупнейший русскоязычный датасет запросов к LLM

Время на прочтение4 мин
Количество просмотров2.3K

Привет! Меня зовут Роман Куцев, я основатель LLM Arena. У нас каждый день сотни людей общаются с языковыми моделями, тестируют, сравнивают, задают вопросы. В какой-то момент стало ясно: в этих логах — не просто сессии пользователей. Это — живая картина того, как люди используют LLM в реальности.

Так родилась идея: собрать открытый, структурированный датасет промптов и дать AI-комьюнити инструмент, с которым можно не просто смотреть, но и исследовать, фильтровать, понимать логику запросов юзеров к LLM. 

Изучая Arena Explorer от LMSYS, мы сначала хотели взять их путь за основу. Но быстро стало понятно — мы можем и должны пойти дальше. И построили систему, которая обусловлена русскоязычным контекстом, с другим уровнем прозрачности и внимания к качеству.

Читать далее
1
23 ...