Articles / Bookmarks / Profile of rational / Habr

@rational

User

Profile Publications Comments 5Bookmarks 10

antipov_dmitry Jul 1 at 10:25

GigaChat + RAG: как гига нам инструкции для разметки пишет в 3 раза быстрее

Easy

6 min

3.6K

Data Mining*Big Data*Machine learning*Artificial IntelligenceData Engineering*

Case

Почти за всем хорошим ML стоят хорошие данные. И так получилось, что таких данных часто нет и их приходится добывать, а даже добыв, из них нужно сделать что-то подходящее, и (если сильно огрубить) такой процесс называется разметкой.

Разметка — такая штука, когда все в индустрии делают примерно одно и то же, но чуть-чуть или сильно по разному. Разметка — очень нудная штука сама по себе, и потому ее запуском, отладкой и настройкой инженеры заниматься вот совсем не любят. Сам процесс довольно монотонен, но когда у тебя мультимодальный конвейер из поступающих данных, то делать всяческие инструменты для разметки и предлагать инженерам решения без их участия — это весело!

Одна из наших важнейших метрик, помимо качества результата, это позаимствованный у бизнеса термин ttm (time to market), что в нашем случае — время от момента прихода клиента с идеей по момент продуманного запуска его задачи в разметку.

В этой статье — пошагово о том, как мы не только ускорили написание инструкций, но и даже попутно повысили их качество. Идея — гениально проста, рецепт — повторяем, эффект — огонь.

Расчехляйте вашу LLM, закатайте рукава, тут есть много работки!

MaxRokatansky Jun 20 at 17:45

Нужна ли нам Lakehouse архитектура?

10 min

OTUS corporate blogBig Data*Data storage*

Translation

Впервые я услышал термин "Lakehouse" в 2019 году, когда пролистывал документ Dremio. Будучи по своей натуре консервативным человеком, я предположил, что это просто очередной маркетинговый термин. Но пять лет спустя, кажется, уже все говорят о Lakehouse (после того, как наговорятся об ИИ :d); все крупные облачные хранилища данных теперь поддерживают чтение форматов Hudi, Iceberge или Delta Lake непосредственно в хранилище объектов, и даже BigQuery имеет специальный механизм запросов для этой задачи. На этом инновации не заканчиваются: Apache XTable (ранее OneTable) предоставляет абстракции и инструменты для трансляции метаданных формата таблиц Lakehouse. Недавно компания Confluent объявила о выпуске TableFlow, которая передает данные из Apache Kafka непосредственно в озеро данных, хранилище или аналитический движок в виде таблиц Apache Iceberg.

Это заставило меня пересмотреть свои прежние предположения: так был ли Lakehouse просто маркетинговым термином?

+11

randall Jun 19 at 13:06

Открытые инструменты для бизнес-аналитики — когда нужно построить дашборды и работать с потоковыми данными

Easy

6 min

6.5K

MWS corporate blogМТС corporate blogData Mining*Big Data*Data visualization*

Review

Бизнес-аналитика — неотъемлемая часть работы в ИТ, предоставляющая компаниям ценную информацию для принятия стратегически важных решений. В условиях растущего объема данных и необходимости оперативного анализа возникает потребность в мощных инструментах, способных визуализировать данные, мониторить потоки информации и интегрироваться с IDE.

Чтобы облегчить выполнение этих задач, можно использовать open source решения. Мы собрали компактный список таких инструментов, включающий платформы для визуализации данных и другие утилиты, облегчающие работу разработчиков.

Открытые инструменты предлагают мощные возможности для создания дашбордов и работы с потоковыми данными. Благодаря гибкости и масштабируемости, они могут быть адаптированы к потребностям различных компаний.

+15

AlexKudryavtsev Jun 19 at 10:30

Повышаем Data Quality: щепотка Soda для ваших данных

Easy

9 min

2.7K

Банки.ру corporate blogBig Data*Data storage*Data Engineering*

Tutorial

Привет! Меня зовут Александр Кудрявцев, я аналитик данных в команде Data Platform Банки.ру. Недавно мы озадачились вопросом контроля качества данных (Data Quality) и стали искать комплексное решение. Один из инструментов, который попал в поле зрения, — Soda Core. О нем и пойдет речь в материале.

pashovpa Jun 18 at 19:10

Интеграция LLM в корпоративное хранилище данных

Medium

11 min

5.4K

Machine learning*Database Administration*Big Data*Data storages*Data Engineering*

Review

В данной статье рассматриваются способы интеграции Large Language Models (LLM) в корпоративные системы хранения данных. Основное внимание уделено использованию LLM для автоматического извлечения информации из текстовых данных с последующим формированием SQL-запросов. В рамках исследования также изучаются методы пост-обработки результатов SQL-запросов с целью улучшения точности и адаптивности моделей к конкретным характеристикам и особенностям баз данных.

Работа включает в себя анализ существующих решений и методов оценки эффективности LLM в контексте их интеграции в корпоративные информационные системы. Особое внимание уделяется применению Preference Learning via Database Feedback — подхода, направленного на обучение моделей на основе обратной связи от баз данных, что способствует более точному и адаптивному выполнению запросов пользователей.

Исследование также охватывает разработку примеров интеграции LLM в реальные корпоративные хранилища данных с целью демонстрации практической применимости и эффективности предлагаемых подходов.

juliaskogoreva Jan 10 2022 at 12:36

Хранители данных: как устроена работа с DWH в Lamoda

7 min

31K

Lamoda Tech corporate blogOracle*IT Infrastructure*Data storage*Data storages*

Technotext 2021

Всем привет! Меня зовут Юлия Скогорева, я системный аналитик в команде Center of excellence в Lamoda, которая входит в дирекцию данных и аналитики.

Если бизнесу нужны какие-то данные для принятия важных решений, то на помощь приходит наша команда. Мы тщательно изучаем множество микросервисов, чтобы определить, какие же данные нужны для решения бизнес-целей, формируем архитектуру хранилища, пишем скрипты запросов и витрин данных, строим юниверсы, делаем отчеты и дашборды. Большая часть работы не обходится без участия команды DWH-разработки.

В статье я расскажу, как устроено хранилище данных в Lamoda, что находится на каждом его слое, с помощью каких инструментов мы визуализируем данные, сколько у нас отчетов и зачем используем APEX.

+13

VladimirVerstov Jun 21 at 10:05

Как эволюционировала платформа управления данными в Яндекс Go. Доклад Яндекса

10 min

3.8K

Яндекс corporate blogSystem Analysis and Design*Database Administration*Data storages*

С 2017 года мы строим и постоянно адаптируем к меняющимся требованиям и внешним факторам платформу управления данными. Для нас это инфраструктура, которая живёт и переиспользуется внутри разных сервисов, которые входят в Яндекс Go: Такси, Еда, Лавка и Доставка.

Сначала мы обсудим скоуп того, что мы считаем платформой и чем занимаемся. Дальше расскажу про архитектуру YTsaurus (YT), предназначенную для обработки и хранения данных, и как она развивалась на стороне Яндекс Go. Про YT я буду рассказывать с точки зрения того, какие возможности он даёт разработчикам хранилища и платформы, аналитикам и другим пользователям, которые активно работают с данными.

+13

Andrevich Sep 13 2023 at 15:11

Обход блокировок на OpenWRT с помощью HomeProxy (sing-box)

Easy

4 min

24K

Information Security*System administration*Network technologies*

Tutorial

HomeProxy или luci‑app‑homeproxy это часть проекта ImmortalWRT, графическая надстройка для sing‑box позволяющая настроить подключение к shadowsocks, xray, vless, vmess, trojan.

В данной статье будет рассматриваться установка luci‑app‑homeproxy на OpenWRT 23.05.0-rc3 (поддерживаются версии 23.05.0 или SNAPSHOT).

Можно использовать как чистую версию OpenWRT так и от проекта ImmortalWRT.

Потребуется роутер со свободными 30 Мб памяти и минимум 256 Мб ОЗУ (Работающий HomeProxy занимает от 70Мб ОЗУ).

+11

Andrevich Aug 21 2023 at 16:40

Обход блокировок на OpenWRT с помощью Passwall (v2ray, xray, trojan) и tun2socks

Medium

7 min

37K

Information Security*System administration*Network technologies*

Tutorial

В данном гайде будем собирать OpenWRT на базе стабильной 22.03.5 с дополнительными репозиториями Passwall и badvpn (badvpn-tun2socks).

luci-app-passwall2 это пакет позволяющий настроить в Luci прокси, поддерживающий протоколы v2ray, xray, vless, vmess, hysteria, naiveproxy, shadowsocks, trojan и др.

badvpn-tun2socks это пакет позволяющий направлять трафик (в первую очередь TCP) в прокси при помощи kmod-tun и использовать традиционные настройки маршрутизации.

+16

UranusExplorer Mar 15 at 00:03

Надежный обход блокировок в 2024: протоколы, клиенты и настройка сервера от простого к сложному

Medium

46 min

228K

Configuring Linux*Information Security*System administration*Network technologies*

Tutorial

Поскольку блокировки интернета в РФ в последние недели и месяцы многократно активизировались, а маразм все крепчает и крепчает, стоит еще раз поднять тему обхода этих самых блокировок (и делаем ставки, через сколько дней на эту статью доброжелатели напишут донос в РКН чтобы ограничить к ней доступ на территории страны).

Вы, наверняка, помните отличный цикл статей на Хабре в прошлом году от пользователя MiraclePtr, который рассказывал о разных методах блокировок, о разных методах обхода блокировок, о разных клиентах и серверах для обходов блокировок, и о разных способах их настройки (раз, два, три, четыре, пять, шесть, семь, восемь, десять, десять, и вроде были еще другие), и можете спросить, а зачем еще одна? Есть две основные причины для этого.

+489

367