Обновить
33.98

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

AI для аналитики

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели3.5K

Случается, что мои знакомые и друзья внезапно возбуждаются на тему ИИ и начинают тревожно звонить с вопросами: ну что там с ИИ? Уже случилась революция? Пора всех увольнять и срочно заменять чат-ботами?

Уволить конечно можно, особенно бездельников и когда на заводах/пароходах работать некому, но касаемо реальных бизнес-кейсов с ИИ все не то чтобы прям заладилось. Бизнес конечно по-прежнему возбуждается и визионирует на конференциях, но реальные проекты пока драйвово буксуют, а ванильный AI-вайб начинает попахивать болотной тиной.

Надо с этим что-то делать и срочно насыпать каких-нибудь корповых бизнес-кейсов и потом к этим кейсам прикрутить какую-нибудь новую ИИ-штуку чтобы вернуть радугу приунывшим единорогам.

Читать далее

GraphRAG: Повышение точности и полноты GenAI

Время на прочтение4 мин
Охват и читатели4.9K

GraphRAG предоставляет «граф знаний» LLM. В отличие от текстовых документов, эти структуры данных четко отображают взаимосвязи между объектами.

Читать далее

Законы масштабирования – архитектура O1 Pro // Инфраструктура синтетических данных, RLAIF, токеномика вычислений

Время на прочтение29 мин
Охват и читатели765

С каждым днем растут страхи и сомнения относительно законов масштабирования ИИ. Большинство предсказателей отрасли ИИ утверждают об окончании законов масштабирования, которые за последние несколько лет привели к мгновенному улучшению возможностей больших языковых моделей (LLM). К ним присоединились журналисты, вооружившись неопределенной информацией о неспособности моделей успешно масштабироваться из-за предполагаемой низкой производительности. Критики также указывают на исчерпание доступных данных для обучения и замедление масштабирования оборудования для обучения.

Читать далее

Как я узнал данные 70 тысяч игроков MMORPG

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели1.1K

Мне нравится рубить дерево в Minecraft'е. Я рубил дерево целый год и мне стало интересно сколько дерева срубаю каждый день. Так получилось сделать сервис по сбору статистики https://foragingupdate.com.

Реверс инжиниринг tcp протокола Minecraft'а, проектирование сервиса, golang, СУБД.

Delve right in

Как оценивать ваш RAG-пайплайн и валидировать качество ответов LLM

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели3K

RAG-системы становятся все популярнее в корпоративной среде, но их эффективное внедрение и качественная оценка остается сложной задачей. Один из типичных примеров использования RAG — создание чат-ботов, отвечающих на вопросы пользователей с опорой на корпоративную базу знаний. И которые, вроде бы, заводятся и работают, и делают это даже неплохо, но всегда хочется получше.

В этой статье под мандариновое настроение будет обзор основных аспектов создания RAG-пайплайнов, рассмотрим подходы к их дальнейшему улучшению и тюнингу, обсудим метрики оценки, а также софт, который может помочь вам в этих процессах.

Читать далее

SOAP, XML и Python: получаем данные с zakupki.gov.ru

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели6.3K

Эта статья написана для начинающих пользователей, которые хотят разобраться в работе сервиса отдачи информации zakupki.gov.ru. Мы шаг за шагом разберем, как получить токен для физического лица, как выглядит XML-документ для запроса и как написать простую программу на Python для взаимодействия с сервисом. Это не руководство от профессионала, а скорее дневник выживания: как не сойти с ума, пока пытаешься подружиться с сервисом zakupki.gov.ru.

Читать далее

Большая подборка авторских каналов по аналитике 2024

Время на прочтение6 мин
Охват и читатели4.8K

Я провел большую работу и собрал для вас 17 авторских тг-каналов по аналитике данных, которые постят свежий, интересный и полезный контент.

Без рекламы (ну или почти без нее), с разумным балансом экспертного контента/лайфстайла и интересной подачей. Короче, реальный свежачок, а не «очередная подборка».

Кстати, меня зовут Алексанян Андрон 👋🏻 Я основатель Simulative, где мы обучаем крутых аналитиков данных на кейсах из реального бизнеса. И у меня тоже есть авторский канал по аналитике!

Читать далее

Функциональные зависимости в таблице (удобный форк FDTool для python3)

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели668

Все мы часто работаем с табличными данными. С первого взгляда таблица - это просто. Строчки, колонки, шапка. Но когда долго работаешь с ними, понимаешь, что архитектура таблицы - довольно сложная тема. Однако именно понимание архитектуры позволяет эффективно работать со сложными большими таблицами.

В статье поговорим про functional dependencies и про python библиотеку работы с ними - FDTool.

Читать далее

Как перейти от ручной проверки данных к автоматической: решение ИЦ «Безопасный транспорт»

Время на прочтение10 мин
Охват и читатели993

Об Инновационном центре

Инновационный центр «Безопасный Транспорт» создан в 2017 году на базе ЦОДД для работы с Big data и решения задач Транспортного комплекса Москвы. Команда экспертов изучает и анализирует потребности жителей столицы, а также разрабатывает и внедряет инновационные цифровые сервисы и решения для транспорта и дорог города.

На данный момент на базе Инновационного центра построено хранилище данных Транспортного комплекса столицы, которые используются во многих проектах и продуктах, направленных на оказание поддержки в принятии управленческих решений Правительству Москвы, а также на улучшение транспортной инфраструктуры города в целом.

Хранилище данных — сердце Транспортного комплекса

С 2013 года Москва стремительно росла, улучшалась и расширяла свои границы. Логично, что  это влекло за собой бурное развитие Транспортного комплекса, а вместе с ним увеличивалось и количество обслуживающих его IT-систем и данных, которые эти системы генерируют.

Для реализации концепции data driven нужно было собрать все эти данные в одном месте, а для этого была нужна отдельная команда и отдельное подразделение. С этого в 2017 году и началась история ИЦ, сердцем которого является хранилище данных. 

На данный момент данные хранилища Инновационного Центра используются во множестве информационно-аналитических продуктов.  В их числе — интерактивная аналитическая отчётность, цифровое мастер планирование города, Экологическая карта, Коммуникационная платформа, Карта аварийности, Справка загруженности и другие решения, направленные на улучшение и развитие Транспортного комплекса Москвы.

Читать далее

Лучшие большие языковые модели в ноябре 2024 г

Время на прочтение8 мин
Охват и читатели5.8K

В ноябре в ТОП-10 в «LLM Benchmark» произошло много изменений. Также произошли некоторые изменения в том, как мы создаем продукты на основе LLM. Давайте приступим.

Читать далее

8 лучших советов для аутсорсинга разметки данных

Время на прочтение8 мин
Охват и читатели532

Любой проект в области CV начинается с разметки огромных объёмов изображений и видео. И только успешные результаты и качественные данные гарантируют, что модель сможет обучаться корректно.

Но что делать, если внутренняя команда не справляется с объемами, а квалифицированных специалистов найти сложно? Ответ прост: передать задачу профессионалам.

Аутсорсинг разметки данных помогает ускорить процесс и вывести проект на совершенно новый уровень. Однако найти надежного партнера, который станет вашим стратегическим союзником, — задача не из легких.

Как выбрать компанию и выстроить процессы, чтобы сотрудничество получилось продуктивным? В этом материале многолетним опытом Data Light в сфере организации разметки поделятся наши эксперты.

Читать далее

Как победить рецидив: путеводитель по полю битвы с онкологией

Уровень сложностиПростой
Время на прочтение42 мин
Охват и читатели26K

Итак, дорогие читатели! Сейчас я обучаюсь на 4 курсе (бакалавр) на программиста (направление: Информатика и вычислительная техника) в семестре столкнулся с очень интересным исследовательским проектом, связанным с биоинформатикой! Вместе с заказчиком мы ему дали научное название: «Снижение рисков развития рецидива злокачественного новообразования» и отправляем в долгое плавание!

На примере проекта‑исследования мы хотим рассказать: где искать медицинские данные? Какого это с ними работать? Как правильно подходить к исследовательской задаче и многое другое. Вы даже сами сможете повторить наши результаты, и я уверен, что у вас получится даже лучше.

Что приходит на ум, когда слышите слово «рецидив»? Правильно, возвращение того, от чего вы уже вроде как избавились. Для заболевших пациентов это слово внушает тревогу, а в онкологии и вовсе звучит как зловещий колокол. Но не бойтесь: сегодня мы не только посмеемся над этим монстром, но и узнаем, как ему дать отпор. Спойлер: с помощью науки и чуточки аналитики.

Читать далее

Простые эвристики для TSP

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели963

В прошлой заметке я поднял тему ванильно-радужных перспектив использования искусственного интеллекта для решения оптимизационных задач, в частности, для решения хорошо изученной задачи коммивояжера, она же TSP (Travelling Salesman Problem). Там же был дан старт разбору некоторых классических алгоритмов для решения этой задачи в рамках чего я представил подход, основанный на MIP (Mixed Integer Programming). Считаю важным завершить такой разбор для лучшего понимания отличий в работе нейронных сетей.

Читать далее

Ближайшие события

Оценка RAG: Полное руководство по модульному тестированию RAG в CI/CD

Время на прочтение10 мин
Охват и читатели2.5K

Генерация дополненного извлечения (RAG) стала самым популярным способом предоставления LLM дополнительного контекста для создания адаптированных выходных данных. Это отлично подходит для приложений LLM, таких как чат-боты или агенты ИИ, поскольку RAG предоставляет пользователям гораздо более контекстуальный опыт, выходящий за рамки данных, на которых обучались LLM, такие как GPT-4.

Неудивительно, что практикующие LLM столкнулись с проблемами оценки приложений RAG во время разработки. Но благодаря исследованиям, проведенным RAGA, оценка общих характеристик генератора-извлекателя систем RAG в 2024 году является в некоторой степени решенной проблемой. Однако создание приложений RAG до сих пор остается проблемой — вы можете использовать неправильную модель встраивания, плохую стратегию фрагментации или выводить ответы в неправильном формате, что как раз и пытаются решить такие фреймворки, как LlamaIndex.

Но теперь, по мере того как архитектуры RAG становятся все более сложными, а сотрудничество между специалистами LLM в этих проектах усиливается, возникновение критических изменений становится более частым, чем когда-либо.

Читать далее

Task и Process Mining: с чего стартуют лидеры (по следам конференции ProcessTech)

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели2.2K

Меня зовут Артем Хван, я — руководитель центра аналитики процессов Департамента корпоративного развития Россельхозбанка. Сегодня расскажу, как мы изменили подход к нормированию массовых процессов внутри банка, отказавшись от ручного измерения в пользу технологий Task Mining и Process Mining, перевели в цифру все ключевые бизнес-процессы и нашли потенциал экономии более 400 млн рублей. Но обо всем по порядку.

Читать далее

5 лучших фреймворков с открытым исходным кодом для оценки больших языковых моделей (LLM) в 2024 году

Время на прочтение4 мин
Охват и читатели2.1K

«У меня такое чувство, что решений для оценки LLM больше, чем проблем, связанных с их оценкой», — сказал Дилан, руководитель отдела ИИ в компании из списка Fortune 500.

И я полностью согласен — кажется, что каждую неделю появляется новый репозиторий с открытым исходным кодом, пытающийся сделать то же самое, что и другие 30+ уже существующих фреймворков. В конце концов, чего действительно хочет Дилан, так это фреймворка, пакета, библиотеки, как угодно, который просто количественно оценил бы производительность LLM (приложения), которую он хочет запустить в продакшен.

Итак, как человек, который когда-то был на месте Дилана, я составил список из 5 лучших фреймворков для оценки LLM, существующих в 2024 году :) 😌

Начнем!

Читать далее

Когда ИИ может в оптимизацию…

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели2.3K

Способны ли имеющиеся архитекутры нейронных сетей составить конкуренцию классическим методам оптимизации в решении хорошо изученных задач таких как проблема коммивояжера? Я решил попробовать ответить на этот вопрос и опубликовать свои наработки.

Читать далее

Нам нужен RAG, вам нужен RAG: как встроить LLM туда, где она не нужна

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели3.8K

Когда хайп захватывает умы, кажется, что любое техническое решение должно строиться вокруг новой модной технологии и что теперь-то мы ух заживем! Сегодня у нас на хайпе RAG (Retrieval-Augmented Generation), вчера — NFT, позавчера — блокчейн везде и всюду.

Давайте попробуем разобраться, нужен ли RAG на самом деле, или это просто «новый блокчейн» и через год все набьют шишки и забудут о нем.

Читать далее

Метрики оценки качества вероятностей в бинарной классификации: опыт из ФинТеха

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели7.4K

Бинарная классификация — одна из ключевых задач машинного обучения, но в реальных приложениях часто важно не только определить класс, но и понять, с какой вероятностью модель принимает решение. Как проверить точность вероятностных предсказаний?

В статье обсуждаются специализированные инструменты для оценки качества вероятностных прогнозов, ключевые метрики и их интерпретация. Материал будет полезен для практиков, стремящихся повысить точность и объяснимость своих моделей.

Читать далее

Обзор рынка Rotating Residential proxy — осень 2024

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели1.7K

Ссылка на полный обзор с графиками

Доброго времени суток, меня зовут Григорий, мне интересны сетевые технологии, производительность и добыча данных в public internet. Хочу поделиться исследованием, которое я недавно закончил для локации US.

Несколько базовых терминов активно используемых в индустрии:

GEO filler - описание локации в которой прокси сервис будет искать устройства.

Target - целевой ресурс, с которым мы работаем через Proxy.

Latency - в этом исследовании я использую 90 квантиль TTFB(от старта до получения первого байта от Target).

Residential IPs - адреса принадлежащие настоящим пользвательским устройствам: TV присатвкам, телефонам, лептопам, домашним роутерам через которые осуществляется доступ в public internet.

Tech SR(Technical Success Rate) - кол-во запросов с успешными ответами на уровне L7(Application layer) делить на общее кол-во запросов.

Сразу к выводам(TL; DR)

Читать далее