Обновить
44.96

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

AI для аналитики

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров4.7K

Случается, что мои знакомые и друзья внезапно возбуждаются на тему ИИ и начинают тревожно звонить с вопросами: ну что там с ИИ? Уже случилась революция? Пора всех увольнять и срочно заменять чат-ботами?

Уволить конечно можно, особенно бездельников и когда на заводах/пароходах работать некому, но касаемо реальных бизнес-кейсов с ИИ все не то чтобы прям заладилось. Бизнес конечно по-прежнему возбуждается и визионирует на конференциях, но реальные проекты пока драйвово буксуют, а ванильный AI-вайб начинает попахивать болотной тиной.

Надо с этим что-то делать и срочно насыпать каких-нибудь корповых бизнес-кейсов и потом к этим кейсам прикрутить какую-нибудь новую ИИ-штуку чтобы вернуть радугу приунывшим единорогам.

Читать далее

GraphRAG: Повышение точности и полноты GenAI

Время на прочтение4 мин
Количество просмотров6.5K

GraphRAG предоставляет «граф знаний» LLM. В отличие от текстовых документов, эти структуры данных четко отображают взаимосвязи между объектами.

Читать далее

Законы масштабирования – архитектура O1 Pro // Инфраструктура синтетических данных, RLAIF, токеномика вычислений

Время на прочтение29 мин
Количество просмотров1.2K

С каждым днем растут страхи и сомнения относительно законов масштабирования ИИ. Большинство предсказателей отрасли ИИ утверждают об окончании законов масштабирования, которые за последние несколько лет привели к мгновенному улучшению возможностей больших языковых моделей (LLM). К ним присоединились журналисты, вооружившись неопределенной информацией о неспособности моделей успешно масштабироваться из-за предполагаемой низкой производительности. Критики также указывают на исчерпание доступных данных для обучения и замедление масштабирования оборудования для обучения.

Читать далее

Как я узнал данные 70 тысяч игроков MMORPG

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.8K

Мне нравится рубить дерево в Minecraft'е. Я рубил дерево целый год и мне стало интересно сколько дерева срубаю каждый день. Так получилось сделать сервис по сбору статистики https://foragingupdate.com.

Реверс инжиниринг tcp протокола Minecraft'а, проектирование сервиса, golang, СУБД.

Delve right in

Как оценивать ваш RAG-пайплайн и валидировать качество ответов LLM

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров4.7K

RAG-системы становятся все популярнее в корпоративной среде, но их эффективное внедрение и качественная оценка остается сложной задачей. Один из типичных примеров использования RAG — создание чат-ботов, отвечающих на вопросы пользователей с опорой на корпоративную базу знаний. И которые, вроде бы, заводятся и работают, и делают это даже неплохо, но всегда хочется получше.

В этой статье под мандариновое настроение будет обзор основных аспектов создания RAG-пайплайнов, рассмотрим подходы к их дальнейшему улучшению и тюнингу, обсудим метрики оценки, а также софт, который может помочь вам в этих процессах.

Читать далее

SOAP, XML и Python: получаем данные с zakupki.gov.ru

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров9.1K

Эта статья написана для начинающих пользователей, которые хотят разобраться в работе сервиса отдачи информации zakupki.gov.ru. Мы шаг за шагом разберем, как получить токен для физического лица, как выглядит XML-документ для запроса и как написать простую программу на Python для взаимодействия с сервисом. Это не руководство от профессионала, а скорее дневник выживания: как не сойти с ума, пока пытаешься подружиться с сервисом zakupki.gov.ru.

Читать далее

Большая подборка авторских каналов по аналитике 2024

Время на прочтение6 мин
Количество просмотров6.2K

Я провел большую работу и собрал для вас 17 авторских тг-каналов по аналитике данных, которые постят свежий, интересный и полезный контент.

Без рекламы (ну или почти без нее), с разумным балансом экспертного контента/лайфстайла и интересной подачей. Короче, реальный свежачок, а не «очередная подборка».

Кстати, меня зовут Алексанян Андрон 👋🏻 Я основатель Simulative, где мы обучаем крутых аналитиков данных на кейсах из реального бизнеса. И у меня тоже есть авторский канал по аналитике!

Читать далее

Функциональные зависимости в таблице (удобный форк FDTool для python3)

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.1K

Все мы часто работаем с табличными данными. С первого взгляда таблица - это просто. Строчки, колонки, шапка. Но когда долго работаешь с ними, понимаешь, что архитектура таблицы - довольно сложная тема. Однако именно понимание архитектуры позволяет эффективно работать со сложными большими таблицами.

В статье поговорим про functional dependencies и про python библиотеку работы с ними - FDTool.

Читать далее

Как перейти от ручной проверки данных к автоматической: решение ИЦ «Безопасный транспорт»

Время на прочтение10 мин
Количество просмотров1.3K

Об Инновационном центре

Инновационный центр «Безопасный Транспорт» создан в 2017 году на базе ЦОДД для работы с Big data и решения задач Транспортного комплекса Москвы. Команда экспертов изучает и анализирует потребности жителей столицы, а также разрабатывает и внедряет инновационные цифровые сервисы и решения для транспорта и дорог города.

На данный момент на базе Инновационного центра построено хранилище данных Транспортного комплекса столицы, которые используются во многих проектах и продуктах, направленных на оказание поддержки в принятии управленческих решений Правительству Москвы, а также на улучшение транспортной инфраструктуры города в целом.

Хранилище данных — сердце Транспортного комплекса

С 2013 года Москва стремительно росла, улучшалась и расширяла свои границы. Логично, что  это влекло за собой бурное развитие Транспортного комплекса, а вместе с ним увеличивалось и количество обслуживающих его IT-систем и данных, которые эти системы генерируют.

Для реализации концепции data driven нужно было собрать все эти данные в одном месте, а для этого была нужна отдельная команда и отдельное подразделение. С этого в 2017 году и началась история ИЦ, сердцем которого является хранилище данных. 

На данный момент данные хранилища Инновационного Центра используются во множестве информационно-аналитических продуктов.  В их числе — интерактивная аналитическая отчётность, цифровое мастер планирование города, Экологическая карта, Коммуникационная платформа, Карта аварийности, Справка загруженности и другие решения, направленные на улучшение и развитие Транспортного комплекса Москвы.

Читать далее

Лучшие большие языковые модели в ноябре 2024 г

Время на прочтение8 мин
Количество просмотров8.2K

В ноябре в ТОП-10 в «LLM Benchmark» произошло много изменений. Также произошли некоторые изменения в том, как мы создаем продукты на основе LLM. Давайте приступим.

Читать далее

8 лучших советов для аутсорсинга разметки данных

Время на прочтение8 мин
Количество просмотров811

Любой проект в области CV начинается с разметки огромных объёмов изображений и видео. И только успешные результаты и качественные данные гарантируют, что модель сможет обучаться корректно.

Но что делать, если внутренняя команда не справляется с объемами, а квалифицированных специалистов найти сложно? Ответ прост: передать задачу профессионалам.

Аутсорсинг разметки данных помогает ускорить процесс и вывести проект на совершенно новый уровень. Однако найти надежного партнера, который станет вашим стратегическим союзником, — задача не из легких.

Как выбрать компанию и выстроить процессы, чтобы сотрудничество получилось продуктивным? В этом материале многолетним опытом Data Light в сфере организации разметки поделятся наши эксперты.

Читать далее

Как победить рецидив: путеводитель по полю битвы с онкологией

Уровень сложностиПростой
Время на прочтение42 мин
Количество просмотров29K

Итак, дорогие читатели! Сейчас я обучаюсь на 4 курсе (бакалавр) на программиста (направление: Информатика и вычислительная техника) в семестре столкнулся с очень интересным исследовательским проектом, связанным с биоинформатикой! Вместе с заказчиком мы ему дали научное название: «Снижение рисков развития рецидива злокачественного новообразования» и отправляем в долгое плавание!

На примере проекта‑исследования мы хотим рассказать: где искать медицинские данные? Какого это с ними работать? Как правильно подходить к исследовательской задаче и многое другое. Вы даже сами сможете повторить наши результаты, и я уверен, что у вас получится даже лучше.

Что приходит на ум, когда слышите слово «рецидив»? Правильно, возвращение того, от чего вы уже вроде как избавились. Для заболевших пациентов это слово внушает тревогу, а в онкологии и вовсе звучит как зловещий колокол. Но не бойтесь: сегодня мы не только посмеемся над этим монстром, но и узнаем, как ему дать отпор. Спойлер: с помощью науки и чуточки аналитики.

Читать далее

Простые эвристики для TSP

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров1.5K

В прошлой заметке я поднял тему ванильно-радужных перспектив использования искусственного интеллекта для решения оптимизационных задач, в частности, для решения хорошо изученной задачи коммивояжера, она же TSP (Travelling Salesman Problem). Там же был дан старт разбору некоторых классических алгоритмов для решения этой задачи в рамках чего я представил подход, основанный на MIP (Mixed Integer Programming). Считаю важным завершить такой разбор для лучшего понимания отличий в работе нейронных сетей.

Читать далее

Ближайшие события

Оценка RAG: Полное руководство по модульному тестированию RAG в CI/CD

Время на прочтение10 мин
Количество просмотров3.8K

Генерация дополненного извлечения (RAG) стала самым популярным способом предоставления LLM дополнительного контекста для создания адаптированных выходных данных. Это отлично подходит для приложений LLM, таких как чат-боты или агенты ИИ, поскольку RAG предоставляет пользователям гораздо более контекстуальный опыт, выходящий за рамки данных, на которых обучались LLM, такие как GPT-4.

Неудивительно, что практикующие LLM столкнулись с проблемами оценки приложений RAG во время разработки. Но благодаря исследованиям, проведенным RAGA, оценка общих характеристик генератора-извлекателя систем RAG в 2024 году является в некоторой степени решенной проблемой. Однако создание приложений RAG до сих пор остается проблемой — вы можете использовать неправильную модель встраивания, плохую стратегию фрагментации или выводить ответы в неправильном формате, что как раз и пытаются решить такие фреймворки, как LlamaIndex.

Но теперь, по мере того как архитектуры RAG становятся все более сложными, а сотрудничество между специалистами LLM в этих проектах усиливается, возникновение критических изменений становится более частым, чем когда-либо.

Читать далее

Task и Process Mining: с чего стартуют лидеры (по следам конференции ProcessTech)

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.8K

Меня зовут Артем Хван, я — руководитель центра аналитики процессов Департамента корпоративного развития Россельхозбанка. Сегодня расскажу, как мы изменили подход к нормированию массовых процессов внутри банка, отказавшись от ручного измерения в пользу технологий Task Mining и Process Mining, перевели в цифру все ключевые бизнес-процессы и нашли потенциал экономии более 400 млн рублей. Но обо всем по порядку.

Читать далее

5 лучших фреймворков с открытым исходным кодом для оценки больших языковых моделей (LLM) в 2024 году

Время на прочтение4 мин
Количество просмотров3K

«У меня такое чувство, что решений для оценки LLM больше, чем проблем, связанных с их оценкой», — сказал Дилан, руководитель отдела ИИ в компании из списка Fortune 500.

И я полностью согласен — кажется, что каждую неделю появляется новый репозиторий с открытым исходным кодом, пытающийся сделать то же самое, что и другие 30+ уже существующих фреймворков. В конце концов, чего действительно хочет Дилан, так это фреймворка, пакета, библиотеки, как угодно, который просто количественно оценил бы производительность LLM (приложения), которую он хочет запустить в продакшен.

Итак, как человек, который когда-то был на месте Дилана, я составил список из 5 лучших фреймворков для оценки LLM, существующих в 2024 году :) 😌

Начнем!

Читать далее

Когда ИИ может в оптимизацию…

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров3.1K

Способны ли имеющиеся архитекутры нейронных сетей составить конкуренцию классическим методам оптимизации в решении хорошо изученных задач таких как проблема коммивояжера? Я решил попробовать ответить на этот вопрос и опубликовать свои наработки.

Читать далее

Нам нужен RAG, вам нужен RAG: как встроить LLM туда, где она не нужна

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров5.6K

Когда хайп захватывает умы, кажется, что любое техническое решение должно строиться вокруг новой модной технологии и что теперь-то мы ух заживем! Сегодня у нас на хайпе RAG (Retrieval-Augmented Generation), вчера — NFT, позавчера — блокчейн везде и всюду.

Давайте попробуем разобраться, нужен ли RAG на самом деле, или это просто «новый блокчейн» и через год все набьют шишки и забудут о нем.

Читать далее

Метрики оценки качества вероятностей в бинарной классификации: опыт из ФинТеха

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров9.5K

Бинарная классификация — одна из ключевых задач машинного обучения, но в реальных приложениях часто важно не только определить класс, но и понять, с какой вероятностью модель принимает решение. Как проверить точность вероятностных предсказаний?

В статье обсуждаются специализированные инструменты для оценки качества вероятностных прогнозов, ключевые метрики и их интерпретация. Материал будет полезен для практиков, стремящихся повысить точность и объяснимость своих моделей.

Читать далее

Обзор рынка Rotating Residential proxy — осень 2024

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров2.6K

Ссылка на полный обзор с графиками

Доброго времени суток, меня зовут Григорий, мне интересны сетевые технологии, производительность и добыча данных в public internet. Хочу поделиться исследованием, которое я недавно закончил для локации US.

Несколько базовых терминов активно используемых в индустрии:

GEO filler - описание локации в которой прокси сервис будет искать устройства.

Target - целевой ресурс, с которым мы работаем через Proxy.

Latency - в этом исследовании я использую 90 квантиль TTFB(от старта до получения первого байта от Target).

Residential IPs - адреса принадлежащие настоящим пользвательским устройствам: TV присатвкам, телефонам, лептопам, домашним роутерам через которые осуществляется доступ в public internet.

Tech SR(Technical Success Rate) - кол-во запросов с успешными ответами на уровне L7(Application layer) делить на общее кол-во запросов.

Сразу к выводам(TL; DR)

Читать далее