Все потоки

Data Mining *

Глубинный анализ данных

СтатьиПостыНовостиАвторыКомпании

@welcome2hype 3 янв в 09:00

AI для аналитики

Простой

11 мин

3.5K

Data Mining * R * Искусственный интеллект

Кейс

Случается, что мои знакомые и друзья внезапно возбуждаются на тему ИИ и начинают тревожно звонить с вопросами: ну что там с ИИ? Уже случилась революция? Пора всех увольнять и срочно заменять чат-ботами?

Уволить конечно можно, особенно бездельников и когда на заводах/пароходах работать некому, но касаемо реальных бизнес-кейсов с ИИ все не то чтобы прям заладилось. Бизнес конечно по-прежнему возбуждается и визионирует на конференциях, но реальные проекты пока драйвово буксуют, а ванильный AI-вайб начинает попахивать болотной тиной.

Надо с этим что-то делать и срочно насыпать каких-нибудь корповых бизнес-кейсов и потом к этим кейсам прикрутить какую-нибудь новую ИИ-штуку чтобы вернуть радугу приунывшим единорогам.

Читать далее

0

@kucev 30 дек 2024 в 18:03

GraphRAG: Повышение точности и полноты GenAI

4 мин

4.9K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

GraphRAG предоставляет «граф знаний» LLM. В отличие от текстовых документов, эти структуры данных четко отображают взаимосвязи между объектами.

Читать далее

0

@kucev 27 дек 2024 в 11:09

Законы масштабирования – архитектура O1 Pro // Инфраструктура синтетических данных, RLAIF, токеномика вычислений

29 мин

765

Машинное обучение * Искусственный интеллектData Mining * Data Engineering * Big Data *

Перевод

С каждым днем растут страхи и сомнения относительно законов масштабирования ИИ. Большинство предсказателей отрасли ИИ утверждают об окончании законов масштабирования, которые за последние несколько лет привели к мгновенному улучшению возможностей больших языковых моделей (LLM). К ним присоединились журналисты, вооружившись неопределенной информацией о неспособности моделей успешно масштабироваться из-за предполагаемой низкой производительности. Критики также указывают на исчерпание доступных данных для обучения и замедление масштабирования оборудования для обучения.

Читать далее

+2

@notTGY 27 дек 2024 в 09:00

Как я узнал данные 70 тысяч игроков MMORPG

Простой

5 мин

1.1K

Go * Data Mining * Реверс-инжиниринг *

Кейс

Мне нравится рубить дерево в Minecraft'е. Я рубил дерево целый год и мне стало интересно сколько дерева срубаю каждый день. Так получилось сделать сервис по сбору статистики https://foragingupdate.com.

Реверс инжиниринг tcp протокола Minecraft'а, проектирование сервиса, golang, СУБД.

+5

@antipov_dmitry 27 дек 2024 в 06:14

Как оценивать ваш RAG-пайплайн и валидировать качество ответов LLM

Средний

8 мин

3K

Data Engineering * Data Mining * Big Data * Искусственный интеллектМашинное обучение *

Мнение

RAG-системы становятся все популярнее в корпоративной среде, но их эффективное внедрение и качественная оценка остается сложной задачей. Один из типичных примеров использования RAG — создание чат-ботов, отвечающих на вопросы пользователей с опорой на корпоративную базу знаний. И которые, вроде бы, заводятся и работают, и делают это даже неплохо, но всегда хочется получше.

В этой статье под мандариновое настроение будет обзор основных аспектов создания RAG-пайплайнов, рассмотрим подходы к их дальнейшему улучшению и тюнингу, обсудим метрики оценки, а также софт, который может помочь вам в этих процессах.

Читать далее

+4

@Pashasyr 26 дек 2024 в 09:38

SOAP, XML и Python: получаем данные с zakupki.gov.ru

Простой

8 мин

6.3K

Data Mining * Python *

Туториал

Эта статья написана для начинающих пользователей, которые хотят разобраться в работе сервиса отдачи информации zakupki.gov.ru. Мы шаг за шагом разберем, как получить токен для физического лица, как выглядит XML-документ для запроса и как написать простую программу на Python для взаимодействия с сервисом. Это не руководство от профессионала, а скорее дневник выживания: как не сойти с ума, пока пытаешься подружиться с сервисом zakupki.gov.ru.

Читать далее

+6

@andron2303 23 дек 2024 в 16:04

Большая подборка авторских каналов по аналитике 2024

6 мин

4.8K

Визуализация данных * Python * SQL * Data Mining * Data Engineering *

Обзор

Я провел большую работу и собрал для вас 17 авторских тг-каналов по аналитике данных, которые постят свежий, интересный и полезный контент.

Без рекламы (ну или почти без нее), с разумным балансом экспертного контента/лайфстайла и интересной подачей. Короче, реальный свежачок, а не «очередная подборка».

Кстати, меня зовут Алексанян Андрон 👋🏻 Я основатель Simulative, где мы обучаем крутых аналитиков данных на кейсах из реального бизнеса. И у меня тоже есть авторский канал по аналитике!

Читать далее

-4

@Grigory_T 16 дек 2024 в 19:50

Функциональные зависимости в таблице (удобный форк FDTool для python3)

Средний

7 мин

668

Data Engineering * Data Mining * Python * Open source *

FAQ

Все мы часто работаем с табличными данными. С первого взгляда таблица - это просто. Строчки, колонки, шапка. Но когда долго работаешь с ними, понимаешь, что архитектура таблицы - довольно сложная тема. Однако именно понимание архитектуры позволяет эффективно работать со сложными большими таблицами.

В статье поговорим про functional dependencies и про python библиотеку работы с ними - FDTool.

Читать далее

+1

@Osya_razrabotchik 16 дек 2024 в 16:27

Как перейти от ручной проверки данных к автоматической: решение ИЦ «Безопасный транспорт»

10 мин

993

Big Data * Data Engineering * Data Mining * Habr

Кейс

Об Инновационном центре

Инновационный центр «Безопасный Транспорт» создан в 2017 году на базе ЦОДД для работы с Big data и решения задач Транспортного комплекса Москвы. Команда экспертов изучает и анализирует потребности жителей столицы, а также разрабатывает и внедряет инновационные цифровые сервисы и решения для транспорта и дорог города.

На данный момент на базе Инновационного центра построено хранилище данных Транспортного комплекса столицы, которые используются во многих проектах и продуктах, направленных на оказание поддержки в принятии управленческих решений Правительству Москвы, а также на улучшение транспортной инфраструктуры города в целом.

Хранилище данных — сердце Транспортного комплекса

С 2013 года Москва стремительно росла, улучшалась и расширяла свои границы. Логично, что это влекло за собой бурное развитие Транспортного комплекса, а вместе с ним увеличивалось и количество обслуживающих его IT-систем и данных, которые эти системы генерируют.

Для реализации концепции data driven нужно было собрать все эти данные в одном месте, а для этого была нужна отдельная команда и отдельное подразделение. С этого в 2017 году и началась история ИЦ, сердцем которого является хранилище данных.

На данный момент данные хранилища Инновационного Центра используются во множестве информационно-аналитических продуктов. В их числе — интерактивная аналитическая отчётность, цифровое мастер планирование города, Экологическая карта, Коммуникационная платформа, Карта аварийности, Справка загруженности и другие решения, направленные на улучшение и развитие Транспортного комплекса Москвы.

Читать далее

+3

@kucev 16 дек 2024 в 13:46

Лучшие большие языковые модели в ноябре 2024 г

8 мин

5.8K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

В ноябре в ТОП-10 в «LLM Benchmark» произошло много изменений. Также произошли некоторые изменения в том, как мы создаем продукты на основе LLM. Давайте приступим.

Читать далее

+4

@evgeniatro 16 дек 2024 в 11:09

8 лучших советов для аутсорсинга разметки данных

8 мин

532

Блог компании Data LightИскусственный интеллектМашинное обучение * Data Mining * Big Data *

Любой проект в области CV начинается с разметки огромных объёмов изображений и видео. И только успешные результаты и качественные данные гарантируют, что модель сможет обучаться корректно.

Но что делать, если внутренняя команда не справляется с объемами, а квалифицированных специалистов найти сложно? Ответ прост: передать задачу профессионалам.

Аутсорсинг разметки данных помогает ускорить процесс и вывести проект на совершенно новый уровень. Однако найти надежного партнера, который станет вашим стратегическим союзником, — задача не из легких.

Как выбрать компанию и выстроить процессы, чтобы сотрудничество получилось продуктивным? В этом материале многолетним опытом Data Light в сфере организации разметки поделятся наши эксперты.

Читать далее

+2

@FeLkan 13 дек 2024 в 17:19

Как победить рецидив: путеводитель по полю битвы с онкологией

Простой

42 мин

26K

Статистика в ITData Mining * Визуализация данных * Python * Биология

FAQ

Итак, дорогие читатели! Сейчас я обучаюсь на 4 курсе (бакалавр) на программиста (направление: Информатика и вычислительная техника) в семестре столкнулся с очень интересным исследовательским проектом, связанным с биоинформатикой! Вместе с заказчиком мы ему дали научное название: «Снижение рисков развития рецидива злокачественного новообразования» и отправляем в долгое плавание!

На примере проекта‑исследования мы хотим рассказать: где искать медицинские данные? Какого это с ними работать? Как правильно подходить к исследовательской задаче и многое другое. Вы даже сами сможете повторить наши результаты, и я уверен, что у вас получится даже лучше.

Что приходит на ум, когда слышите слово «рецидив»? Правильно, возвращение того, от чего вы уже вроде как избавились. Для заболевших пациентов это слово внушает тревогу, а в онкологии и вовсе звучит как зловещий колокол. Но не бойтесь: сегодня мы не только посмеемся над этим монстром, но и узнаем, как ему дать отпор. Спойлер: с помощью науки и чуточки аналитики.

Читать далее

+23

@welcome2hype 13 дек 2024 в 05:10

Простые эвристики для TSP

Простой

12 мин

963

Алгоритмы * Data Mining * R *

В прошлой заметке я поднял тему ванильно-радужных перспектив использования искусственного интеллекта для решения оптимизационных задач, в частности, для решения хорошо изученной задачи коммивояжера, она же TSP (Travelling Salesman Problem). Там же был дан старт разбору некоторых классических алгоритмов для решения этой задачи в рамках чего я представил подход, основанный на MIP (Mixed Integer Programming). Считаю важным завершить такой разбор для лучшего понимания отличий в работе нейронных сетей.

Читать далее

+2

@kucev 12 дек 2024 в 09:59

Оценка RAG: Полное руководство по модульному тестированию RAG в CI/CD

10 мин

2.5K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

Генерация дополненного извлечения (RAG) стала самым популярным способом предоставления LLM дополнительного контекста для создания адаптированных выходных данных. Это отлично подходит для приложений LLM, таких как чат-боты или агенты ИИ, поскольку RAG предоставляет пользователям гораздо более контекстуальный опыт, выходящий за рамки данных, на которых обучались LLM, такие как GPT-4.

Неудивительно, что практикующие LLM столкнулись с проблемами оценки приложений RAG во время разработки. Но благодаря исследованиям, проведенным RAGA, оценка общих характеристик генератора-извлекателя систем RAG в 2024 году является в некоторой степени решенной проблемой. Однако создание приложений RAG до сих пор остается проблемой — вы можете использовать неправильную модель встраивания, плохую стратегию фрагментации или выводить ответы в неправильном формате, что как раз и пытаются решить такие фреймворки, как LlamaIndex.

Но теперь, по мере того как архитектуры RAG становятся все более сложными, а сотрудничество между специалистами LLM в этих проектах усиливается, возникновение критических изменений становится более частым, чем когда-либо.

Читать далее

+1

@Arvikhvan 12 дек 2024 в 06:30

Task и Process Mining: с чего стартуют лидеры (по следам конференции ProcessTech)

Простой

6 мин

2.2K

Блог компании РСХБ.цифра (Россельхозбанк)Data Mining * Искусственный интеллектМашинное обучение *

Обзор

Меня зовут Артем Хван, я — руководитель центра аналитики процессов Департамента корпоративного развития Россельхозбанка. Сегодня расскажу, как мы изменили подход к нормированию массовых процессов внутри банка, отказавшись от ручного измерения в пользу технологий Task Mining и Process Mining, перевели в цифру все ключевые бизнес-процессы и нашли потенциал экономии более 400 млн рублей. Но обо всем по порядку.

Читать далее

+18

@kucev 10 дек 2024 в 09:30

5 лучших фреймворков с открытым исходным кодом для оценки больших языковых моделей (LLM) в 2024 году

4 мин

2.1K

Машинное обучение * Искусственный интеллектData Mining * Data Engineering * Big Data *

Перевод

«У меня такое чувство, что решений для оценки LLM больше, чем проблем, связанных с их оценкой», — сказал Дилан, руководитель отдела ИИ в компании из списка Fortune 500.

И я полностью согласен — кажется, что каждую неделю появляется новый репозиторий с открытым исходным кодом, пытающийся сделать то же самое, что и другие 30+ уже существующих фреймворков. В конце концов, чего действительно хочет Дилан, так это фреймворка, пакета, библиотеки, как угодно, который просто количественно оценил бы производительность LLM (приложения), которую он хочет запустить в продакшен.

Итак, как человек, который когда-то был на месте Дилана, я составил список из 5 лучших фреймворков для оценки LLM, существующих в 2024 году :) 😌

Начнем!

Читать далее

0

@welcome2hype 9 дек 2024 в 06:16

Когда ИИ может в оптимизацию…

Простой

10 мин

2.3K

Алгоритмы * Data Mining * R * Искусственный интеллект

Из песочницы

Способны ли имеющиеся архитекутры нейронных сетей составить конкуренцию классическим методам оптимизации в решении хорошо изученных задач таких как проблема коммивояжера? Я решил попробовать ответить на этот вопрос и опубликовать свои наработки.

Читать далее

+4

@antipov_dmitry 8 дек 2024 в 06:27

Нам нужен RAG, вам нужен RAG: как встроить LLM туда, где она не нужна

Простой

4 мин

3.8K

Data Engineering * Data Mining * Big Data * Искусственный интеллектМашинное обучение *

Мнение

Когда хайп захватывает умы, кажется, что любое техническое решение должно строиться вокруг новой модной технологии и что теперь-то мы ух заживем! Сегодня у нас на хайпе RAG (Retrieval-Augmented Generation), вчера — NFT, позавчера — блокчейн везде и всюду.

Давайте попробуем разобраться, нужен ли RAG на самом деле, или это просто «новый блокчейн» и через год все набьют шишки и забудут о нем.

Читать далее

+8

@aleksei_terentev 8 дек 2024 в 06:20

Метрики оценки качества вероятностей в бинарной классификации: опыт из ФинТеха

Средний

14 мин

7.4K

Машинное обучение * Python * Финансы в ITСтатистика в ITData Mining *

Из песочницы

Бинарная классификация — одна из ключевых задач машинного обучения, но в реальных приложениях часто важно не только определить класс, но и понять, с какой вероятностью модель принимает решение. Как проверить точность вероятностных предсказаний?

В статье обсуждаются специализированные инструменты для оценки качества вероятностных прогнозов, ключевые метрики и их интерпретация. Материал будет полезен для практиков, стремящихся повысить точность и объяснимость своих моделей.

Читать далее

+8

@greggyNapalm 7 дек 2024 в 18:43

Обзор рынка Rotating Residential proxy — осень 2024

Средний

3 мин

1.7K

Сетевые технологии * Data Mining * Исследования и прогнозы в IT *

Обзор

Ссылка на полный обзор с графиками

Доброго времени суток, меня зовут Григорий, мне интересны сетевые технологии, производительность и добыча данных в public internet. Хочу поделиться исследованием, которое я недавно закончил для локации US.

Несколько базовых терминов активно используемых в индустрии:

GEO filler - описание локации в которой прокси сервис будет искать устройства.

Target - целевой ресурс, с которым мы работаем через Proxy.

Latency - в этом исследовании я использую 90 квантиль TTFB(от старта до получения первого байта от Target).

Residential IPs - адреса принадлежащие настоящим пользвательским устройствам: TV присатвкам, телефонам, лептопам, домашним роутерам через которые осуществляется доступ в public internet.

Tech SR(Technical Success Rate) - кол-во запросов с успешными ответами на уровне L7(Application layer) делить на общее кол-во запросов.

Сразу к выводам(TL; DR)

Читать далее

+7

1 2 ...

10

11 12 ...