Нейросеть ChatGPT сделала за меня анализ данных: аналитики будут не нужны? / Хабр

От автора Telegram-канала Аналитика и Growth mind-set (делюсь кейсами с работы, бесплатным обучением, задачами с собеседований).

Последовательно я проверила, как нейросеть:

справится с написанием SQL-запросов разной сложности
с задачей визуализации данных и получением инсайтов из данных
ответит на вопрос с собеседования на аналитика в компанию Lyft (крупная компания в США, предлагающая услуги такси, проката автомобилей, велосипедов, аренду автомобилей и доставку еды в США и некоторых городах Канады)
решит тестовое задание в Яндекс на должность маркетингового аналитика

ШАГ 1 - Проверяем навыки SQL

Любой аналитик данных должен владеть SQL, но есть ли данный навык у нейросети?

Сначала спросила у самой ChatGPT, может ли она писать SQL код и получила утвердительный ответ.

Вводные:

Проверять нейросетку на знание SQL решила с помощью сайта Hakerrank - это сайт, на котором бесплатно можно тренироваться, решая задачи разной сложности на SQL (легкие, средней сложности и сложные).

Начать решила с легкой задачи (на Hakerrank она отмечается как Easy). Загрузила условия задачи в ChatGPT и нейросетка быстро выдала ответ.

Я вставила его на Hakerrank и поздравления - задача решена правильно!

Тоже самое я продела с еще 3мя easy задачами - нейросеть справилась и с ними. Ну еще бы, ведь задачи проще простого, скажете вы.

Я решила пойти дальше к задаче средней сложности (на Hakerrank она отмечается как Medium). Опять загнала задачу в нейросеть, получила ответ, вставила на Hakerrank, однако в этот раз нейросеть провалила задание. Я попробовала так еще 3 раза - и все задачи были провалены. Во всех решениях ChatGPT были ошибки.

Вывод: Простейшие задачи на SQL нейросеть смогла решить, а вот с задачами средней сложности не справилась.

Но я уверена, что это временно и вскоре мы увидим более сильный результат, так как нейросеть постоянно обучается.

Но уже сейчас можно использовать ChatGPT для написания в том числе сложных запросов, только в данном случае их нужно будет скорее всего самостоятельно подкорректировать.

ШАГ 2 - Проверяем умение визуализировать и делать выводы из данных (уровень Junior)

Перед тем, как работать с ChatGPT, я спросила у нее - может ли она проанализировать данные, на что нейросеть ответила утвердительно и выдала целый список того, что она может делать с данными.

Да, я могу анализировать данные. Я могу выполнять различные типы задач по анализу данных, например суммировать и агрегировать данные, выявлять закономерности и взаимосвязи в данных, делать прогнозы с использованием статистических моделей и моделей машинного обучения, а также визуализировать данные с помощью диаграмм и графиков. Однако точность и качество моего анализа будут зависеть от качества и формата данных, а также от конкретных требований и целей анализа.

Вводные:

Допустим у меня малый бизнес и аналитика нет. Есть только Яндекс Метрика и нет времени самостоятельно делать анализ. И я хочу, чтобы ChatGPT визуализировала данные и сделала выводы.

Я зашла в Яндекс Метрику, выгрузила данные из отчета "По источникам" за месяц по своему сайту.

Далее пишу нейросети достаточно простой запрос: мне нужна визуализация данных и немного выводов из данных.

Конечно! Я могу помочь вам с визуализацией данных и инсайтами. Для начала предоставьте данные, которые вы хотите визуализировать, а также любые конкретные идеи или вопросы, на которые вы хотели бы ответить. Кроме того, было бы полезно знать формат данных (например, CSV, Excel и т. д.) и любые предпочтения для типа визуализации (например, гистограмма, линейная диаграмма, точечная диаграмма и т. д.).

Я копирую данные из CVS файла (к слову, прикрепить сам файл нельзя, из него нужно скопировать и вставить, это также выясняется в диалоге с нейросетью, который я опущу здесь).

Получив данные, нейросеть мне отвечает:

Спасибо, что поделились данными! Это хорошая отправная точка для исследовательского анализа данных. Чтобы дать вам некоторое представление, я суммирую данные ниже:

Большая часть трафика (908 сеансов) поступает из прямого трафика, за которым следует трафик ссылок с youtube.com (93 сеанса) и трафик Messenger из Telegram (63 сеанса).
Процент роботов среди трафика относительно низок, при этом самый высокий показатель приходится на трафик поисковых систем (Baidu) и составляет 1,0%.
Показатель отказов по всем источникам трафика относительно низок, при этом самый высокий показатель приходится на прямой трафик и составляет 12,89%.
Средняя глубина страницы составляет 1,41 страницы, а самая высокая — от Ссылочного трафика (vc.ru) — 3,12 страницы.
Среднее время пребывания на сайте составляет 2 минуты 37 секунд. Самое продолжительное среднее время нахождения на сайте — от Ссылочного трафика (vc.ru) — 11 минут 53 секунды.

Это некоторые предварительные выводы из данных. Если вам нужен более глубокий анализ, дайте мне знать, что конкретно вас интересует. Кроме того, визуализация данных с помощью графиков, таких как гистограммы или линейные диаграммы, может помочь в дальнейшем выявить закономерности и взаимосвязи в данных.

В целом, выводы довольно простые, однако, даже чтобы сделать и описать их, человеку нужно потратить определенное время, а нейросеть сделала это за считанные секунды.

Далее попросила нейросеть сделать визуализацию - без уточнений, так как мы не знаем, что нам нужно.

Сразу же получила ответ в виде 2х кусков кода с пояснением.

Что за визуализацию сделала нейросеть? Дело в том, что нейросеть не может выдать саму визуализацию, но мы можем вставить куски кода в любую среду разработки и увидеть результат, что я и сделала.

По первому коду получился такой результат:

Эту визуализацию нейросеть прокомментировала так:

Конечно, я могу создать несколько визуализаций, чтобы помочь вам лучше понять данные. Вот гистограмма, показывающая сеансы по источникам трафика.Этот график дает вам обзор распределения трафика между различными источниками. Вы можете видеть, что большая часть трафика поступает из прямого трафика, а меньшие суммы приходят из других источников.

По второму коду получился такой результат:

Эту визуализацию нейросеть прокомментировала так:

Другая визуализация, которая может быть полезна, — это круговая диаграмма, показывающая распределение сеансов между источниками трафика. Этот график обеспечивает более подробное представление о доле трафика из каждого источника.

Вывод:

Я считаю, что нейросеть справилась с этой простой задачей по данным веб-аналитики - сделать визуализацию данных и выводы.

Другое дело, что даже в такой задаче пока не обойтись без человека. Например, в круговой диаграмме текст сливается и это нужно либо подправить самостоятельно, либо попросить нейросеть.

Ну и формулировка задачи и направление нейросети в процессе ее работы (например, добавить другие данные для более обширного анализа, уже в процессе конкретизировать задачу для нейросети, попросить добавить другую визуализацию или сделать дополнительные расчеты и тд) остается за человеком.

Но уже сейчас - это хороший способ автоматизировать некоторые действия аналитика. Сколько бы на эту задачу у вас ушло времени? А нейросеть выдала ответ за секунды.

ШАГ 3 - Проверяем, сможет ли нейросеть ответить на вопросы с собеседования в Lyft

Вводные:

Вопрос взят с платформы Stratascratch (на ней размещены вопросы с собеседований в крупные компании). Задача помечается на сайте как Hard (трудная).

Lyft внедряет совместные поездки и рассматривает возможность добавления 30-секундного периода ожидания для нашего алгоритма для определения дополнительных совпадений. Какие показатели вы бы использовали для оценки этого и как бы вы провели этот эксперимент?

Ответ нейросети:

Чтобы оценить влияние добавления 30-секундного периода ожидания для совместных поездок в Lyft, можно использовать несколько показателей:

Match rate: процент поездок, которые успешно согласованы с другим пассажиром.
Время ожидания: среднее время, которое пассажиры тратят на ожидание метча.
Коэффициент отмены: процент поездок, которые были отменены из-за того, что время ожидания превысило определенный порог.
Продолжительность поездки: среднее время совместной поездки, включая время ожидания.
Удовлетворенность пользователей: отзывы пассажиров об общем опыте поездки, включая время ожидания и качество соответствия.

Для проведения эксперимента можно было выбрать случайную выборку пользователей, чтобы получить новый опыт совместной поездки с 30-секундным периодом ожидания. Контрольная группа могла получить текущую совместную поездку без периода ожидания. Затем поведение обеих групп можно сравнить, чтобы определить влияние периода ожидания.

Важно обеспечить, чтобы эксперимент проводился в течение достаточного времени, чтобы учесть любые временные эффекты, и чтобы размер выборки был достаточно большим для достижения высокого уровня статистической значимости. Также было бы полезно контролировать любые посторонние факторы, которые могут повлиять на результаты, такие как местоположение, время суток или поведение пассажиров.

Вывод:

С текстовыми вопросами нейросеть справляется хорошо (за время ее тестирования я задала ей около 20 вопросов).

ШАГ 4 - Проверяем, как нейросеть справится с задачей от Яндекса на должность маркетингового аналитика (уровень Middle)

Эта задача была у Яндекса в тестовом задании на должность маркетингового аналитика. Сами данные по ссылке.

Ответ нейросети:

Предоставленные данные представляют собой часть электронной таблицы с данными, относящимися к рекламным кампаниям. Столбцы в данных представляют:

Расходы: Сумма, потраченная на рекламную кампанию
Посетители: количество посетителей сайта в результате рекламной кампании.
CR1, %: Коэффициент конверсии пользователей, прошедших первую тему
«пользователи (прошедшие первую тему)»: количество пользователей, прошедших первую тему CPA: цена за приобретение (стоимость привлечения одного пользователя).
"пользователи (прошедшие вторую тему)": Количество пользователей, прошедших вторую тему
CPA2: Цена за приобретение для пользователей, прошедших вторую тему.
«users (paid)»: количество пользователей, совершивших покупку.
CPA5: Цена за приобретение для пользователей, совершивших покупку

Строки в данных представляют разные рекламные кампании, причем каждая строка представляет отдельную кампанию и связанные с ней результаты.Эти данные можно использовать для некоторых предварительных выводов об эффективности рекламных кампаний.

Например, высокий коэффициент конверсии для пользователей, прошедших первую тему (CR1, %), будет означать, что рекламная кампания была эффективной в привлечении посетителей на веб-сайт и побуждении их к взаимодействию с контентом.
Высокая цена за приобретение (CPA) для пользователей, прошедших первую тему, будет означать, что рекламная кампания была дорогой по сравнению с другими кампаниями.
Большое количество пользователей, прошедших вторую тему, указывает на то, что рекламная кампания была эффективной в привлечении посетителей к дальнейшему взаимодействию с контентом, в то время как большое количество пользователей, совершивших покупку, указывает на то, что рекламная кампания была эффективной в получении дохода.

Важно отметить, что это очень ограниченный анализ, и потребуются дополнительные данные и контекст, чтобы сделать более полные выводы об эффективности рекламных кампаний.К сожалению, одних этих данных недостаточно, чтобы делать какие-либо выводы или готовить исследовательскую работу об эффективности рекламных кампаний. Предоставленные данные представляют собой просто таблицу затрат и некоторых показателей, но они не дают контекста для рекламных кампаний или того, что на самом деле представляют собой показатели. Кроме того, отсутствует информация о целях кампаний, целевой аудитории или рекламируемых продуктах. Без этой информации невозможно осмысленно проанализировать данные и сделать какие-либо выводы об успешности кампаний.

Вывод:

Задание у Яндекса конечно странное, действительно очевидно, что вводных недостаточно для анализа, о чем нейросеть и сообщила (хотя может в этом и была задумка Яндекса). Предполагаю, что именно поэтому ChatGPT воздержалась от каких-то точных выводов, а лишь сделала предположение, что может означать тот или иной показатель.

Так сможет ли ChatGPT в будущем заменить аналитиков данных?

Я решила спросить это у самой нейросети.

Нет, модели ИИ, такие как ChatGPT, не заменят аналитиков данных.

Хотя модели ИИ могут выполнять некоторые задачи, связанные с анализом данных, им не хватает способности понимать контекст, предоставлять информацию и принимать решения так же, как это могут делать аналитики данных.

Модели ИИ могут дополнять работу аналитиков данных, автоматизируя повторяющиеся задачи и предоставляя новые идеи и точки зрения, но они не могут заменить опыт и навыки критического мышления, которые привносят в работу аналитики данных.