Comments 6
Спасибо за статью. Действительно интересный опыт.
Все же очень смущает доверие к такому анализу. В том же pandas , хотя бы примерно понятно что и как выбирается. Тут же где гарантия, что модель не выдумала свой ответ?
Вы правы в своих сомнениях. Нейросети как хороший друг - если не знает как ответить, то может просто соврать, чтобы поддержать тебя. Ей нельзя верить на 100%, но она даст помощь в направлении куда мыслить, или с чего начать, если ты оказался в затруднении.
Очень просто, пусть llm использует python, и делает отчёт через пандас
Ровно так и работал анализ в чатгпт и клоде
@sneg2015 для дополнительной проверки корректности ответа LLM можно просить ее использовать конкретную библиотеку Python, например:
Вы: "Проанализируй мой файл 'my_data.csv', генерируя и выполняя Python код с pandas"
ответ LLM: "Я создам код для анализа:
``python import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv('my_data.csv')
print("Базовая статистика:")
print(df.describe())
print("Корреляционная матрица:")
print(df.corr())
# Построим график
plt.figure(figsize=(10, 6))
plt.scatter(df['x'], df['y'])
plt.title('X vs Y')
plt.show()
``"
@sneg2015 еще один вариант :
Вы - ассистент по анализу данных. Всегда отвечай, генерируя исполняемый Python код с pandas. Данные: файл 'sales.csv' с колонками: date, product, revenue, units_sold Задача: проанализировать сезонность продаж Сгенерируй код который: 1. Загрузит данные 2. Преобразует даты 3. Посчитает месячную выручку 4. Построит график тренда 5. Выведет статистику Не объясняй словами - покажи код.
от LLM вы получите:
python
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
# Загрузка данных
df = pd.read_csv('sales.csv')
df['date'] = pd.to_datetime(df['date'])
# Анализ сезонности
df['month'] = df['date'].dt.month
monthly_revenue = df.groupby('month')['revenue'].sum()
print("Месячная выручка:")
print(monthly_revenue)
plt.figure(figsize=(12, 6))
plt.plot(monthly_revenue.index, monthly_revenue.values)
plt.title('Сезонность продаж')
plt.xlabel('Месяц')
plt.ylabel('Выручка')
plt.grid(True)
plt.show()
# Дополнительная статистика
print(f"Общая выручка: {df['revenue'].sum():.2f}")
print(f"Средние продажи в месяц: {monthly_revenue.mean():.2f}")Кстати, это SLM, а не LLM. Отсюда и компактность
Свой оффлайн-ассистент на Phi-3-mini: Разворачиваем локальную модель нейросети для анализа данных с открытым кодом