Pull to refresh
2
0
Send message

Главное, что можно легко делать футажи для роликов на ютубе, например для иллюстрации происходящего, для закадрового текста.

Привет шаттерсток, с его роликами за 400 баксов!

Представляю, как трудно подобрать ник сейчас. Мой andrey.hvorov@gmai.com

Можете написать мне, что-нибудь интересное.

Документацию DuckDB прочитал в декабре, и теперь буду использовать только ее, из-за обилия аналитических функций. Про скорость https://duckdblabs.github.io/db-benchmark/

У вас очень верные и глубокие дополнения.

Датасет с 2013 по 2023, октябрь, покупался у фирмы торгующей подобными данными для целей анализа цен. Больше не работаю с этим проектом, и данных за февраль у меня нет. Вы можете посмотреть сайты dataflat или bnmap, там много открытых данных о ситуации на рынке. Они же продают такие датасеты.

Да, такой анализ провести можно было, и я его проводил на тот момент. Очень сильное затоваривание рынка, построили больше, чем могли продать все застройщики в России.

Хорошо, что вы прошлись этим пунктам, но я отвечу:

  1. Как много фирм в РФ готовы нанять специалиста по C# для оптимизации работы с данными? И как много специалистов по C# знают хорошо доменную область, чтобы знать, как выводить те или иные агрегаты или метрики, pnl for example? Сейчас даже финансисты с удовольствием учат python, чтобы автоматизировать рутину по подготовке этой информации. Мое мнение, что финансисту проще выучить язык, чем сишарписту - финансы. Это новая грамотность.

  2. Соглашусь.

  3. Плюсы да, но они и платить за зарубежный софт все труднее. Красить таблицы можно и в OpenOffice, а вот чего там нет, так это аналога Power query/bi/pivot. Многие корпораты уйдут в сторону открытого ПО, яркий пример Superset вместо больой bi тройки.

  4. Да, но эту проблему решают тесты, теоретически. Не знаю, насколько просто их организовать в vba?

Да есть 2 вида работы с excel: первый - анализ данных, второй - планирование, раскрашивание, декомпозиция, составление графика дежурств на кухне. Я больше про первый тип, когда в компаниях несколько филиалов и подразделений, которые например отчеты подают в одной форме, и их нужно забирать в один фаил "прицепляя" эти таблицы и снизу и слева друг к другу. Уверен, что кейс не самый частый, но востребованный.

Итоговые отчеты и сводные таблицы, все равно будут раскрашивать)

Спасибо за замечание!

Здравствуйте! Про кейс с Delphi не слышал, а что касается наличия Python, так он нам помог обработать данные в одном ноутбуке, это намного удобнее чем в excel. Также подобный пайплайн данных может включать в себя и сбор данных по API, и вообще еще круче: участие DAGs в Airflow. Но это все уже для продвинутых пользователей.

Мне кажется, что и с документацией и поддержкой именно этой схемы проблем быть не должно. Я думаю питониста средней квалификации можно найти за 5 минут в любом старбаксе, а вот дельфиста, наверное нужно долго искать.

Старался передать сам принцип сбора, обработки и анализа данных на этих инструментах, разбирая и поясняя самые азы.

Это он про ваш текст! (Злая шутка).

Во многом согласен, но мало примеров и доказательств. Сделали бы бутстрап на 1000 пользователях и показали бы невозможность проведения исследования.

Ставил Оламу еще летом, но она при генерации ответа из командной строки положила мне 8 gb m1 air. Тогда я понял, что это печатная машинка, и нужно было 16 gb брать! Как в требованиях к локальным моделям и есть сейчас.

Тем более что есть и таймлайн и в ячейку Google sheets можно протянуть событие с помощью чипа, тем самым имея ссылки и туда и сюда.

Если проще SQL - это ремесло. На мой субъективный взгляд (я примерно прикинул) существует около 300 "фишек", "приёмчиков ", "шаблонов" для sophisticated data analysis. Это очень похоже на оригами, а я им занимался в начальной школе:). Таблицы как бумага, ее нужно гнуть в определённых последовательностях.

Во-первых берите неагрегированные данные, чем "сырее" тем лучше и ближе к жизни.

Я убедился, что нужно не тренажёры проходить (на то стоит потратить время все таки), но для развития мастерства нужно делать и делать запросы к новым данным и ставить аналитические гипотезы самому себе! И не на одном датасете, а в первый год перепробовать их несколько десятков.

Во-вторых. Важно! Не берите датасеты из kaggle, за редким исключением:спорт, погода, игры. Не берите ирисы, титаник, может только в самом начале. Берите csv с сайтов всемирного банка, мосбиржи, разные сайты по медицинским исследованиям с сырыми данными. Некоторые имеют открытые базы данных read only.

Все потому, что в большинстве датасеты на kaggl сгенерированы (скорее всего с помощью faker) по Паретто. Конечно не все, но очень часто синтетические. Это просто не интересно анализировать. Трудно будет научиться делать выводы и последовательный анализ.

Еще про интерес: мне крайне было не интересно анализировать библиотеку на степике, в том самом "легендарном" курсе. Не интересно было проходить на sqlex задания про продажи оргтехники. Но вот что увлекло, так это создание собственных ds из открытых источников, stratascratch faang задачи, top 50 SQL вопросов на leetcod, и курс Глеба Михайлова (после него я действительно увидел "анализ", почувствовал вкус к этому и полюбил инструмент. (Если вы не изучили до сих пор SQL, скорее вы его не любите)

P. S. Учите clickhouse ( синтаксис, и его эксклюзивные функции, будете на порядок круче всех и востребованнее.)

Я написал: а если?

Вы мне написали, что обратному доказательств тьма в науке, и привели пример не исследования, а наблюдение про школьников.

Компьютер это автомат, почему бы автоматам не объединиться в сеть? Те же "зеркальные нейроны" чем не сеть для обмена информацией.

А если "обучение" происходит вне мозга, и это всего лишь интерфейс подключения к ноосфере, или "общему" сознанию. Что конечно сейчас наукой отрицается. То есть есть общий для вида вычислительный центр. (муравьи, стаи птиц, косяки рыб, мегаполисы людей).

Но вопросы, которые ставятся в статье крайне хороши. Что такое данные для мозга? Почему мы учимся быстрее и нам нужно меньше данных, чем машине?

Очень давно думал об этом, думал о том, являемся ли мы вечными существами или натренерованой спермой. Поищу автора в оригинале.

Не оправдывайтесь за протеже на будущее. Это глупо, так скоро в минцифре кресло будет, а все равно будете юродничать.

А вообще у вас видимо "самозванец" заиграл, решили эксперта изобразить. Так и надо! Без иронии.

Не хватает гифок

Интересно. Но это вот цели можно вынести в bi, а теги "красить" расширением для браузера.

А вот интеграции мало раскрыты. Не ясна роль БД и процесса сбора и записи данных.

Information

Rating
Does not participate
Registered
Activity

Specialization

Data Analyst, Product Analyst
Middle
From 200,000 ₽
SQL
PostgreSQL
Python
Database