Comments / Profile of ChePeter / Habr

Удивительно, что "руководитель направления аналитики данных в Сбере и эксперт на курсе «Специалист по Data Science» в Яндекс Практикуме." ни разу не использовал слово "аппроксимация" в статье по ИИ

Алмаз как оптическая система: почему именно огранка — ключевой фактор при оценке бриллианта

ChePeter Mar 26 at 12:09

Вот кто бы Хабр огранил, а то не блистает ))

Propensity Score Matching: как строить аналоги A/B-тестов, когда эксперименты невозможны

ChePeter Mar 4 at 09:25

Странные вы, Яндексы

Сначала понимаете, что события зависимы

Например, отель посмотрел мужчина с одного аккаунта и скинул посмотреть жене, а она заходит с другого аккаунта и не видит этот объект.

А методы применяете как будто просмотры и заказы независимы и случайны.

И еще, была в школе задача про бассейн - вода через N труб вливается и через М выливается. Так и тут:

добавляй отель в систему, не добавляй - туристов от этого не прибавится и не убавится. Люди путешествуют не потому, что есть Яндекс-путешествия.

45 000 лет на обучение Dota 2: Почему современный AI — это просто эффективная зубрежка

ChePeter Feb 28 at 10:56

Я школьник, и моя цель — стать исследователем и создавать AGI.

Начни с математики и таких слов "интерполяция", "экстраполяция" и " аппроксимация"

Рынок IT мёртв? 85 кандидатов, 49 собеседований и один толковый аналитик

ChePeter Feb 22 at 17:35

Подскажите пожалуйста,

как можно посчитать, например, выручку будущих периодов на основе предыдущих.

Вот "доходы будущих периодов" понимаю.

А вот про выручку непонятно, помогите пожалуйста

Мобильное приложение Sminex: как мы строим единый бэкенд на современном стеке

ChePeter Feb 20 at 10:54

Создание комфортной среды для жизни

Отличный путь к успеху.

Осталось добавить консъерж услуги и еще по мелочи

И сделать коробочную версию и вывести на рынок.

Думаю спрос будет хороший и рынок есть

Инженеры ИИ бьют тревогу, а мы продолжаем жить в 2024-м. Происходит нечто большее

ChePeter Feb 16 at 09:29

Я просто описываю – обычным человеческим языком, – что именно хочу получить

Так вот вот в этом как раз собака зарыта.

Всё остальное, после формализации, уже давным давно расписано и если лень искать и читать, то можно спросить у ИИ.

А вот формализация реальности - это и есть суть нашей работы и для решения этих задач нет еще ни математики ни техники подходящей.

Только кожанный мешок с подпорками ! и то не всякий

Ну а если криво формализовать, то никакой ИИ никогда не поможет решить эту задачу

Культура принятия решений: кейс Sminex на конференции Process Mining

ChePeter Feb 13 at 11:43

Дорога в ад вымощена благими намерениями и здравым смыслом

как-то так, один из самых опасных способов.

Лучше просто померять

243 строки, ноль библиотек: Андрей Карпати написал GPT на чистом Python

ChePeter Feb 12 at 09:01

интересно, для чего тогда OpenAI просит инвестиций на 1.5 триллиона долларов?

Реальные задачи с собеседований в Яндекс, VK, Ozon и Сбер — Go, Java, Python, React

ChePeter Feb 12 at 08:07

я про то, что большинство задач на собеседовании оторваны от реальности совсем.

Реальные задачи с собеседований в Яндекс, VK, Ozon и Сбер — Go, Java, Python, React

ChePeter Feb 12 at 07:39

Ага

Так и получается, что нужно прочитать построчно (лучше пачками) все 10G и для каждой строки по URL вести счетчик - а это лучше mmap. И сразу хранить 10 наиболее частых, что бы не сортировать потом.

И тут вопрос - а если будет 11 одинаковых наиболее частых? Которые 10 из них пойдут в ответ?

Реальные задачи с собеседований в Яндекс, VK, Ozon и Сбер — Go, Java, Python, React

ChePeter Feb 12 at 06:57

Дипсик читал весь лог и аггрегировал в mmap

У Вас, если, например, половина логов из одного URL, то опять не влезет в память один bucket.

Т.е. если реально глючит что-то и засирает лог, то такой перекос реален.

Реальные задачи с собеседований в Яндекс, VK, Ozon и Сбер — Go, Java, Python, React

ChePeter Feb 12 at 06:17

Очень интересно посмотреть правильное решение вот этого. ПРавильное по Озону, конечно

Потоковая обработка лог-файла – Ozon, Middle

Имеем файл логов 10 GB. Посчитать топ-10 URL по количеству запросов. В память не влезает. Ожидается решение через генераторы и collections.Counter.

Ozon любит data processing. Кандидат, который делает file.readlines() провалил задачу ещё до того, как начал считать. Правильный ответ: генератор, построчное чтение, Counter с most_common(10). Могут задать вопрос: "а если URL миллионы уникальных и Counter не влезает в память?"

Deepseek выдал решение на 7200 строк

Как мы создали систему интеллектуального поиска персонала с помощью виртуальных рекрутеров. Часть 1

ChePeter Feb 11 at 15:15

Как было так и осталось.

Пока не начнут считать ошибку второго рода ничего не наладится.

Поясню, вот пришел кандидат и не прошел скриннинг. И никто никогда никакой HR или кадровик или еще кто в конторе не проверяет, может он в соседней конторе принят и уже приносит им миллиарды в прибыль?

Вот пока не начнут считать эту ошибку всё так и останется, в мраке.

От исследования до роста метрик: как мы прокачали главную страницу hh.ru

ChePeter Feb 9 at 07:37

Это основная точка входа: здесь люди либо принимают решение зарегистрироваться и становятся нашими клиентами, либо разворачиваются и уходят.

Это Вы считаете, что пользователи принимают решение о пользовании hh.ru по первой странице сайта?

2 3 ...

29 30

Information

Specialization