Удивительно, что "руководитель направления аналитики данных в Сбере и эксперт на курсе «Специалист по Data Science» в Яндекс Практикуме." ни разу не использовал слово "аппроксимация" в статье по ИИ
Так и получается, что нужно прочитать построчно (лучше пачками) все 10G и для каждой строки по URL вести счетчик - а это лучше mmap. И сразу хранить 10 наиболее частых, что бы не сортировать потом.
И тут вопрос - а если будет 11 одинаковых наиболее частых? Которые 10 из них пойдут в ответ?
Очень интересно посмотреть правильное решение вот этого. ПРавильное по Озону, конечно
Потоковая обработка лог-файла – Ozon, Middle
Имеем файл логов 10 GB. Посчитать топ-10 URL по количеству запросов. В память не влезает. Ожидается решение через генераторы и collections.Counter.
Ozon любит data processing. Кандидат, который делает file.readlines() провалил задачу ещё до того, как начал считать. Правильный ответ: генератор, построчное чтение, Counter с most_common(10). Могут задать вопрос: "а если URL миллионы уникальных и Counter не влезает в память?"
Пока не начнут считать ошибку второго рода ничего не наладится.
Поясню, вот пришел кандидат и не прошел скриннинг. И никто никогда никакой HR или кадровик или еще кто в конторе не проверяет, может он в соседней конторе принят и уже приносит им миллиарды в прибыль?
Вот пока не начнут считать эту ошибку всё так и останется, в мраке.
А разве Канторовича уже запретили ?
А с чего это вдруг это пространство евклидово?
В
-мерном вещественном евклидовом пространстве
Шукшин "Срезал"
https://skazki.rustih.ru/vasilij-shukshin-srezal/
Так алхимики завсегда холуистее химиков и астрономы всегда астрологов беднее
Как то же до сих пор справлялись
Наверно все таки просто прикладной математик принесет гораздо больше пользы.
Есть еще проблема в бесконтрольности HR.
Ни разу еще не было такого, что бы после отказа кто-то из начальников проверил бы своих HR. Ведь тогда в хх.ру был бы второй просмотр и это видно.
Удивительно, что "руководитель направления аналитики данных в Сбере и эксперт на курсе «Специалист по Data Science» в Яндекс Практикуме." ни разу не использовал слово "аппроксимация" в статье по ИИ
Вот тут https://habr.com/ru/articles/591209/ эта проблема - подбора руководителя, освещена ярче и полнее. ))
Вот кто бы Хабр огранил, а то не блистает ))
Странные вы, Яндексы
Сначала понимаете, что события зависимы
А методы применяете как будто просмотры и заказы независимы и случайны.
И еще, была в школе задача про бассейн - вода через N труб вливается и через М выливается. Так и тут:
добавляй отель в систему, не добавляй - туристов от этого не прибавится и не убавится. Люди путешествуют не потому, что есть Яндекс-путешествия.
Начни с математики и таких слов "интерполяция", "экстраполяция" и " аппроксимация"
Подскажите пожалуйста,
Вот "доходы будущих периодов" понимаю.
А вот про выручку непонятно, помогите пожалуйста
Отличный путь к успеху.
Осталось добавить консъерж услуги и еще по мелочи
И сделать коробочную версию и вывести на рынок.
Думаю спрос будет хороший и рынок есть
Так вот вот в этом как раз собака зарыта.
Всё остальное, после формализации, уже давным давно расписано и если лень искать и читать, то можно спросить у ИИ.
А вот формализация реальности - это и есть суть нашей работы и для решения этих задач нет еще ни математики ни техники подходящей.
Только кожанный мешок с подпорками ! и то не всякий
Ну а если криво формализовать, то никакой ИИ никогда не поможет решить эту задачу
как-то так, один из самых опасных способов.
Лучше просто померять
интересно, для чего тогда OpenAI просит инвестиций на 1.5 триллиона долларов?
я про то, что большинство задач на собеседовании оторваны от реальности совсем.
Ага
Так и получается, что нужно прочитать построчно (лучше пачками) все 10G и для каждой строки по URL вести счетчик - а это лучше mmap. И сразу хранить 10 наиболее частых, что бы не сортировать потом.
И тут вопрос - а если будет 11 одинаковых наиболее частых? Которые 10 из них пойдут в ответ?
Дипсик читал весь лог и аггрегировал в mmap
У Вас, если, например, половина логов из одного URL, то опять не влезет в память один bucket.
Т.е. если реально глючит что-то и засирает лог, то такой перекос реален.
Очень интересно посмотреть правильное решение вот этого. ПРавильное по Озону, конечно
Deepseek выдал решение на 7200 строк
Как было так и осталось.
Пока не начнут считать ошибку второго рода ничего не наладится.
Поясню, вот пришел кандидат и не прошел скриннинг. И никто никогда никакой HR или кадровик или еще кто в конторе не проверяет, может он в соседней конторе принят и уже приносит им миллиарды в прибыль?
Вот пока не начнут считать эту ошибку всё так и останется, в мраке.