Как стать автором
Обновить
27
0.3

Making good things happen

Отправить сообщение

Возвращение частного облака и интерес к инфраструктуре «реального времени»: что с последними трендами

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.4K

Начиная с середины 2010-х эксперты пророчили «смерть» частному облаку — то есть облачной среде, созданной и используемой одной компанией, в отличие от общей инфраструктуры, доступной в публичных облаках. Большая часть интереса к экосистеме облачных вычислений была сосредоточена на публичных облачных платформах. Бизнес массово переходил на IaaS, чтобы уменьшить затраты на обслуживание железа и поддержку ИТ-систем. 

Пользователями private cloud в основном оставались компании со специфическими требованиями к безопасности. Например, медицинские организации, которым необходимо хранить данные о пациентах в соответствии с нормами федерального законодательства. 

В сегодняшнем материале поговорим, как возродился интерес организаций к частным облакам, о тренде на универсальные и отраслевые платформы и о том, из-за чего активно развивается направление edge computing.

Читать далее
Всего голосов 10: ↑9 и ↓1+11
Комментарии0

Есть ли жизнь до fit/predict?

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров1.2K

Всем привет! Меня зовут Даниил Карпов, я старший NLP-разработчик в MTS AI. В эпоху LLM и огромных датасетов, вмещающих в себя весь интернет, кажется, что качество самих данных ушло немного на второй план: чем больше данных/параметров, тем лучше. Однако экстенсивный рост рано или поздно упирается в ограничения, когда становится уже слишком дорого/невозможно его продолжать. Роль хороших данных не стоит недооценивать, грамотный отбор может помочь значительно ускорить и удешевить обучение с одной стороны, тогда как отбраковка откровенно плохой разметки поможет улучшить качество с другой. Здесь я расскажу о некоторых из таких методов, которые использовались в процессе подготовки данных.

Читать далее
Всего голосов 7: ↑7 и ↓0+8
Комментарии0

Как анализировать тысячи отзывов с ChatGPT? Частые ошибки и пример на реальных данных

Уровень сложностиПростой
Время на прочтение19 мин
Количество просмотров5.4K

В этой статье я расскажу про свой опыт решения рабочей задачи — анализ отзывов о компании от пользователей. Мы разберем возможные ошибки и посмотрим на пример кода и реальных данных. Гайд будет полезен всем, у кого нет большого опыта в анализе данных или работе с LLM через API.

Читать далее
Всего голосов 20: ↑19 и ↓1+19
Комментарии12

Простые модификации для улучшения табличных нейронных сетей

Время на прочтение25 мин
Количество просмотров3.2K

Simple Modifications to Improve Tabular Neural Networks

 Растет интерес к архитектуре нейронных сетей для табличных данных. В последнее время появилось множество табличных моделей глубокого обучения общего назначения, вычислительная мощность которых иногда соперничает с возможностями деревьев решений с градиентным бустингом (GBDT - gradient boosted decision trees). Последние модели черпают вдохновение из различных источников, включая GBDT, машины факторизации и нейронные сети из других областей применения. Предыдущие табличные нейронные сети также используются, но, возможно, недостаточно учтены, особенно для моделей, связанных с конкретными табличными задачами. В данной статье основное внимание уделяется нескольким таким моделям и предлагаются модификации для повышения их производительности. Показано, что при модификации эти модели конкурируют с ведущими табличными моделями общего назначения, включая GBDT.

Введение

В последнее время многие архитектуры нейронных сетей были представлены в качестве табличных решений общего назначения. Некоторые примеры: Tabnet (Арик и Пфистер 2020), TabTransformer (Хуан и др. 2020), NODE (Попов, Морозов и Бабенко 2019), DNF-сеть (Абутбул и др. 2020). Внедрение этих и других моделей демонстрирует растущий интерес к применению глубокого обучения к табличным данным. Это не связано с отсутствием решений, выходящих за пределы возможностей глубокого обучения. Деревья решений с градиентным бустингом (GBDT) являются классом очень хороших моделей общего назначения и фактически часто используются табличными моделями глубокого обучения – как в качестве источника вдохновения, так и в качестве стандарта по производительности.

Читать далее
Всего голосов 4: ↑2 и ↓20
Комментарии0

Специалисты по информатике изобрели новый эффективный способ подсчёта уникальных элементов

Время на прочтение4 мин
Количество просмотров19K

Представьте, что вас отправили в девственный тропический лес, чтобы провести перепись диких животных. Каждый раз, когда вы видите животное, вы делаете снимок. Ваша цифровая камера будет фиксировать общее количество снимков, но вас интересует только количество уникальных животных — всех тех, которых вы ещё не посчитали. Как лучше всего получить это число? «Очевидное решение — запомнить всех животных, которых вы уже видели, и сравнивать каждое новое животное с этим списком», — говорит Лэнс Фортноу, специалист по информатике из Иллинойского технологического института. Но есть и более умные способы, добавил он, потому что если у вас тысячи записей, то очевидный подход далеко не так прост.

Всё становится ещё хуже. Что, если вы — Facebook, и вам нужно подсчитать количество отдельных пользователей, которые заходят на сайт каждый день, даже если некоторые из них заходят с нескольких устройств и в разное время? Теперь мы сравниваем каждый новый вход со списком, который может исчисляться миллиардами.

Читать далее
Всего голосов 74: ↑73 и ↓1+83
Комментарии50

Жёсткое руководство

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров27K

В последнее время всё чаще можно услышать об ужесточении чего-либо, в любой из сфер жизни. Поповское слово "милосердие" стало архинепопулярным во времена быстрых перемен. Массам предлагается образ "твёрдой руки", и массы взывают к "наведению порядка жёсткой рукой". В этом статье попробую рассказать, почему это всегда плохо как минимум при построении управления внутри коммерческой компании.

Читать далее
Всего голосов 62: ↑51 и ↓11+56
Комментарии100

Оптический поток: укрощение движения с помощью математики

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров3.3K

В этой статье собран материал по дифференциальным методам оптического потока, а также попытка, наконец, разобраться: что это такое, почему так, как так. Если у вас тоже есть непонимание, как с этим работать и что стоит внутри непонятного потока, то давайте разбираться вместе.

Читать далее
Всего голосов 4: ↑4 и ↓0+5
Комментарии8

Plane-based геометрическая алгебра для описания движения тел

Уровень сложностиСложный
Время на прочтение20 мин
Количество просмотров3.9K

Этот текст логически состоит из трёх частей. Сначала кратко расскажу про геометрическую алгебру с точки зрения математики. Потом расскажу как можно взять одну конкретную алгебру и использовать её для описания вращения и перемещения тел. И вишенка на торте - покажу, как будут выражаться физические сущности типа силы и момента, импульса, момента инерции и уравнений движения тел.

Читать далее
Всего голосов 40: ↑40 и ↓0+53
Комментарии10

Midjourney и промпты для пиксельных артов

Время на прочтение2 мин
Количество просмотров4.4K

Привет, чемпионы!

Часто ли вы обращаетесь к Midjourney или Stable Diffusion, чтобы нарисовать фантастический арт? Я да - нравится позалипать пару минут на фантастический арт. Давайте сегодня учиться генерировать подобные пикчи за пару кликов:

Посмотреть промпты
Всего голосов 10: ↑6 и ↓4+3
Комментарии10

Решаем простую статистическую задачу пятью способами

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров5.3K

Вот тут ув. @dimview на пальцах и Си объясняет за бутстрап решая несложную задачу. И в статистике существует 100500 разных тестов для (не)подтверждения нулевой гипотезы.

Давайте используем ряд самых распространеных и посмотрим на результаты. В конце сравним с бутстрапом. Изложение будет сопровождаться кратким выводом и объяснением основных тестов, их "ручной" реализацией и сравнением результата с готовыми тестами из пакета scipy.stats. В этом плане, мне кажется, повторение лишним не будет, т.к. позволит лучше понять и уяснить принцип и особенности тестов.

Сама задача звучит как: "И вот свежие результаты — в тестовой группе из 893 пришедших у нас что-то купили 34, а в контрольной группе из 923 пришедших что-то купили 28. Возникает вопрос — идти к начальству и говорить «в тестовой группе конверсия 3.81%, в контрольной группе 3.03%, налицо улучшение на 26%, где моя премия?» или продолжать сбор данных, потому что разница в 6 человек — ещё не статистика?"

Читать далее
Всего голосов 8: ↑7 и ↓1+8
Комментарии4

Используем Gemini для просмотра лекции

Время на прочтение9 мин
Количество просмотров14K

В феврале Google мы познакомились с Gemini 1.5 Pro с контекстным окном в 1 миллион токенов. Больший размер контекста означает, что Gemini 1.5 Pro может обрабатывать огромные объемы информации за один раз — 1 час видео, 11 часов аудио, 30 000 строк кода или более 700 000 слов. Это делает его на голову выше других моделей.

Сегодня я бы хотела рассмотреть вопрос обработки видео, а именно просмотра часового видео и оценить, как хорошо модель будет извлекать информацию.

Приятного прочтения!

Читать далее
Всего голосов 16: ↑15 и ↓1+14
Комментарии15

Кто реально угрожает C++ (нет, Rust, не ты)

Время на прочтение14 мин
Количество просмотров75K

Привет! Меня зовут Александр Каленюк, и я крепко подсел на C++. Пишу на C++ 18 лет кряду, и все эти годы отчаянно пытаюсь избавиться от этой разрушительной зависимости.

Всё началось в конце 2005 года, когда мне довелось писать движок для симуляции 3D-пространства. В этом движке было буквально всё, чем язык C++ мог похвастаться в 2005 году. Трёхзвёздочные указатели, восьмиуровневые зависимости, C-подобные макросы повсюду. Кое-где – вкрапления ассемблера. Итераторы в стиле Степанова и мета-код в стиле Александреску. В общем, всё. Кроме ответа на самый важный вопрос: зачем?

Читать далее
Всего голосов 220: ↑208 и ↓12+244
Комментарии361

Скрытые цепи Маркова, алгоритм Витерби

Время на прочтение5 мин
Количество просмотров60K
Нам нужно реализовать детектор лжи, который по подрагиванию рук человека, определяет, говорит он правду или нет. Допустим, когда человек лжет, руки трясутся чуть больше. Сигнал может быть таким:

Исходный сигнал

Интересный метод, описан в статье «A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition» L.R. Rabiner, которая вводит модель скрытой цепи Маркова и описывает три ценных алгоритма: The Forward-Backward Procedure, Viterbi Algorithm и Baum-Welch reestimation. Несмотря на то, что эти алгоритмы представляют интерес только в совокупности, для большего понимания описывать их лучше по отдельности.
Читать дальше →
Всего голосов 74: ↑73 и ↓1+72
Комментарии25

Индексный метод генерации конечных дискретных распределений

Время на прочтение2 мин
Количество просмотров4.5K
Иногда очень интересно провести имитацию броска кости. Для этого существует эффективный алгоритм, который позволяет сгенерировать значение выпавшее на верхней грани, используя псевдослучайное число alpha из равномерного распределения на [0,1]. А именно: image, где image — взятие целой части у аргумента.

Но предположим, что у нас «нечестная» кость и грани выпадают неравномерно. Пусть наша кость имеет K граней, и p_i вероятность выпадения грани image. При этом выполняется естественное ограничение image. Постараюсь ответить на вопрос: как смоделировать псевдослучайную последовательность с таким распределением?
Читать дальше →
Всего голосов 12: ↑9 и ↓3+6
Комментарии5

Создаем изометрические уровни игры с помощью Stable Diffusion

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров21K

Всем привет. Сегодня я покажу вам, как можно создавать 2.5D уровни в изометрии с помощью быстрого прототипирования техникой grayboxing, и генеративного искусственного интеллекта, а именно Stable Diffusion. Практически весь процесс, описываемый в статье, довольно легко автоматизируется.

Если интересно, добро пожаловать под кат.

Читать далее
Всего голосов 75: ↑75 и ↓0+84
Комментарии27

Существует ли частотная область в реальности?

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров11K

Частотная область — волшебное математическое пространство, которое трансформирует комплексные сигналы в амплитуды и фазы синусоид. Она открывает нам возможность применять разнообразные методы обработки сигналов, казавшиеся почти недостижимыми при их анализе в наиболее очевидной форме, а именно — во временной области.

Однако насколько материально частотное пространство? Дискретное преобразование Фурье (DFT) имеет ключевое значение в сферах связи и анализа сигналов, но не раскрывает ли оно более глубокие, скрытые аспекты реальности? Рассмотрим, к примеру, квадратные волны. Действительно ли они существуют, если преобразование Фурье разлагает их на ряд нечетных гармоник синусоид, которые, в свою очередь, эффективно предсказывают поведение электронных схем в реальном мире?

Сегодня я хочу немного уменьшить роль преобразования Фурье, сняв его с постамента. Несомненно, синусоидальные волны являются повсеместными в природе и служат мощным аналитическим инструментом для множества задач. Однако возможно создание иных частотных областей с хорошими свойствами, которые подчиняются другим принципам. К таким областям можно отнести ту, где реальностью являются исключительно квадратные волны, а все остальное представляет собой лишь гармонические составляющие.

Читать далее
Всего голосов 23: ↑22 и ↓1+27
Комментарии32

6 нейросетей для создания презентаций: тестируем и проверяем

Время на прочтение8 мин
Количество просмотров11K

Век живи - век учись, а презентации составлять так и не научишься. Сколько времени и сил тратится на подготовку этих стандартных презентаций, особенно во время сессии. Но что если значительную часть этой рутинной работы можно было бы делегировать искусственному интеллекту? Именно такую возможность обещают многочисленные сервисы, использующие нейросети для генерации презентационного контента.

В этом обзоре мы попробуем разобраться, что из себя представляют новомодные ИИ-генераторы презентаций. Честно оценим их возможности и ограничения, пройдемся по функционалу, проверим на практических примерах. 

Главный вопрос к этим сервисам - смогут ли они в текущей форме полностью заменить человека в создании качественного презентационного контента? Или они пока что больше напоминают ассистента, которому нужен присмотр и доработка результатов ручным трудом?

Исследуем, анализируем, делаем выводы! Ведь только опираясь на реальный опыт использования, можно понять, стоит ли овчинка выделки и имеет ли смысл переходить на ИИ-генерацию презентаций. Начнем!

Читать далее
Всего голосов 12: ↑11 и ↓1+12
Комментарии2

Как обнаружить галлюцинации в LLM?

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров3.4K

LLM продолжают свое пребывание в центре технологических дискуссий. Они трансформируют наши взаимодействия с технологиями, поскольку предоставляют возможность усовершенствованной работы в обработке и генерации текстов. Однако и упомянутые модели не идеальны, так как одна из их самых значительных проблем - галлюцинации, критическое препятствие в развитии LLM, возникающие в основном из-за качества обучающих данных, поскольку они могут быть неполными или противоречивыми.

Для эффективной работы с LLM крайне важно понимать что такое, эти "галлюцинации" и как их обнаружить. В статье мы опробуем обнаружение галлюцинаций, исследуя различные метрики сходства текста, и проанализируем их релевантность.

Читать далее
Всего голосов 8: ↑7 и ↓1+8
Комментарии6

Анализ новостей с помощью сегментации и кластеризации временных рядов

Время на прочтение10 мин
Количество просмотров5.9K

В Отусе я прошла курс ML Advanced и открыла для себя интересные темы, связанные с анализом временных рядов, а именно, их сегментацию и кластеризацию. Я решила позаимствовать полученные знания для своей дипломной университетской работы по ивент-анализу социальных явлений и событий и описать часть этого исследования в данной статье.

Шаг 1. Сбор данных

В качестве источника данных я взяла информационно-новостной ресурс Лента.ру, так как с него легко парсить данные, новости разнообразны и пополняются в большом объеме ежедневно. Для теста я спарсила новости за последний год (март 2023 – март 2024) с помощью питоновских BeautifulSoup и requests.

В коде происходит процедура сбора заголовка, даты и тематики новостей:

Читать далее
Всего голосов 18: ↑16 и ↓2+20
Комментарии9

Автоматизированная торговля акциями с использованием глубокого обучения с подкреплением

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров12K

В этой статье мы начинаем рассматривать практическое применение библиотеки FinRL для построения торгового агента. В предыдущей статье мы вкратце рассмотрели библиотеку FinRL, предоставляемые ей возможности моделирования рынка и обучения торговых агентов на основании алгоритмов обучения с подкреплением.

Это вторая статья нашего обучающего цикла и в ней мы построим примитивного агента, который анализирует поступающие данные о стоимости позиции на рынке и пытается предсказать будущую цену. Вполне очевидно, что результат такого примитивного агента будет весьма далек от приемлемого уровня, но этот шаг поможет нам создать модель рынка с помощью библиотеки FinRL, обучить агента и быть готовыми к построению более сложных и осмысленных моделей.

Читать далее
Всего голосов 18: ↑15 и ↓3+17
Комментарии13
1
23 ...

Информация

В рейтинге
1 994-й
Откуда
Stockholms Län, Швеция
Зарегистрирован
Активность