Articles / Bookmarks / Profile of Marfa-Marfa / Habr

How to become an author

User

Profile Publications 1Comments 5Bookmarks 21

Mark_K Apr 18 2023 at 08:37

LangСhain: создаем свой AI в несколько строк

Medium

6 min

45K

Machine learning*Artificial Intelligence

Tutorial

В этой данной статье познакомимся с LangChain, перспективным фреймворком для работы с языковыми моделями. С его помощью можно создать свой собственный аналог ChatGPT всего в несколько строк кода. Благодаря модульной структуре, LangChain позволяет быстро и легко разрабатывать AI приложения различной сложности.

Читать далее

+13

Waujito Jul 31 at 07:16

Замедление YouTube с технической стороны: ограничение и обход

4 min

354K

Network technologies*

Привет, Хабр!

В последнее время замечаю огромное количество информации по поводу замедления Великого, но очень мало где видел конкретику о том, как именно это работает. Одно лишь отчаяние "мы все умрём".

Сразу скажу, что буду говорить обо всём, что известно на данный момент. Понятно, что с этим разбирался далеко не один я: огромное спасибо обывателям ntc party форума за проделанный ресёрч.

В конце статьи есть информация об известных на данный момент способах обхода, а также список ресурсов, с помощью которых можно еще глубже копнуть в замедление.

Читать далее

+610

mashkka_t Jul 24 at 17:16

ruMTEB: новый бенчмарк для русскоязычных эмбеддеров

Medium

11 min

3.8K

Machine learning*Artificial IntelligenceSberDevices corporate blog

Салют, Хабр! На связи команды AGI NLP и нейронных сетей Виртуального ассистента Салют. В SberDevices наши команды занимаются созданием бенчмарков, а также обучением моделей для векторных представлений текстов или эмбеддеров. В этой статье расскажем про наш новый русскоязычный бенчмарк для эмбеддеров текста — ruMTEB.

Читать далее

+32

avdosev Mar 4 at 10:00

Как мы научили YandexGPT пересказывать видео

Medium

14 min

16K

Яндекс corporate blogBrowsersMachine learning*Artificial IntelligenceNatural Language Processing*

✏️ Technotext 2023

Порой бывает сложно перематывать длинный ролик в надежде найти хоть что-то интересное или тот самый момент из Shorts. Или иногда хочется за ночь узнать, о чём шла речь на паре научных конференций. Для этого в Браузере есть волшебная кнопка — «Пересказать», которая экономит время и помогает лучше понять, стоит ли смотреть видео, есть ли в нём полезная информация, и сразу перейти к интересующей части.

Сегодня я расскажу про модель, которая быстро перескажет видео любой длины и покажет таймкоды для каждой части. Под катом — история о том, как мы смогли выйти за лимиты контекста модели и научить её пересказывать даже очень длинные видео.

Читать далее

+63

MaxRokatansky Oct 26 2023 at 15:38

Как получить работу в области Data Science? 8 простых шагов

Easy

10 min

16K

IT careerOTUS corporate blog

Translation

Перспективность и привлекательность карьеры в области Data Science привела к закономерному росту конкуренции. В условиях жесточайшей конкуренции между многочисленными кандидатами, стремящимися получить немногочисленные должности, выбор зачастую падает на тех, кто не только обладает всеми необходимыми навыками и опытом, но также способен эффективно коммуницировать. Сегодня мы поговорим с вами о требованиях к соискателям и действиях, которые можно предпринять, чтобы получить работу в области Data Science, представленных в виде восьми последовательных шагов.

Читать далее

+8

badcasedaily1 Nov 17 2023 at 12:55

Анализ текстовых данных с помощью NLTK и Python

Easy

9 min

29K

Python*System Analysis and Design*OTUS corporate blog

Review

Привет, Хабр!

NLTK предлагает удобные инструменты для множества задач NLP: токенизация, стемминг, лемматизация, морфологический и синтаксический анализ, а также анализ настроений. Библиотека идеально подходит как для начинающих, так и для опытных разработчиков, предоставляя интуитивно понятный интерфейс и обширную документацию.

В NLTK включены корпуса текстов и словарные ресурсы, такие как WordNet, позволяющие работать с огромным объемом текстовых данных. Это делает NLTK мощным инструментом для анализа и обработки текста на разных языках.

NLTK — это свободно распространяемая библиотека Python, разработанная для работы с человеческим языком. Это комплексный набор инструментов, предназначенный для символьной и статистической обработки естественного языка. Она предоставляет легкий доступ к более чем 50 корпусам текстов и лексическим ресурсам, таким как WordNet, а также набор библиотек для классификации, токенизации, стемминга, метки частей речи, синтаксического анализа и семантического рассуждения.

Читать далее

+9

MaxRokatansky Nov 21 2023 at 13:01

Обучение с подкреплением: 10 вариантов применения

9 min

6.3K

Machine learning*OTUS corporate blog

Translation

В системе обучения с подкреплением агенты обучаются с помощью механизма вознаграждений и наказаний. Агент получает вознаграждение за правильные действия и наказание за неправильные. При этом агент старается минимизировать неправильные ходы и максимизировать правильные. В этой статье мы с вами рассмотрим некоторые из реальных применений обучения с подкреплением.

Читать далее

+9

badcasedaily1 Nov 30 2023 at 08:03

Изучение потребительского поведения с помощью анализа данных

Easy

15 min

4.2K

Business Models*OTUS corporate blog

Review

Привет, Хабр!

В этой статье мы разберем принципы потребительского поведения. Понимание потребительского поведения становится не просто важным аспектом, а маст хев элементом стратегии любой компании. Ведь каждый клик, каждый выбор и даже секунды пребывания на сайте рассказывают историю о предпочтениях, желаниях и потребностях клиента.

К примеру зададимся вопросом: "Что заставляет потребителя выбрать именно этот продукт или услугу?" Ответ кроется не только в качестве или цене, но и в глубоких психологических, социальных и личных факторах, которые анализ данных помогает выявить и понять.

Читать далее

+12

badcasedaily1 Dec 7 2023 at 08:06

CatBoost

Easy

11 min

14K

Programming*Algorithms*OTUS corporate blog

Review

Добрый день, уважаемые читатели Хабра!

CatBoost – алгоритм, разработанный специалистами из Yandex, представляет собой нечто большее, чем просто ещё один инструмент в арсенале данных науки. CatBoost – это гармоничное сочетание инноваций и эффективности, особенно когда дело доходит до работы с категориальными данными.

Первые шаги CatBoost были сделаны в 2017 году, когда мир уже знал о таких гигантах, как XGBoost и LightGBM. В чем же заключается уникальность CatBoost? Его разработка была направлена на решение специфических проблем, связанных с категориальными данными – той самой головной боли многих специалистов в области машинного обучения. С тех пор CatBoost прошёл долгий путь развития и совершенствования, став не просто эффективным инструментом, но и частью больших исследовательских проектов в различных сферах от финансов до биоинформатики.

CatBoost выделяется на фоне других алгоритмов градиентного бустинга благодаря ряду ключевых особенностей:

Читать далее

+14

kmoseenk Dec 15 2023 at 11:35

Продвинутые техники извлечения данных для достижения максимальной производительности

12 min

2.4K

Website development*OTUS corporate blog

Translation

Cегодня мы поговорим на тему оптимизации производительности для масштабируемых систем.

В современной постоянно развивающейся цифровой среде необходимо держать фокус внимания не только на функциональности программных систем — нужно создавать системы, способные беспроблемно и эффективно масштабироваться при значительных нагрузках. Однако, как могут подтвердить многие опытные разработчики и архитекторы, масштабируемость несет в себе уникальный набор сложных проблем. Даже незаметные на первый взгляд неэффективные моменты, будучи многократно умноженными, способны нарушить работу систем.

В этой статье мы рассмотрим хорошо зарекомендовавшие себя стратегии, которые можно легко интегрировать в кодовые базы, независимо от того, находятся ли они во фронтенде или бэкенде, и независимо от используемого языка программирования. Эти стратегии выходят за рамки теоретических предположений; они были тщательно протестированы и проверены в самых требовательных технологических средах по всему миру.

Читать далее

+15

badcasedaily1 Jan 18 at 13:18

Эмбеддинги для начинающих

Easy

5 min

20K

Machine learning*OTUS corporate blog

Привет, Хабр!

В широком смысле, эмбеддинг - это процесс преобразования каких-либо данных (чаще всего текста, но могут быть и изображения, звуки и т.д.) в набор чисел, векторы, которые машина может не только хранить, но и с которыми она может работать. Звучит очень интересно. Казалось бы, наша речь - это так просто, все связано и понятно. Но как это объяснить машине?

В этой статье мы рассмотрим, что такое эмбеддинги и какие они бывают.

Проще говоря эмбеддинг - это способ преобразования чего-то абстрактного, например слов или изображений в набор чисел и векторов. Эти числа не случайны; они стараются отражают суть или семантику нашего исходного объекта.

В NLP, например, эмбеддинги слов используются для того, чтобы компьютер мог понять, что слова «кошка» и «котенок» связаны между собой ближе, чем, скажем, «кошка» и «окошко». Это достигается путем присвоения словам векторов, которые отражают их значение и контекстное использование в языке.

Эмбеддинги не ограничиваются только словами. В компьютерном зрении, например, можно использовать их для преобразования изображений в вектора, чтобы машина могла понять и различать изображения.

Читать далее

+15

kmoseenk Jan 24 at 13:33

15 самых востребованных ИТ-сертификаций в 2024 году

10 min

12K

IT careerOTUS corporate blog

Translation

Хотите сделать шаг вперед в карьере в сфере ИТ? В этой статье представлен обзор самых ценных ИТ-сертификаций, которые помогут увеличить зарплату в 2024 году.

Читать далее

+9

MaxRokatansky Jan 24 at 16:22

Рынок труда и перспективы карьеры в Data Science в 2024 году

Easy

8 min

14K

Machine learning*Studying in ITIT careerOTUS corporate blog

Interview

На связи команда курсов Data Science OTUS. В данной статье Product Manager Мария Кузьмина собрала аналитические выкладки c hh, бизнес-секреты от Tinkoff и комментарии профессионалов о том, что они думают о специфике рынка труда в Data Sciencе/ML, а также какой стек нужен для разных позиций.

Согласно прогнозу американской консалтинговой компании Gartner, мировые расходы на информационные технологии в 2024 году увеличатся на 8% и составят порядка 5,1 трлн долларов. Это говорит об очередном повышении спроса на ИТ-специалистов в мире и росте профильных вакансий на рынке труда. А среди языков программирования 1‑е место в области Data Science / ML Engineering занимает Python.

На российском рынке труда, есть хорошие новости для кандидатов из возрастной группы 35+. Ситуация в России в 2023 году характеризовалась значительным дефицитом кадров, который связывают в том числе с последствием демографического спада 90-ых годов. Уровень дефицита достиг максимальных значений за всю историю наблюдений, с hh.индексом опустившимся до 3,1 пункта. Количество вакансий увеличилось на 76% по сравнению с началом 2021 года, в то время как число резюме за этот же период выросло всего на 15%. Рекрутеры прогнозируют и рекомендуют компаниям расширять привычную воронку найма и смотреть на кандидатов вне определенных негласных стереотипов даже в ИТ сегменте.

Средняя зарплата российского специалиста по Data Science / ML enginer / Аналитика-разработчика варьируется от 115 до 180 тысяч рублей, причем джуниоры зарабатывают от 60 до 80 тыс. руб., миддлы — от 100 до 250 тыс. руб., а синьоры — от 250 тыс. руб. и выше. Ведущие специалисты с опытом около 5-6 лет могут зарабатывать до 400-500 тыс. рублей в месяц.

Комментарии экспертов отрасли

+2

kmoseenk Feb 12 at 14:11

Когнитивные искажения, о которых стоит помнить

15 min

84K

OTUS corporate blogBrain

Translation

Из-за когнитивных искажений мы иногда принимаем иррациональные решения, а также выносим суждения на основе информации, которую мы обрабатываем. Фактически, когнитивные искажения — это запрограммированная ошибка в нашем мозге.

Также их можно представить как простые правила, которым следует мозг, чтобы обрабатывать поступающую информацию с минимальными затратами.

Когнитивных искажений существует большое множество, и о них полезно знать. В этой статье мы сделаем обзор 151 искажения, которые часто встречаются в повседневной жизни: как в личной, так и в профессиональной.

Читать далее

+79

rikki_tikki Nov 15 2023 at 11:54

100 промптов для ChatGPT

10 min

48K

Programming*OTUS corporate blog

Translation

Не стоит ожидать, что в текущем виде ChatGPT способна проделать за вас работу, поскольку она еще слишком нова и наивна, хотя и учится и совершенствуется с каждым днем. При этом он вполне может помогать искать ошибки в коде и быстро сгенерировать простой код. Но для выполнения этих задач нужны правильные промпты, написать которые иногда не так просто, как кажется. В этой статье увидите, какие промпты можно использовать для работы с ChatGPT, а также в целом больше узнаете о том, с какими микрозадачами он может помочь.

Читать далее

+10

alenusch Nov 22 2023 at 14:30

MERA — инструктивный бенчмарк для оценки фундаментальных моделей

12 min

5.8K

Machine learning*Natural Language Processing*SberDevices corporate blog

Оценка ИИ — комплексная, сложная, но невероятно важная задача. Для тестирования моделей обычно используют бенчмарки — набор сложных заданий, решив которые, можно оценить способности языковых моделей. Благодаря бенчмаркам пользователи могут получить метрики по разным задачам и доменам, чтобы понять, как применять ту или иную модель; а исследователи получают объективную информацию, чтобы корректнее обучать свою модель для русского или другого языка, адаптировать ее, понимать, в какую сторону развивать исследования.

Ранее мы писали про коллаборативный проект Russian SuperGLUE нашей команды AGI NLP SberDevices, лаборатории Noah’s Ark Huawei и факультета компьютерных наук ВШЭ. Russian SuperGLUE (RSG) долгое время являлся стандартом, признанным академическими кругами и бизнесом. Однако с развитием языковых моделей становятся сложнее и способы их оценки. В качестве некоторого следующего витка развития процедуры оценки генеративных моделей для русского языка мы рассказывали про few-shot- и zero-shot-оценку на бенчмарке TAPE.

Сегодня исследователи говорят о новом поколении моделей, так называемых фундаментальных моделях. Эти модели обучались на более крупных объемах данных, что позволяет решать на них одновременно большое количество задач и взаимодействовать с ними через текстовые инструкции. Мы наблюдаем их удивительные возможности, но хотим объективно оценивать, что именно они действительно могут. Для этого мы выпустили новый инструктивный бенчмарк MERA: Multimodal* Evaluation for Russian-language Architectures.

Читать далее

+29

Lithium_vn Oct 27 2023 at 15:39

ИИ выходит на новый уровень: LLM обретают пространственно-временную картину мира

Medium

5 min

36K

Machine learning*Popular scienceArtificial IntelligenceBotHub corporate blog

Review

✏️ Technotext 2023

Исследователи из MIT под руководством Макса Тегмарка сделали важное открытие в области искусственного интеллекта. Им удалось доказать, что современные языковые модели (LLM), обученные на огромных массивах текстов, формируют внутри себя целостные модели мира, включающие представления о таких фундаментальных понятиях, как пространство и время.

Это открытие имеет принципиальное значение. Считалось, что для искусственного интеллекта недоступны базовые человеческие возможности, такие как самосознание, наличие картины мира и способность к человекоподобному мышлению, в принципе. Но это открытие стало gamechanger’ом в плане понимания того, как у ИИ происходит мыслительный процесс.

Предлагаем и Вам углубиться в это исследование и узнать, что конкретно было сделано и как!

Читать далее

+11

AmneziaAdept Oct 26 2023 at 20:09

Создаем свой VPN с защищенным от блокировок протоколом AmneziaWG, или WireGuard на максималках

5 min

160K

Information Security*Open source*Network technologies*Amnezia VPN corporate blog

Всем привет! Возможно уже совсем скоро разные новостные и IT-ресурсы будут подчищать информацию о способах обхода блокировок. А пока этого не случилось, запасаемся полезными гайдами и разворачиваем свои собственные VPN с защищенными от блокировок протоколами. Расскажу как это сделать, как изменилась Amnezia и как мы защитили WireGuard от блокировок.

Читать далее

+111

badcasedaily1 Oct 9 2023 at 16:13

Многоклассовая и многозадачная классификация

Easy

13 min

11K

Python*Machine learning*OTUS corporate blog

Review

Многоклассовая и многозадачная классификация обладают огромным потенциалом для решения разнообразных задач. Для того чтобы правильно понять их значимость, давайте разберемся, в чем заключается необходимость в этих двух подходах.

Многоклассовая классификация - это способность модели классифицировать входные данные на более чем два класса. Если вы рассматривали задачи бинарной классификации, то многоклассовая классификация позволяет вам расширить вашу модель для более общих сценариев. Это актуально в сферах, где категории или классы могут быть множественными, например, в распознавании рукописных букв, классификации изображений, определении типов болезней, анализе текстовых данных и др.

Существует много писем на языке, где есть множество классов: английский, испанский, французский и так далее. Многоклассовая классификация позволяет нам эффективно различать их.

Многозадачная классификация, с другой стороны, это подход, который позволяет одной модели решать несколько задач одновременно. Это особенно полезно, когда эти задачи взаимосвязаны и могут взаимодействовать между собой, улучшая общую производительность системы. Применение многозадачных моделей нашло широкое применение в компьютерном зрении, обработке естественного языка и других областях.

В автономных автомобилях многозадачные модели могут одновременно определять объекты на дороге, классифицировать их (например, машина, пешеход, велосипед) и предсказывать их движение.

Читать далее

+11

badcasedaily1 Oct 26 2023 at 18:20

Борьба с несбалансированными данными

Medium

12 min

11K

Python*Programming*System Analysis and Design*Machine learning*OTUS corporate blog

Review

Привет,Хабр!

Почему несбалансированные данные - это такая большая проблема? Все начинается с того, что в реальном мире классы могут быть не равномерно представлены в наших данных. Например, в задаче обнаружения мошенничества с кредитными картами, обычные транзакции будут составлять большую часть данных, в то время как мошеннические операции будут редкими. Если модель обучается на таких данных, она склонна к смещению в сторону более представленного класса, и это может привести к плохим результатам в реальном мире.

Борьба с несбалансированными данными - это не просто задача улучшения производительности моделей, это вопрос надежности и безопасности.

Что же делает борьбу с несбалансированными данными такой сложной задачей?

Читать далее

+9