Articles / Bookmarks / Profile of ArkadiyShuvaev / Habr

@ArkadiyShuvaev

User

ProfileArticlesPostsNewsComments163

@Stefanio May 2 2024 at 09:00

Как потреблять API с ограничением по RPS в .NET приложениях

Easy

11 min

21K

RUVDS.com corporate blog.NET * C# * Concurrent computing * Programming *

Tutorial

✏️ Technotext 7

Однажды каждый C# программист получает на работе задачу по разработке интеграции с внешней системой, где ограничена максимальная частота запросов в секунду.

Интернет яростно сопротивлялся предоставить мне инструкцию к написанию такого кода, закидывая туториалами по настройке ограничения RPS на сервере, а не клиенте.

Но теперь на Хабре есть эта статья, которая научит отправлять запросы из HttpClient так, чтобы не получать 429 Too Many Requests.

Читать дальше →

+60

@kmoseenk Apr 22 2024 at 18:59

Как создать мультидокументный ридер и чат-бот с помощью LangChain и ChatGPT

16 min

8.9K

OTUS corporate blogArtificial Intelligence

Tutorial

Translation

Мы начнём с простого чат-бота, который может взаимодействовать только с одним документом; а закончим более продвинутым чат-ботом, который может взаимодействовать с несколькими различными документами и типами документов, а также сохранять историю чата — чтобы он мог отвечать на вопросы в контексте последних бесед.

+12

@MountainGoat Jan 1 2024 at 21:40

Начинаем продолжать: обработка исходников с помощью ИИ в оффлайне

Medium

17 min

17K

Abnormal programming * Artificial IntelligenceNatural Language Processing *

Review

В этой статье я расскажу про расширение «Continue» для VSCode, помогающее обрабатывать исходные коды и просто текст любым ИИ, в том числе бесплатным и запущенным локально; а так же покажу, что умеет делать локальный вариант ИИ уже сейчас.

+18

@MountainGoat Dec 19 2023 at 13:55

Как запустить Mixtral на своём компьютере

Medium

4 min

19K

Artificial Intelligence

Tutorial

Всякий раз, когда выходит новая хорошая публичная ИИ модель, Хабр наполняется вопросами "Как нам её попробовать" и неправильными ответами, будто нужно платить за какие-то сервисы или иметь железа на сто лямов. Поэтому я вновь напишу инструкцию, как запустить новейший mixtral-8x7 на обычных средних компьютерах.

@egaoharu_kensei Apr 1 2024 at 17:20

Пишем GPT в 60 строк NumPy (часть 1 из 2)

Medium

16 min

81K

Python * Algorithms * Artificial IntelligenceMathematics * Machine learning *

Tutorial

Translation

В этом посте мы начнём реализацию с нуля GPT всего в 60 строках numpy. Во второй части статьи мы загрузим в нашу реализацию опубликованные OpenAI веса обученной модели GPT-2 и сгенерируем текст.

Читать дальше →

+90

@veseluha Mar 12 2024 at 14:30

Пишем чат-бот для работы с PDF

7 min

13K

BotHub corporate blogArtificial IntelligenceMachine learning * PDFPython *

Tutorial

Популярность языковых моделей, в частности ChatGPT, растет в геометрической прогрессии, но многие из нас все еще сталкивается с определенными ограничениями, такими как устаревшая информация, которые OpenAI пока что не смогла преодолеть.

Но задумывались вы над тем, чтобы задавать вопросы непосредственно из своих документов, хранящихся в облаке? Сохраните своё время, которое уходило бы на поиски и ручной мониторинг сайтов, и задействуйте автоматизацию при работе с PDF-документами. Если вас занимает такая перспектива, эта статья окажется для вас ценным ресурсом.

Мы можем избежать риска недостоверных данных в ChatGPT, внедрив работу модели через RAG. В нашем материале мы подробно объясним, как создать чат-бота для взаимодействия с документами из вашего хранилища с помощью LangChain.

Приступим (:

+13

@stalkermustang Mar 6 2023 at 05:26

Как работает ChatGPT: объясняем на простом русском эволюцию языковых моделей с T9 до чуда

Easy

30 min

619K

Open Data Science corporate blogMachine learning * Artificial IntelligenceThe future is hereNatural Language Processing *

Review

Technotext Winner 2023

В последнее время нам почти каждый день рассказывают в новостях, какие очередные вершины покорили языковые нейросетки, и почему они уже через месяц совершенно точно оставят лично вас без работы. При этом мало кто понимает — а как вообще нейросети вроде ChatGPT работают внутри? Так вот, устраивайтесь поудобнее: в этой статье мы наконец объясним всё так, чтобы понял даже шестилетний гуманитарий!

Погнали →

+341

286

@stalkermustang Feb 28 2024 at 04:55

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT

Medium

41 min

120K

Machine learning * Popular scienceArtificial IntelligenceThe future is here

Review

Ну что, уже успели прочитать восхищения небывалым качеством видео от нейросетки SORA у всех блогеров и новостных изданий? А теперь мы вам расскажем то, о чем не написал никто: чего на самом деле пытается добиться OpenAI с помощью этой модели, как связана генерация видео с самоездящими машинами и AGI, а также при чем здесь культовая «Матрица».

Войти в симуляцию →

+282

123

@Selenum Feb 14 2024 at 11:12

Как провести фаззинг REST API с помощью RESTler

7 min

9.4K

Swordfish Security corporate blogInformation Security *

Tutorial

Привет, Хабр! С вами Владимир Исабеков, руководитель группы статического тестирования безопасности приложений в Swordfish Security. Современная разработка программного обеспечения требует не только функционального, но и безопасного API. Сегодня мы расскажем, как провести фаззинг-тестирование API c помощью инструмента RESTler, имея на руках только спецификацию API. Статья написана в соавторстве с нашим инженером по безопасности, Артемом Мурадяном @TOKYOBOY0701.

+12

@sldo_ru Jan 25 2024 at 07:20

Cache API — кэшируем данные на стороне клиента

Medium

6 min

18K

TypeScript * API * Programming * JavaScript * Website development *

Tutorial

Cache API - сравнительно старый API для управления хранилищем кэша, доступный уже во всех современных браузерах и являющийся частью ServiceWorker.

Разберемся, как мы можем его использовать, сравним с другими методами организации кэша на стороне клиента, а также реализуем новостную ленту с применением Cache API.

@MaxRokatansky Jan 24 2024 at 13:22

Рынок труда и перспективы карьеры в Data Science в 2024 году

Easy

8 min

31K

OTUS corporate blogMachine learning * Studying in ITIT career

Interview

На связи команда курсов Data Science OTUS. В данной статье Product Manager Мария Кузьмина собрала аналитические выкладки c hh, бизнес-секреты от Tinkoff и комментарии профессионалов о том, что они думают о специфике рынка труда в Data Sciencе/ML, а также какой стек нужен для разных позиций.

Согласно прогнозу американской консалтинговой компании Gartner, мировые расходы на информационные технологии в 2024 году увеличатся на 8% и составят порядка 5,1 трлн долларов. Это говорит об очередном повышении спроса на ИТ-специалистов в мире и росте профильных вакансий на рынке труда. А среди языков программирования 1‑е место в области Data Science / ML Engineering занимает Python.

На российском рынке труда, есть хорошие новости для кандидатов из возрастной группы 35+. Ситуация в России в 2023 году характеризовалась значительным дефицитом кадров, который связывают в том числе с последствием демографического спада 90-ых годов. Уровень дефицита достиг максимальных значений за всю историю наблюдений, с hh.индексом опустившимся до 3,1 пункта. Количество вакансий увеличилось на 76% по сравнению с началом 2021 года, в то время как число резюме за этот же период выросло всего на 15%. Рекрутеры прогнозируют и рекомендуют компаниям расширять привычную воронку найма и смотреть на кандидатов вне определенных негласных стереотипов даже в ИТ сегменте.

Средняя зарплата российского специалиста по Data Science / ML enginer / Аналитика-разработчика варьируется от 115 до 180 тысяч рублей, причем джуниоры зарабатывают от 60 до 80 тыс. руб., миддлы — от 100 до 250 тыс. руб., а синьоры — от 250 тыс. руб. и выше. Ведущие специалисты с опытом около 5-6 лет могут зарабатывать до 400-500 тыс. рублей в месяц.

Комментарии экспертов отрасли

@Sivchenko_translate Jan 14 2024 at 11:31

С новым годом: GPT в 500 строках на SQL

42 min

44K

Entertaining tasksProgramming * SQL * Machine learning * Artificial Intelligence

Translation

В минувшем году все только и говорили об ИИ и о том, как он может всё за вас сделать.

Мне нравится, когда кто-то или что-то работает за меня. Поэтому решил: попрошу-ка ChatGPT написать за меня новогодний пост:

«Эй, ChatGPT. А ты можешь реализовать большую языковую модель на SQL?»
«Нет, SQL не подходит для реализации больших языковых моделей. Язык SQL предназначен для выполнения запросов к данным, хранящимся в РСУБД и для управления этими запросами. Для реализации большой языковой модели требуются сложные алгоритмы, обширные датасеты, а зачастую — и фреймворки для глубокого обучения. SQL всеми этими возможностями не обладает.»

Что ж, лишний раз убеждаешься, что, если хочешь что‑то сделать хорошо – сделай это сам.

Давайте же воодушевимся этим оптимистическим планом и реализуем большую языковую модель на языке SQL.

+202

@ru_vds Jan 8 2024 at 13:00

Собираем автономную игру на C# в 2 килобайтах

Medium

11 min

23K

RUVDS.com corporate blogC# * Client optimization * Compilers * Programming *

Tutorial

Translation

Моё детство пришлось на эпоху 1,44-мегабайтных дискет и 56-килобитных модемов, поэтому я всегда любил маленькие программы. Раньше можно было записать на дискету кучу мелких игр и таскать её с собой. Если программа не помещалась на дискету, я задумывался, почему — в ней много графики? Есть музыка? Возможно, она выполняет много сложных операций? Или она просто раздута?

В наши дни дисковое пространство стало настолько дешёвым, что люди отказались от оптимизации по размеру.

Размер важен только при передаче: если вы передаёте программу по проводам, мегабайты равны секундам. По быстрому соединению на 100 Мбит в лучшем случае можно передать 12 МБ в секунду. Если на другом конце провода находится человек, ожидающий завершения скачивания, то разница между пятью и одной секундой может существенно повлиять на его ощущения.

Человек может зависеть от времени передачи как напрямую (пользователь, скачивающий программу по сети), так и косвенно (serverless-сервис, отвечающий на веб-запрос).

Люди обычно воспринимают всё, что длится меньше 0,1 секунды, как мгновенное, 3 секунды — это примерно тот предел, после которого прерывается состояние потока пользователя; а уж 10 секунд удержать внимание пользователя очень сложно.

Хотя уменьшение сегодня уже необязательно, оно всё равно лучше.

Эта статья задумывалась как эксперимент, позволяющий выяснить, каким может быть минимальный размер полезного автономного исполняемого файла C#. Могут ли приложения на C# достичь размеров, при которых пользователи будут ощущать их скачивание как мгновенное? Позволит ли это использовать C# там, где он не используется сейчас?

Читать дальше →

+126

@NewTechAudit Dec 27 2023 at 07:16

В поисках аномалии: одноклассовая классификация текстов с помощью расхождения Кульбака—Лейблера

Medium

9 min

3.9K

Сбер corporate blogInformation Security * Machine learning *

Case

✏️ Technotext 2023

Привет, Хабр! На связи участница профессионального сообщества NTA Корсакова Елена.

Поиск аномалий в корпусе текстов является нетривиальной задачей, особенно если размечен набор данных только с аномальными текстами. При этом различия могут не бросаются в глаза — все тексты написаны на одном языке, да и стиль текстов схож: например, заявки, ошибочно попавшие не в ту очередь, нетипичные события в логах или письма от мошенников. В посте расскажу о решении данной задачи — одноклассовой классификация текстов, с помощью расхождения Кульбака—Лейблера.

+25

@stalkermustang Dec 18 2023 at 14:28

GPT-like модель «впервые сделала научное открытие»: что, как, и куда дальше?

Medium

21 min

129K

Open Data Science corporate blogNatural Language Processing * The future is hereArtificial IntelligenceMathematics *

Review

14го декабря в одном из самых авторитетных общенаучных журналов Nature была опубликована статья с, кажется, сенсационным заголовком: «ИИ-модели Google DeepMind превосходят математиков в решении нерешённых проблем». А в блогпосте дочки гугла и вовсе не постеснялся указать, что это — первые находки Больших Языковых Моделей (LLM) в открытых математических проблемах. Неужели правда? Или кликбейт — и это в Nature? А может мы и вправду достигли техносингулярности, где машины двигают прогресс? Что ж, давайте во всём разбираться!

Ну давай разберёмся →

+171

273

@Bright_Translate Nov 24 2023 at 13:00

Моя любимая задача для собеседований по программированию

Medium

9 min

110K

RUVDS.com corporate blogAlgorithms * Entertaining tasksProgramming *

Review

Translation

В сети есть уйма постов и видео, где разбираются ответы на вопросы LeetCode. Но обычно рассмотрение в них происходит с позиции соискателя, а не работодателя. В этой же статье я приведу разбор собственной задачи по программированию, которую использовал при приёме людей на работу в Amazon, Google и Microsoft.

Читать дальше →

+121

170

@Wladradchenko Nov 15 2023 at 15:27

Клонирование голоса из музыки, удаление движимого текста из видео и новые фишки во второй части обновления Wunjo AI

Easy

5 min

9.1K

SoundArtificial IntelligenceSoftwarePython * Open source *

Review

Привет, Хабр! Наконец, после множества бессонных ночей, я завершил работу над второй частью обновления open-source проекта Wunjo AI и воплотил своё видение приложения. В этом обновлении основное внимание уделено звуку: улучшено клонирование голоса, извлечение вокала или мелодии из песен и повышение качества речи. Но это не все, также появились новые функции для работы с видео и создания дипфейков. Давайте рассмотрим все по порядку: начнем с звука и перейдем к видео и дипфейкам. В конце статьи вы найдете ролик, в котором объясняется работа с видео в приложении и функционирование нейронных сетей для создания дипфейков и не только.

Если вам интересно, вы можете прочитать предыдущие статьи на Хабре о создании дипфейков в Wunjo AI и функциях работы с дипфейками и изменениями видео с помощью текста.

Давайте начнем с звука. Одной из основных задач во второй части обновления была работа над звуком. Изначально в Wunjo AI использовалась адаптированная версия Real Time Voice Cloning, но подход был полностью переработан, что привело к улучшенной версии клонирования голоса. Теперь я использую кодировщик, обученный на аудиоматериале через Real Time Voice Cloning, в сочетании с HuBERT Soft. Этот метод позволяет точнее копировать скорость и тембр речи на этапе синтеза звука и перед работой вокодера. Кроме того, на основе исходного аудио, очищенного от шумов, определяется пол голоса (мужской или женский), а затем настройки вокодера подбираются в соответствии с типом голоса.

Однако эта статья сконцентрирована на более простых аспектах без технических деталей. Давайте взглянем на процесс клонирования голоса в Wunjo AI.

Посмотрим, что там внутри!

+10

@t3chnowolf Nov 15 2023 at 16:00

M5Stack Cardputer: миниатюрный ПК с ESP32-32, клавиатурой и беспроводным модулем за $30. Что это за устройство?

3 min

45K

МТС corporate blogGadgetsComputer hardwareDIY

В мире немало производителей ноутбуков и десктопов, буквально каждую неделю появляются новые модели. Но есть и разработчики весьма специфических устройств, которые можно использовать для решения очень широкого спектра задач. Одно из таких устройств — M5Stack Cardputer. Его размеры лишь немногим отличаются от размера кредитки (длина/ширина), но возможностей действительно много. Подробности — под катом.

+24

@MaxRokatansky Oct 26 2023 at 12:38

Как получить работу в области Data Science? 8 простых шагов

Easy

10 min

23K

OTUS corporate blogIT career

Translation

Перспективность и привлекательность карьеры в области Data Science привела к закономерному росту конкуренции. В условиях жесточайшей конкуренции между многочисленными кандидатами, стремящимися получить немногочисленные должности, выбор зачастую падает на тех, кто не только обладает всеми необходимыми навыками и опытом, но также способен эффективно коммуницировать. Сегодня мы поговорим с вами о требованиях к соискателям и действиях, которые можно предпринять, чтобы получить работу в области Data Science, представленных в виде восьми последовательных шагов.

1 2

4 5

Как потреблять API с ограничением по RPS в .NET приложениях

Как создать мультидокументный ридер и чат-бот с помощью LangChain и ChatGPT

Начинаем продолжать: обработка исходников с помощью ИИ в оффлайне

Как запустить Mixtral на своём компьютере

Популярные алгоритмы машинного обучения. Теоретические основы и реализация с нуля на Python

Пишем GPT в 60 строк NumPy (часть 1 из 2)

Пишем чат-бот для работы с PDF

Как работает ChatGPT: объясняем на простом русском эволюцию языковых моделей с T9 до чуда

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT

Как провести фаззинг REST API с помощью RESTler

Cache API — кэшируем данные на стороне клиента

Рынок труда и перспективы карьеры в Data Science в 2024 году

С новым годом: GPT в 500 строках на SQL

Собираем автономную игру на C# в 2 килобайтах

В поисках аномалии: одноклассовая классификация текстов с помощью расхождения Кульбака—Лейблера

GPT-like модель «впервые сделала научное открытие»: что, как, и куда дальше?

Моя любимая задача для собеседований по программированию

Клонирование голоса из музыки, удаление движимого текста из видео и новые фишки во второй части обновления Wunjo AI

M5Stack Cardputer: миниатюрный ПК с ESP32-32, клавиатурой и беспроводным модулем за $30. Что это за устройство?

Как получить работу в области Data Science? 8 простых шагов

Information

Specialization