Статьи / Закладки / Профиль ArkadiyShuvaev / Хабр

@ArkadiyShuvaev

Пользователь

ПрофильСтатьиПостыНовостиКомментарии163

@Stefanio 2 мая 2024 в 09:00

Как потреблять API с ограничением по RPS в .NET приложениях

Простой

11 мин

21K

Блог компании RUVDS.comПрограммирование * Параллельное программирование * C# * .NET *

Туториал

✏️ Технотекст 7

Однажды каждый C# программист получает на работе задачу по разработке интеграции с внешней системой, где ограничена максимальная частота запросов в секунду.

Интернет яростно сопротивлялся предоставить мне инструкцию к написанию такого кода, закидывая туториалами по настройке ограничения RPS на сервере, а не клиенте.

Но теперь на Хабре есть эта статья, которая научит отправлять запросы из HttpClient так, чтобы не получать 429 Too Many Requests.

Читать дальше →

+60

@kmoseenk 22 апр 2024 в 18:59

Как создать мультидокументный ридер и чат-бот с помощью LangChain и ChatGPT

16 мин

8.9K

Блог компании OTUSИскусственный интеллект

Туториал

Перевод

Мы начнём с простого чат-бота, который может взаимодействовать только с одним документом; а закончим более продвинутым чат-ботом, который может взаимодействовать с несколькими различными документами и типами документов, а также сохранять историю чата — чтобы он мог отвечать на вопросы в контексте последних бесед.

+12

@MountainGoat 1 янв 2024 в 21:40

Начинаем продолжать: обработка исходников с помощью ИИ в оффлайне

Средний

17 мин

17K

Ненормальное программирование * Искусственный интеллектNatural Language Processing *

Обзор

В этой статье я расскажу про расширение «Continue» для VSCode, помогающее обрабатывать исходные коды и просто текст любым ИИ, в том числе бесплатным и запущенным локально; а так же покажу, что умеет делать локальный вариант ИИ уже сейчас.

+18

@MountainGoat 19 дек 2023 в 13:55

Как запустить Mixtral на своём компьютере

Средний

4 мин

19K

Искусственный интеллект

Туториал

Всякий раз, когда выходит новая хорошая публичная ИИ модель, Хабр наполняется вопросами "Как нам её попробовать" и неправильными ответами, будто нужно платить за какие-то сервисы или иметь железа на сто лямов. Поэтому я вновь напишу инструкцию, как запустить новейший mixtral-8x7 на обычных средних компьютерах.

@egaoharu_kensei 1 апр 2024 в 17:20

Пишем GPT в 60 строк NumPy (часть 1 из 2)

Средний

16 мин

81K

Python * Алгоритмы * Искусственный интеллектМатематика * Машинное обучение *

Туториал

Перевод

В этом посте мы начнём реализацию с нуля GPT всего в 60 строках numpy. Во второй части статьи мы загрузим в нашу реализацию опубликованные OpenAI веса обученной модели GPT-2 и сгенерируем текст.

Читать дальше →

+90

@veseluha 12 мар 2024 в 14:30

Пишем чат-бот для работы с PDF

7 мин

13K

Блог компании BotHubИскусственный интеллектМашинное обучение * PDFPython *

Туториал

Популярность языковых моделей, в частности ChatGPT, растет в геометрической прогрессии, но многие из нас все еще сталкивается с определенными ограничениями, такими как устаревшая информация, которые OpenAI пока что не смогла преодолеть.

Но задумывались вы над тем, чтобы задавать вопросы непосредственно из своих документов, хранящихся в облаке? Сохраните своё время, которое уходило бы на поиски и ручной мониторинг сайтов, и задействуйте автоматизацию при работе с PDF-документами. Если вас занимает такая перспектива, эта статья окажется для вас ценным ресурсом.

Мы можем избежать риска недостоверных данных в ChatGPT, внедрив работу модели через RAG. В нашем материале мы подробно объясним, как создать чат-бота для взаимодействия с документами из вашего хранилища с помощью LangChain.

Приступим (:

+13

@stalkermustang 6 мар 2023 в 05:26

Как работает ChatGPT: объясняем на простом русском эволюцию языковых моделей с T9 до чуда

Простой

30 мин

619K

Блог компании Open Data ScienceМашинное обучение * Искусственный интеллектБудущее здесьNatural Language Processing *

Обзор

Лучший Техноавтор 2023

В последнее время нам почти каждый день рассказывают в новостях, какие очередные вершины покорили языковые нейросетки, и почему они уже через месяц совершенно точно оставят лично вас без работы. При этом мало кто понимает — а как вообще нейросети вроде ChatGPT работают внутри? Так вот, устраивайтесь поудобнее: в этой статье мы наконец объясним всё так, чтобы понял даже шестилетний гуманитарий!

Погнали →

+341

286

@stalkermustang 28 фев 2024 в 04:55

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT

Средний

41 мин

120K

Машинное обучение * Научно-популярноеИскусственный интеллектБудущее здесь

Обзор

Ну что, уже успели прочитать восхищения небывалым качеством видео от нейросетки SORA у всех блогеров и новостных изданий? А теперь мы вам расскажем то, о чем не написал никто: чего на самом деле пытается добиться OpenAI с помощью этой модели, как связана генерация видео с самоездящими машинами и AGI, а также при чем здесь культовая «Матрица».

Войти в симуляцию →

+282

123

@Selenum 14 фев 2024 в 11:12

Как провести фаззинг REST API с помощью RESTler

7 мин

9.4K

Блог компании Swordfish SecurityИнформационная безопасность *

Туториал

Привет, Хабр! С вами Владимир Исабеков, руководитель группы статического тестирования безопасности приложений в Swordfish Security. Современная разработка программного обеспечения требует не только функционального, но и безопасного API. Сегодня мы расскажем, как провести фаззинг-тестирование API c помощью инструмента RESTler, имея на руках только спецификацию API. Статья написана в соавторстве с нашим инженером по безопасности, Артемом Мурадяном @TOKYOBOY0701.

+12

@sldo_ru 25 янв 2024 в 07:20

Cache API — кэшируем данные на стороне клиента

Средний

6 мин

18K

TypeScript * Проектирование API * Программирование * JavaScript * Веб-разработка *

Туториал

Cache API - сравнительно старый API для управления хранилищем кэша, доступный уже во всех современных браузерах и являющийся частью ServiceWorker.

Разберемся, как мы можем его использовать, сравним с другими методами организации кэша на стороне клиента, а также реализуем новостную ленту с применением Cache API.

@MaxRokatansky 24 янв 2024 в 13:22

Рынок труда и перспективы карьеры в Data Science в 2024 году

Простой

8 мин

31K

Блог компании OTUSМашинное обучение * Учебный процесс в ITКарьера в IT-индустрии

Интервью

На связи команда курсов Data Science OTUS. В данной статье Product Manager Мария Кузьмина собрала аналитические выкладки c hh, бизнес-секреты от Tinkoff и комментарии профессионалов о том, что они думают о специфике рынка труда в Data Sciencе/ML, а также какой стек нужен для разных позиций.

Согласно прогнозу американской консалтинговой компании Gartner, мировые расходы на информационные технологии в 2024 году увеличатся на 8% и составят порядка 5,1 трлн долларов. Это говорит об очередном повышении спроса на ИТ-специалистов в мире и росте профильных вакансий на рынке труда. А среди языков программирования 1‑е место в области Data Science / ML Engineering занимает Python.

На российском рынке труда, есть хорошие новости для кандидатов из возрастной группы 35+. Ситуация в России в 2023 году характеризовалась значительным дефицитом кадров, который связывают в том числе с последствием демографического спада 90-ых годов. Уровень дефицита достиг максимальных значений за всю историю наблюдений, с hh.индексом опустившимся до 3,1 пункта. Количество вакансий увеличилось на 76% по сравнению с началом 2021 года, в то время как число резюме за этот же период выросло всего на 15%. Рекрутеры прогнозируют и рекомендуют компаниям расширять привычную воронку найма и смотреть на кандидатов вне определенных негласных стереотипов даже в ИТ сегменте.

Средняя зарплата российского специалиста по Data Science / ML enginer / Аналитика-разработчика варьируется от 115 до 180 тысяч рублей, причем джуниоры зарабатывают от 60 до 80 тыс. руб., миддлы — от 100 до 250 тыс. руб., а синьоры — от 250 тыс. руб. и выше. Ведущие специалисты с опытом около 5-6 лет могут зарабатывать до 400-500 тыс. рублей в месяц.

Комментарии экспертов отрасли

@Sivchenko_translate 14 янв 2024 в 11:31

С новым годом: GPT в 500 строках на SQL

42 мин

44K

Искусственный интеллектМашинное обучение * SQL * Программирование * Занимательные задачки

Перевод

В минувшем году все только и говорили об ИИ и о том, как он может всё за вас сделать.

Мне нравится, когда кто-то или что-то работает за меня. Поэтому решил: попрошу-ка ChatGPT написать за меня новогодний пост:

«Эй, ChatGPT. А ты можешь реализовать большую языковую модель на SQL?»
«Нет, SQL не подходит для реализации больших языковых моделей. Язык SQL предназначен для выполнения запросов к данным, хранящимся в РСУБД и для управления этими запросами. Для реализации большой языковой модели требуются сложные алгоритмы, обширные датасеты, а зачастую — и фреймворки для глубокого обучения. SQL всеми этими возможностями не обладает.»

Что ж, лишний раз убеждаешься, что, если хочешь что‑то сделать хорошо – сделай это сам.

Давайте же воодушевимся этим оптимистическим планом и реализуем большую языковую модель на языке SQL.

+202

@ru_vds 8 янв 2024 в 13:00

Собираем автономную игру на C# в 2 килобайтах

Средний

11 мин

23K

Блог компании RUVDS.comПрограммирование * Компиляторы * Клиентская оптимизация * C# *

Туториал

Перевод

Моё детство пришлось на эпоху 1,44-мегабайтных дискет и 56-килобитных модемов, поэтому я всегда любил маленькие программы. Раньше можно было записать на дискету кучу мелких игр и таскать её с собой. Если программа не помещалась на дискету, я задумывался, почему — в ней много графики? Есть музыка? Возможно, она выполняет много сложных операций? Или она просто раздута?

В наши дни дисковое пространство стало настолько дешёвым, что люди отказались от оптимизации по размеру.

Размер важен только при передаче: если вы передаёте программу по проводам, мегабайты равны секундам. По быстрому соединению на 100 Мбит в лучшем случае можно передать 12 МБ в секунду. Если на другом конце провода находится человек, ожидающий завершения скачивания, то разница между пятью и одной секундой может существенно повлиять на его ощущения.

Человек может зависеть от времени передачи как напрямую (пользователь, скачивающий программу по сети), так и косвенно (serverless-сервис, отвечающий на веб-запрос).

Люди обычно воспринимают всё, что длится меньше 0,1 секунды, как мгновенное, 3 секунды — это примерно тот предел, после которого прерывается состояние потока пользователя; а уж 10 секунд удержать внимание пользователя очень сложно.

Хотя уменьшение сегодня уже необязательно, оно всё равно лучше.

Эта статья задумывалась как эксперимент, позволяющий выяснить, каким может быть минимальный размер полезного автономного исполняемого файла C#. Могут ли приложения на C# достичь размеров, при которых пользователи будут ощущать их скачивание как мгновенное? Позволит ли это использовать C# там, где он не используется сейчас?

Читать дальше →

+126

@NewTechAudit 27 дек 2023 в 07:16

В поисках аномалии: одноклассовая классификация текстов с помощью расхождения Кульбака—Лейблера

Средний

9 мин

3.9K

Блог компании СберМашинное обучение * Информационная безопасность *

Кейс

✏️ Технотекст 2023

Привет, Хабр! На связи участница профессионального сообщества NTA Корсакова Елена.

Поиск аномалий в корпусе текстов является нетривиальной задачей, особенно если размечен набор данных только с аномальными текстами. При этом различия могут не бросаются в глаза — все тексты написаны на одном языке, да и стиль текстов схож: например, заявки, ошибочно попавшие не в ту очередь, нетипичные события в логах или письма от мошенников. В посте расскажу о решении данной задачи — одноклассовой классификация текстов, с помощью расхождения Кульбака—Лейблера.

+25

@stalkermustang 18 дек 2023 в 14:28

GPT-like модель «впервые сделала научное открытие»: что, как, и куда дальше?

Средний

21 мин

129K

Блог компании Open Data ScienceМатематика * Искусственный интеллектБудущее здесьNatural Language Processing *

Обзор

14го декабря в одном из самых авторитетных общенаучных журналов Nature была опубликована статья с, кажется, сенсационным заголовком: «ИИ-модели Google DeepMind превосходят математиков в решении нерешённых проблем». А в блогпосте дочки гугла и вовсе не постеснялся указать, что это — первые находки Больших Языковых Моделей (LLM) в открытых математических проблемах. Неужели правда? Или кликбейт — и это в Nature? А может мы и вправду достигли техносингулярности, где машины двигают прогресс? Что ж, давайте во всём разбираться!

Ну давай разберёмся →

+172

273

@Bright_Translate 24 ноя 2023 в 13:00

Моя любимая задача для собеседований по программированию

Средний

9 мин

110K

Блог компании RUVDS.comАлгоритмы * Занимательные задачкиПрограммирование *

Обзор

Перевод

В сети есть уйма постов и видео, где разбираются ответы на вопросы LeetCode. Но обычно рассмотрение в них происходит с позиции соискателя, а не работодателя. В этой же статье я приведу разбор собственной задачи по программированию, которую использовал при приёме людей на работу в Amazon, Google и Microsoft.

Читать дальше →

+121

170

@Wladradchenko 15 ноя 2023 в 15:27

Клонирование голоса из музыки, удаление движимого текста из видео и новые фишки во второй части обновления Wunjo AI

Простой

5 мин

9.1K

Open source * Python * СофтИскусственный интеллектЗвук

Обзор

Привет, Хабр! Наконец, после множества бессонных ночей, я завершил работу над второй частью обновления open-source проекта Wunjo AI и воплотил своё видение приложения. В этом обновлении основное внимание уделено звуку: улучшено клонирование голоса, извлечение вокала или мелодии из песен и повышение качества речи. Но это не все, также появились новые функции для работы с видео и создания дипфейков. Давайте рассмотрим все по порядку: начнем с звука и перейдем к видео и дипфейкам. В конце статьи вы найдете ролик, в котором объясняется работа с видео в приложении и функционирование нейронных сетей для создания дипфейков и не только.

Если вам интересно, вы можете прочитать предыдущие статьи на Хабре о создании дипфейков в Wunjo AI и функциях работы с дипфейками и изменениями видео с помощью текста.

Давайте начнем с звука. Одной из основных задач во второй части обновления была работа над звуком. Изначально в Wunjo AI использовалась адаптированная версия Real Time Voice Cloning, но подход был полностью переработан, что привело к улучшенной версии клонирования голоса. Теперь я использую кодировщик, обученный на аудиоматериале через Real Time Voice Cloning, в сочетании с HuBERT Soft. Этот метод позволяет точнее копировать скорость и тембр речи на этапе синтеза звука и перед работой вокодера. Кроме того, на основе исходного аудио, очищенного от шумов, определяется пол голоса (мужской или женский), а затем настройки вокодера подбираются в соответствии с типом голоса.

Однако эта статья сконцентрирована на более простых аспектах без технических деталей. Давайте взглянем на процесс клонирования голоса в Wunjo AI.

Посмотрим, что там внутри!

+10

@t3chnowolf 15 ноя 2023 в 16:00

M5Stack Cardputer: миниатюрный ПК с ESP32-32, клавиатурой и беспроводным модулем за $30. Что это за устройство?

3 мин

45K

Блог компании МТСГаджетыКомпьютерное железоDIY или Сделай сам

В мире немало производителей ноутбуков и десктопов, буквально каждую неделю появляются новые модели. Но есть и разработчики весьма специфических устройств, которые можно использовать для решения очень широкого спектра задач. Одно из таких устройств — M5Stack Cardputer. Его размеры лишь немногим отличаются от размера кредитки (длина/ширина), но возможностей действительно много. Подробности — под катом.

+24

@MaxRokatansky 26 окт 2023 в 12:38

Как получить работу в области Data Science? 8 простых шагов

Простой

10 мин

23K

Блог компании OTUSКарьера в IT-индустрии

Перевод

Перспективность и привлекательность карьеры в области Data Science привела к закономерному росту конкуренции. В условиях жесточайшей конкуренции между многочисленными кандидатами, стремящимися получить немногочисленные должности, выбор зачастую падает на тех, кто не только обладает всеми необходимыми навыками и опытом, но также способен эффективно коммуницировать. Сегодня мы поговорим с вами о требованиях к соискателям и действиях, которые можно предпринять, чтобы получить работу в области Data Science, представленных в виде восьми последовательных шагов.

1 2

4 5

Как потреблять API с ограничением по RPS в .NET приложениях

Как создать мультидокументный ридер и чат-бот с помощью LangChain и ChatGPT

Начинаем продолжать: обработка исходников с помощью ИИ в оффлайне

Как запустить Mixtral на своём компьютере

Популярные алгоритмы машинного обучения. Теоретические основы и реализация с нуля на Python

Пишем GPT в 60 строк NumPy (часть 1 из 2)

Пишем чат-бот для работы с PDF

Как работает ChatGPT: объясняем на простом русском эволюцию языковых моделей с T9 до чуда

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT

Как провести фаззинг REST API с помощью RESTler

Cache API — кэшируем данные на стороне клиента

Рынок труда и перспективы карьеры в Data Science в 2024 году

С новым годом: GPT в 500 строках на SQL

Собираем автономную игру на C# в 2 килобайтах

В поисках аномалии: одноклассовая классификация текстов с помощью расхождения Кульбака—Лейблера

GPT-like модель «впервые сделала научное открытие»: что, как, и куда дальше?

Моя любимая задача для собеседований по программированию

Клонирование голоса из музыки, удаление движимого текста из видео и новые фишки во второй части обновления Wunjo AI

M5Stack Cardputer: миниатюрный ПК с ESP32-32, клавиатурой и беспроводным модулем за $30. Что это за устройство?

Как получить работу в области Data Science? 8 простых шагов

Информация

Специализация