Алгоритмы *

Все об алгоритмах

СтатьиПостыНовостиАвторыКомпании

astrawoke 6 дек 2024 в 07:05

Как TF-IDF обошел SOTA-модель BERT4Rec в персональных рекомендациях

7 мин

2.1K

Блог компании Wildberries & RussАлгоритмы * Big Data * Машинное обучение *

Привет, меня зовут Коновалов Андрей, я Data Scientist персональных рекомендаций Wildberries. В этой статье разберем, как можно тюнингом TF-IDF побить BERT4Rec в ретро-тесте рекомендательной системы.

+10

iik_812 6 дек 2024 в 06:03

Применимость Java в искусственном интеллекте: 7 библиотек для нейросетей, которые стоит изучить

Простой

12 мин

3.4K

Искусственный интеллектПрограммирование * Алгоритмы * Java * Машинное обучение *

Java — один из самых популярных языков программирования, особенно в корпоративной разработке. Несмотря на доминирование Python в области машинного обучения и нейросетей, Java сохраняет свою актуальность благодаря сильной экосистеме, высокопроизводительным библиотекам и возможности интеграции с существующими решениями. В этой статье мы разберём, почему Java всё ещё полезен для нейросетей, какие библиотеки стоит изучить и для чего его применять.

iliya_golovanov 5 дек 2024 в 07:00

На чём учатся современные модели машинного перевода: опыт команды Яндекс Переводчика

17 мин

4.1K

Блог компании ЯндексМашинное обучение * Искусственный интеллектNatural Language Processing * Алгоритмы *

В сервисе Яндекс Переводчик мы поддерживаем перевод между 102 языками. Наша цель — обеспечивать качественный перевод для самых разных типов данных: текстов, документов, HTML, изображений и видео. Сегодня обсудим ключевой компонент для обучения моделей машинного перевода — данные для обучения.

Современные нейросетевые подходы очень требовательны как к объёму данных в обучении, так и к их качеству. Для получения хорошей переводной модели требуются сотни миллионов, а в идеале миллиарды параллельных предложений (пар из предложения и его перевода). Возникает вопрос: откуда их взять и что это за данные?

В этой статье я расскажу о том, как из текстов интернета в 100 ПБ найти терабайты суперчистых данных с переводами между любыми языками. Вы узнаете, почему эта задача требует обучения больше десятка различных вспомогательных ML‑моделей. А ещё коротко подсвечу, какое место в этом процессе занимает наша YandexGPT и что это за зверь такой — YandexGPT‑MT.

+31

ru_vds 4 дек 2024 в 13:01

Как устроены очереди: визуальное объяснение

Средний

7 мин

6.4K

Блог компании RUVDS.comСерверное администрирование * Серверная оптимизация * Алгоритмы * Сетевые технологии *

Обзор

Перевод

Очереди используются везде. Когда вы загружаете эту веб-страницу, запрос для её получения взаимодействует с десятками различных очередей на пути от вашей машины к серверу, на котором хостится страница. Очереди — это фундаментальный элемент.

В этом посте мы изучим очереди в контексте HTTP-запросов. Начнём мы с простого, и постепенно будем вводить более сложные структуры очередей.

Читать дальше →

+33

Vita_R 3 дек 2024 в 15:15

8 вопросов начинающего аналитика

Простой

5 мин

6.3K

Анализ и проектирование систем * Алгоритмы *

Из песочницы

Всем привет. Меня зовут Вика. Я работаю в компании Магнит уже 10 лет. Начинала свой путь в компании я на позиции аналитика, далее стала руководителем сектора аналитики, а после и руководителем команды разработки.

Основную проблему, которую я наблюдаю в затягивающихся задачах:

1. Заказчик, который не понимает, какой эффект он получит от задачи.

2. Аналитики, которые боятся отстаивать свое мнение.

Эти две проблемы еще на этапе начала работы над задачей создают очень много проблем для проектирования и разработки решения.

Сегодня детальнее я бы хотела поговорить о второй проблеме.

Основная задача аналитика в работе моей команды: быть посредником между бизнесом и командой разработки. В этом и состоит сложность, т.к. аналитик должен уметь «разговаривать» на двух языках. Когда аналитик уже опытный, у него есть навык разговора на двух языках, а также он уже сработался с заказчиком и многие требования понимает с полуслова. Но как помочь новым аналитикам ничего не упустить?

IisNuINu 3 дек 2024 в 12:44

GIMP Script-Fu Первый Дан. Удобная передача параметров в функцию

Средний

13 мин

260

Программирование * Lisp * Алгоритмы *

Туториал

Recovery Mode

Библиотека функций к Script-fu

Script-fu(Тинисхема) передает параметры в функцию в виде списка и позволяет передавать значения в обязательные именованные параметры, функции с одним параметром принимающим неограниченное количество значений , или функции смешанного типа, с обязательными именованными параметрами и параметром остатком в виде списка.

Но иногда... мы хотим чего-то БОЛЬШЕГО!!!

jehb4ik 3 дек 2024 в 08:00

Как мы приняли участие в соревновании по машинной диагностике затемнений в лёгких MIDRC XAI Challenge

Сложный

15 мин

627

Блог компании AIRIАлгоритмы * Машинное обучение * ЗдоровьеСпортивное программирование *

Кейс

Всем привет! Мы — научно‑исследовательская лаборатория «Сильный ИИ в медицине» в Институте AIRI. Наша группа разрабатывает решения на основе искусственного интеллекта в медицине. На днях стало известно, что мы заняли призовое, пятое место в конкурсе «MIDRC XAI Challenge: Decoding AI Decisions for Pneumonia on Chest Radiographs» с опытом участия в котором, мы хотели бы поделиться.

mr-pickles 2 дек 2024 в 09:30

Pushy на пределе: рост и развитие WebSocket-прокси Netflix

Средний

22 мин

1.8K

Блог компании Wunder FundАлгоритмы * IT-компанииПрограммирование * Веб-разработка *

Обзор

Pushy — это WebSocket‑сервер Netflix, который поддерживает долговременные WebSocket‑соединения с устройствами, на которых работает приложение Netflix. Благодаря этому данные с бэкенд‑сервисов можно отправлять на устройства по мере необходимости. При таком подходе нет нужды в постоянного опроса сервисов устройствами. За последние несколько лет Pushy пережил огромный рост, превратившись из сервиса для негарантированной доставки сообщений в неотъемлемую часть экосистемы Netflix. В этом материале вы узнаете о том, как мы развивали и масштабировали сервер Pushy, стремясь к тому, чтобы он хорошо справлялся со своими текущими обязанностями, и к тому, чтобы подготовить его к будущим нагрузкам. Он поддерживает сотни миллионов одновременных WebSocket‑подключений, доставляет адресатам сотни тысяч сообщений в секунду и удерживает стабильный уровень надёжности доставки сообщений в 99,999%.

+13

jasiejames 2 дек 2024 в 08:25

Головоломки с балансом. Поиск фальшивой монеты (часть 1)

Простой

10 мин

2.5K

Блог компании FirstVDSМатематика * Алгоритмы * Занимательные задачки

Недавно я столкнулся с забавными головоломками, связанными с простейшими двухчашечными весами. Как правило, в большей части таких задач используются монеты. Сегодня я расскажу о решении одного типа таких головоломок.

Итак, как найти одну фальшивую монету среди нескольких, сравнивая вес различных наборов монет и используя наименьшее возможное количество сравнений?

Для начала проведём анализ проблемы.

YuriPanchul 2 дек 2024 в 05:53

Метод «Безумного Макса» для тренировки проектировщиков кастомных вычисляющих структур

6 мин

1.5K

Алгоритмы * GPGPU * Программирование микроконтроллеров * СуперкомпьютерыFPGA *

Когда студент устраивается на работу в электронную компанию, очень здорово, если он уже умеет строить одну и ту же электронную схему разными способами, в зависимости от требований пропускной способности, максимальной тактовой частоты, размера и энергопотребления.

Как натренировать такое умение? Для новых домашних работ в программе Школы Синтеза Цифровых Схем мы решили разодрать на блоки реальный процессор и дать студентам задачу собирать разные специализированные вычислительные устройства из этих блоков, примерно как герои фильма "Безумный Макс: Дорога ярости" собирали свои боевые драндулеты из частей реальных автомобилей.

В качестве первой жертвы мы выбрали ...

+16

Konstantin_Loginovskikh 1 дек 2024 в 17:00

Рецепты TypeScript: перевод ключей объекта в camelCase

Средний

4 мин

4.3K

Блог компании Cloud.ruTypeScript * Программирование * Алгоритмы *

Туториал

Всем привет! С вами снова Костя Логиновских — ведущий разработчик из Cloud.ru. Я уже делился TypeScript-рецептами в предыдущих статьях — вот первая и вторая — и теперь хочу рассказать про еще один. Наши рецепты — это готовый код, который можно применить в конкретных ситуациях, а в некоторых случаях и подогнать ситуацию под код.

Сегодня в меню — функция на обычном TypeScript, которая преобразует тип объекта так, чтобы все ключи внутри него из snake_case стали camelCase. Жду всех под катом!

Смотреть рецепт

+14

Emelian 30 ноя 2024 в 19:27

Создание двуязычных субтитров к видео, распознавание и перевод речи

Средний

13 мин

2.1K

Windows * Работа с видео * Контент и копирайтинг * Алгоритмы * Python *

Туториал

Recovery Mode

При изучении иностранных языков, иногда хочется иметь двуязычные субтитры к понравившемуся видео, озвученных носителями языка. Но, что делать, если готовых субтитров нет, а самому распознать и перевести живую речь героев не хватает знаний? Особенно это касается тех, кто только-только начинает осваивать новый язык. Но, как говориться, безвыходных ситуаций не бывает, как минимум, всегда существует три выхода, даже если вас съели.

В данном случае мы воспользуемся современными технологиями для решения нашей задачи.

Fech 30 ноя 2024 в 12:39

Может ли машина мыслить?

Простой

3 мин

2.3K

Искусственный интеллектМашинное обучение * HabrАлгоритмы * Контент и копирайтинг *

Мнение

Привет, это продолжение, прошлой статьи и сегодня я хочу обсудить воображение машины, или же как она может мыслить.

Краткий курс в дело, я создаю сильный искусственный интеллект и рассказываю об этом. На научную работу не претендую, просто рассказываю свои мысли, как оказалось, это полезно.

Merrys-Shop 29 ноя 2024 в 14:10

Как финансовый аналитик может использовать нейросеть ChatGPT / ТОП-10 Промптов:

Простой

6 мин

14K

Финансы в ITСетевые технологии * Алгоритмы *

Из песочницы

Вы — финансовый аналитик, часто сталкиваетесь с большим объемом данных и задач, требующих точного и быстрого анализа? Думаю, да, но времени на выполнение дел всегда мало, и сил в том числе. Человечество придумало множество вещей, ускоряющих обыденные дела, чтобы времени было больше, но, к сожалению, его все равно нет. Но вот чудо: в ноябре 2022 года компания OpenAI выпустила ChatGPT — помощника, который всегда тут, всегда работает и всегда развивается. Время пришло, и на момент выкладки этой статьи все финансовые аналитики, да что греха таить, почти все офисные работники могут применять ChatGPT в своей работе, экономя время!

Чем поможем и что изучим:

- Что такое ChatGPT и как он работает

- Автоматизация отчетности

- Анализ данных

- Риск-менеджмент

- Подготовка презентаций

- Бенчмаркинг

И многое другое...

ph_piter 29 ноя 2024 в 11:05

Зачем нам ИИ-агенты?

8 мин

2.5K

Блог компании Издательский дом «Питер»Natural Language Processing * Алгоритмы * Искусственный интеллект

Перевод

В этой статье я приведу некоторые доводы в пользу того, что при разработке LLM удобно прибегать к помощи интеллектуальных агентов (ИИ-агентов). Так удаётся переходить к решению всё более сложных задач. Под катом много интересного!

Читать дальше →

PatientZero 29 ноя 2024 в 06:49

Разбираем алгоритм полнотекстового поиска BM25

Простой

8 мин

7.5K

Базы данных * Поисковые технологии * Алгоритмы * Математика *

Перевод

BM25, или Best Match 25 — это широко используемый алгоритм полнотекстового поиска. Среди прочего, он по умолчанию применяется в Lucene/Elasticsearch и SQLite. В последнее время в рамках «гибридного поиска» часто начали комбинировать полнотекстовый поиск и поиск по схожести векторов. Мне захотелось понять, как работает полнотекстовый поиск и в частности BM25, поэтому в этой статье я постараюсь разобраться в этом.

+18

accurate_random 28 ноя 2024 в 21:03

Двухлинейный полный сумматор (на данной плате проявил себя как самый надёжный из испытанных с ним)

9 мин

1.5K

Алгоритмы * Схемотехника *

Recovery Mode

В этот разрезультатом стал двухлинейный сумматор. Намучался с ним достаточно — не одну неделю разрабатывал, в процессе какие только монстры не получались, но итогом вполне удовлетворён. Внушает надежды, что на его базе модно создать асинхронный триггер, который вообще будет в корне отличаться от предшественников. Объективных тестбенчей в сравнениях произвести не удалось по непонятным причинам — сначала они получились, но вечером следующего дня картина тестбенчей в корне изменилась, попробовал обойти трудности надстройкой над тестовой схемой — но увы, сигнал почему‑то не отслеживается. Буду искать ошибки пару вечеров, а пока просто расскажу о том как собственно всё обстоит. Приступил сразу после предшествующих публикаций, разумеется всё в свободное время, пару недель вечеров было потрачено на попытки сократить цепь звеньев, потому как было ясно, что последовательная цепь лучше чем имеется на настоящий момент не получится. И вот однажды начиркал на клочке бумаги основу, а потом доработал в симуляторе. Получилось это, постил тут

GNU_Dimarik 28 ноя 2024 в 02:31

OSDEV: Разработка аллокатора на С++ часть 2: Слияние блоков за константное время. Юнит тест для аллокатора

Средний

8 мин

1.1K

C++ * Алгоритмы *

Приветствую, уважаемый читатель!

В первой части мы реализовали простейший аллокатор с минимальным оверхедом. Конечно же на самом деле все сложнее. Так реализация дефрагментации была наивной и не могла сливать блоки даже когда не было распределенных блоков после нескольких вызовов mem_free. Для того, что бы получить исходную картинку где будет только 2 служебных блока и один свободный нужно было бы вызвать mem_alloc с размером большим чем доступно памяти что бы искусственно запустить дефрагментацию. В этой части мы это исправим и напишем юнит тест для нашего аллокатора что бы убедится что он работает правильно.

ru_vds 27 ноя 2024 в 13:01

Создаём простой копирующий сборщик мусора

Средний

14 мин

4.1K

Блог компании RUVDS.comC * Алгоритмы * Программирование * Хранение данных *

Кейс

Перевод

Этот пост станет итерацией туториала и знакомством с реализацией сборки мусора, описанной в классической статье. Мы продолжим работать с простыми сборщиками мусора, но на этот раз немного повысим сложность.

Я подумал, что это будет здорово, ведь в коде из статьи уже имелся крошечный, но функциональный мутатор, а набор тестов был призван это подчеркнуть; это значит, что мы можем сравнивать производительность и реализацию копирующего сборщика и обычного сборщика.

Читать дальше →

+43

fkviking 26 ноя 2024 в 11:44

Как российские разработчики заставили GPT предсказывать биржевые котировки

Сложный

9 мин

11K

КриптовалютыКонференцииИскусственный интеллектАлгоритмы * IT-компании

18 мая 2024 на конференции «Тюльпаномания» Тихон Павлов, количественный аналитик «Финансовой компании Викинг» раскрыл секрет использования GPT-4 для прогнозирования биржевых котировок. Тема разделила аудиторию на скептиков и энтузиастов, породив жаркие дебаты о будущем трейдинга. Никто не остался равнодушным.

В статье расскажем про эксперимент, как нам удалось заставить языковую модель принимать числовые данные и предсказывать биржевые котировки.

Мы в Викинге занимаемся разработкой ПО для алгоритмической торговли на российских и зарубежных биржах. Более 20 лет помогаем трейдерам, брокерам и инвестиционным компаниям зарабатывать на финансовых рынках при помощи арбитража.

Прежде чем начнем погружаться в алхимию XXI века (где вместо превращения свинца в золото, мы превращаем массивы данных в профит), мы хотим пригласить вас на следующую конференцию ФК Викинг «Профессиональные инвестиции 2024: Визионерство», которая пройдет 14 декабря 2024 в Москве. На ней Тихон и другие спикеры продолжат удивлять вас актуальными докладами. Регистрация на мероприятие по ссылке fkviking.com/profinvest24.

Давайте вернемся к теме ИИ.

1 2 ...

30 31

33 34 ...

321 322

Алгоритмы *

Как TF-IDF обошел SOTA-модель BERT4Rec в персональных рекомендациях

Применимость Java в искусственном интеллекте: 7 библиотек для нейросетей, которые стоит изучить

На чём учатся современные модели машинного перевода: опыт команды Яндекс Переводчика

Как устроены очереди: визуальное объяснение

8 вопросов начинающего аналитика

GIMP Script-Fu Первый Дан. Удобная передача параметров в функцию

Как мы приняли участие в соревновании по машинной диагностике затемнений в лёгких MIDRC XAI Challenge

Pushy на пределе: рост и развитие WebSocket-прокси Netflix

Головоломки с балансом. Поиск фальшивой монеты (часть 1)

Метод «Безумного Макса» для тренировки проектировщиков кастомных вычисляющих структур

Рецепты TypeScript: перевод ключей объекта в camelCase

Создание двуязычных субтитров к видео, распознавание и перевод речи

Может ли машина мыслить?

Ближайшие события

Как финансовый аналитик может использовать нейросеть ChatGPT / ТОП-10 Промптов:

Зачем нам ИИ-агенты?

Разбираем алгоритм полнотекстового поиска BM25

Двухлинейный полный сумматор (на данной плате проявил себя как самый надёжный из испытанных с ним)

OSDEV: Разработка аллокатора на С++ часть 2: Слияние блоков за константное время. Юнит тест для аллокатора

Создаём простой копирующий сборщик мусора

Как российские разработчики заставили GPT предсказывать биржевые котировки

Вклад авторов