Обновить
778.01

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Julia в машинном обучение: база

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели4.8K

Привет, Хабр!

Julia зародилась в 2012 году, благодаря усилиям четырех энтузиастов-разработчиков: Джефф Безансон, Стефан Карпински, Вирал Би Шах, и Алан Эдельман. Они стремились создать язык, который сочетал бы легкость Python, скорость C, динамичность Ruby, лингвистическую чистоту Lisp и возможности математических систем вроде Matlab. Им удалось! Julia – это слияние простоты и мощи.

Благодаря JIT-компиляции, код Julia может выполняться с скоростью, сопоставимой с кодом, написанным на C или Fortran.

Читать далее

ИИ и прогнозирование микроэлементов для борьбы с загрязнением воды

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели1.6K

В последние десятилетия угроза загрязнения водных ресурсов стала одной из наиболее беспокоящих экологических проблем. С ростом мирового потребления фармацевтических препаратов в 2020 году оно достигло 4 миллиардов доз, и как следствие, водные системы сталкиваются с увеличением количества и разнообразия микроэлементов, попадающих в очистные сооружения. Эти вещества, часто неизвестные и трудно поддающиеся анализу, могут оказать вредное воздействие на окружающую среду и здоровье человека, включая канцерогенез и эндокринные нарушения.

В условиях, где традиционные методы анализа требуют дорогостоящего оборудования, опытных специалистов и затрат времени, наука стремится к эффективным и инновационным подходам. В этом контексте исследовательская команда Корейского Института Науки и Технологии (KIST), под руководством Хон Сок-Вона, главы Центра исследования водных ресурсов и цикла, и старшего исследователя Сон Муна, представляет новаторскую методологию, основанную на искусственном интеллекте, для борьбы с вызовами загрязнения воды.

В данной статье мы рассмотрим уникальный подход команды KIST, объединяющий в себе методы самоорганизующихся карт (SOM) для кластеризации и случайных лесов (RFC) в машинном обучении для прогнозирования свойств и поведения микроэлементов. Результаты этого исследования проливают свет на возможности применения искусственного интеллекта в экологии, предоставляя быстрый и точный инструмент для анализа и прогнозирования воздействия микроэлементов в водных системах.

Приятного прочтения (:

Читать далее

YOLO-World: распознавание произвольного числа объектов с высокой точностью и скоростью

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели19K

Всем привет! Буквально несколько дней назад была представлена новая модель семейства Yolo. Ее основная фишка заключается в том, что в отличие от своих старших братьев, она способна распознавать на изображении фактически любые объекты (которые интересуют человека) без предварительного обучения и делает все это в real-time режиме! Звучит неплохо, не так ли?

В этой статье мы попробуем разобраться, что же за магия скрывается внутри новой архитектуры.

Читать далее

Архитектура RAG: полный гайд

Уровень сложностиСложный
Время на прочтение13 мин
Охват и читатели108K

Если, открывая холодильник вы еще не слышали из него про RAG, то наверняка скоро услышите. Однако, в сети на удивление мало полных гайдов, учитывающих все тонкости (оценка релевантности, борьба с галлюцинациями и т.д.) а не обрывочных кусков. Базируясь на опыте нашей работы, я составил гайд который покрывает эту тему наиболее полно.

Итак зачем нужен RAG?

Читать далее

Обзор по LLM

Время на прочтение10 мин
Охват и читатели20K

В прошлом году(2023) в мире больших языковых моделей(LLM) произошло много нового и нитересного. В новостях появились фразы о гонке искусственных интеллектов, а многие ведущие IT компании включились в эту гонку. Рассмотрим как все начиналось, кто сейчас занимает лидирующие позиции в гонке и когда роботы захватят мир.

Читать далее

GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели57K

Салют! Уже ни для кого не секрет, что GigaChat активно развивается, и обновление моделей не заставляет себя долго ждать. Рады сообщить вам, что новые версии GigaChat Lite и GigaChat Pro получили мощный апгрейд и стали еще более креативными, умными и точными в исполнении инструкций, а также получили более высокую оценку, чем ChatGPT (gpt-3.5-turbo-0613) на бенчмарке MMLU. На сегодняшний день GigaChat используют уже более 2,5 миллионов человек.

В новом обновлении GigaChat Lite получил расширение максимального контекста до 32768 токенов (GigaChat Lite+), а GigaChat Pro — до 8192 токенов. Вместе с контекстом мы улучшили качество ответов, превзойдя ChatGPT на русском SBS и английском MMLU, а также сделали апдейт датасетов по экономике, медицине и праву, добавили экспертные и редакторские данные, а также прокачали функции (улучшили работу запросов).

Узнать, как попробовать самую сильную версию GigaChat бесплатно, можно в конце статьи.

Читать далее

Как мы с помощью Midjourney визуализировали понятия из мира ИТ на картах «‎Имаджинариума»

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели14K

Всем привет! Хочу поделиться необычным кейсом из моей практики – созданием иллюстраций для игровых карточек «‎Имиджинариума» с использованием нейросети Midjourney. Наша команда визуализировала выражения и понятия из мира ИТ. Мы представили, как может выглядеть на карточках настольной игры Agile, путь пользователя, удаленный доступ, оживили системы видеонаблюдения, пофантазировали над человеческим обличием бекенда, стартапа или дедлайна. Об этом - новая статья в блоге ЛАНИТ. Бонус –под катом вас ждут очень много красивых картинок и ссылка на составленный мной гайд по работе с промтами в Midjourney. 

Читать далее

Нейропанорамы для любой точки Земли: как «осмотреться» на спутниковом снимке

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели3.8K

Как получить изображение местности, если единственным источником знаний о ней является спутниковый снимок. Сколько нейронных сетей для этого потребуется, легко ли собрать набор данных для обучения и зачем вообще это может быть кому-то нужно — в небольшой статье.

Генерировать далее

Новые горизонты производства электроники и солнечных батарей: оптимизация мультикристаллических материалов с помощью ML

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели1.9K

упность и различные преимущества мультикристаллических материалов сделали их широко распространенным сырьем для различных применений в сфере солнечной энергетики и, в целом, полупроводни.ковой индустрии, электроники и медицины, однако работа с ними сопровождается серьезными трудностями

Использование мультикристаллических материалов усложняется наличием дефектов и неоднородностей свойств кристаллов по поверхности материала, связанных с различной кристаллографической ориентацией каждых отдельных зерен. Кроме того, работа с такими материалами требует наличие дорогостоящего оборудования и использование современных методов, затрачивающих много времени и неподходящих для образцов большой площади, что является насущной проблемой. 

Другими словами: материал очень востребован во многих сферах промышленности, но имеет ряд особенностей, и не имеет достаточно эффективных способов работы с ними.  

В данной статье я расскажу, какое решение данной проблемы было найдено исследователями, и для сравнения опишу современные используемые методы для определения кристаллографических ориентаций в мультикристаллических материалах.

Приятного чтения! :)

Читать далее

Дайджест новостей: ИИ для обучения роботов и спящие агенты в LLM

Время на прочтение4 мин
Охват и читатели1.3K

Представляем дайджест новостей сферы искусственного интеллекта за первый месяц 2024 года. В этом выпуске вы узнаете, смогли ли ученые победить «спящих агентов» в LLM, способны GPT влиять на человеческий мозг, какую еще методику придумали для самообучения больших моделей и другие интересные исследования. 

Читать далее

Бесперспективный стартап, собравший миллионы долларов?

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели32K

Нашумевший стартап, презентация которого собрала миллионы просмотров, а устройство получило десятки обзоров. Но шумиху понимают далеко не все — у устройства много проблем. 

Сегодня R1 может давать нам неплохую справочную информацию в реальном времени, ориентируясь на AI сервис Perplexity + помогать в поиске документации, бронировать отели, заказывать такси — и всё это голосом. 

Добавлю, что у гаджета интересный форм-фактор, а концепция напоминает голосового помощника сродни всяким ассистентам по типу Siri. Но самое главное — R1 сможет взаимодействовать с интерфейсом любого приложения. Круто, но насколько реализуемо на практике?

Давайте разбираться. 

Читать далее

ИИ в 3D: Где мы сейчас и какое будущее нас ждёт? (Часть 1)

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели9.2K

В последнее время мы оцениваем на удивление много проектов, так или иначе связанных с 3D-пространством и ML-моделями. По всей видимости по прошествии 2023 года люди воодушевились и начали видеть возможность реализации тех идей, которые ранее просто-напросто казались научной фантастикой - и они не ошибаются! Исследователи и разработчики последних технологий достигли сногсшибательных результатов. В связи с этим хотел бы накидать цикл обзорных статей, которых как мне лично, так и нашей рабочей группе очень сильно недоставало в процессе ресёрча. 

Читать далее

Почему нынешние ИИ не проявляют все свои возможности. Пока или навсегда?

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели2.9K

Эта статья-размышление, что мешает нынешним генераторам ИИ показать все возможности. Смогут ли они получить «больше силы» и проявить ее?

Читать далее

Ближайшие события

От детектора ИИ-текстов до безградиентной оптимизации. О чём учёные из AIRI рассказывали на конференции NeurIPS 2023

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели2.4K

Конференции — важная часть науки. И так уж сложилось, что в области компьютерных наук — и в особенности в машинном обучении — они играют более важную роль, чем в остальных научных областях. Существует даже специальный рейтинг конференций, по важности сопоставимый с рейтингом научных журналов для учёных, занимающихся ИИ.

Среди лидеров этого списка (рейтинг A*) самой топовой с точки зрения цитирования по сей день остаётся конференция Neural Information Processing Systems или, сокращённо, NeurIPS, куда ежегодно стремятся попасть многие исследователи. Статьи и доклады проходят там жёсткий отбор — в 2023 году туда было принято лишь 26 процентов статей. Тем приятнее, что на NeurIPS 2023, который прошёл в декабре, учёными Института искусственного интеллекта AIRI было сделано там сразу восемь докладов.

О том, какие результаты представили там наши исследователи, я расскажу в тексте ниже.

Читать далее

Универсальные факты: конструктор извлечения для аналитика

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели2.5K

Привет, мы команда LegalDocs Управления «Проектный офис» в Правовом департаменте. У Сбербанка огромное количество клиентов, от обычных людей до больших корпораций. Все вместе они предоставляют множество видов документов, из которых нам нужно быстро извлекать юридически значимую информацию для последующей правовой экспертизы. Например, к нам обращается представитель большой компании за кредитом. И нам нужно оценить правоспособность: проверить, есть ли у этого представителя соответствующие полномочия в той организации, которую он представляет.

Если бы эту экспертизу проводил человек, то на его стол (физический или виртуальный) должен попасть большой пакет документов: устав организации, протокол о создании общества, протокол о нотариальные доверенности и многое другое. И чтобы искусственный интеллект (система автоматического принятия правового решения, или, как мы её называем, «робот-юрист», эта технология даже запатентована) мог принять решение, нужно сначала из каждого документа извлечь определённую информацию (значимые факты), структурировать её и отправить на проверку. Только после этого робот-юрист решит, есть ли правовые риски в этой кредитной сделке.

Читать далее

Своевременная диагностика на производстве: шесть фич с компьютерным зрением. Кейс rdl и угольного терминала

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели2.3K

Конвейер — критичный для производства элемент системы, своего рода кровеносная система предприятия. Иногда в её работе случаются сбои, порезы, порывы, поэтому за ней нужен постоянный контроль. В этом случае компьютерное зрение — это средство для своевременной диагностики. За этим руководители компании-стивидора и обратились к rdl by red_mad_robot.

Читать далее

Как приручить нейросеть

Время на прочтение3 мин
Охват и читатели13K

Привет, Хабр!

В последнее время проблема утечки информации все чаще освещается в медиа. Хватает новостей о том, что утекали даже ключи и пользовательские данные. Да чего только не было! Неудивительно, что многие компании, особенно с развитием и активным использованием ИИ-технологий, чат-ботов и т.д., обеспокоены своей кибербезопасностью.

Например, OpenAI открыто заявляла, что для улучшения качества ответов в своей системе они используют истории запросов, то есть все то, что когда-либо писали их пользователи. Поэтому некоторые организации строго запрещают применять ChatGPT и скидывать туда фрагменты своей документации, исходного кода и т.д. Но подобные сервисы слишком уж привлекательны, чтобы полностью их игнорировать. Ведь они действительно могут принести пользу, если применять их правильно и, самое главное, четко понимать, для чего вам это нужно.

Читать далее

Книга «Грокаем машинное обучение»

Время на прочтение10 мин
Охват и читатели29K
imageПривет, Хаброжители!

Машинное обучение — это набор методов анализа данных, основанных на алгоритмах, которые дают все более точные результаты по мере поступления новых данных. Машинное обучение лежит в основе систем рекомендаций, программ распознавания лиц, «умных» колонок и даже беспилотных автомобилей. Эта уникальная книга объясняет основные понятия машинного обучения на простых и доступных примерах, увлекательных упражнениях и запоминающихся иллюстрациях.

Здесь нет зубодробительного академического жаргона, для понимания объяснений достаточно знаний основ алгебры. По мере чтения вы будете создавать модели для идентификации спама и распознавания изображений и другие интересные проекты на языке Python.

Откройте для себя мощные методы машинного обучения, для понимания и применения которых достаточно знаний математики на уровне средней школы!

Для читателей, знающих основы языка Python. Знаний в области машинного обучения не требуется.

В качестве обзора книги мы предлагаем вам ознакомится с переводом статьи автора Luis Serrano.
Читать дальше →

Совместимость (или нет?) MLOps-инструментов

Время на прочтение14 мин
Охват и читатели4.9K

Как и любой уважающий себя инженер, в детстве я любил конструкторы и всякого рода головоломки. Не растерял я эту любовь и сейчас, правда, на смену простеньким детским головоломкам пришли сложные программные системы. Как Lead Data Scientist я решил автоматизировать процессы в разработке для себя и своей команды. Изучил десяток различных MLOps-инструментов, дело оставалось за малым — соединить их в одну общую удобную систему. Вот только этот конструктор отказывался легко собираться…

В этом посте я буду говорить в первую очередь об Open Source решениях в мире MLOps. Статья будет в меньшей степени практической, но в конце я разберу существующие открытые MLOps-системы и подведу итоги. Я хочу показать существующую проблему несовместимости, порассуждать, в чем причины ее возникновения, и можно ли ее преодолеть. Мы не будем разбирать полный цикл автоматизации, а задержимся только на вопросах автоматизации пайплайна обучения модели и инструментах организации разработки в команде.

ЖМИ

Маленький data-science для большого бизнеса, или В анализ данных со школьной скамьи

Время на прочтение8 мин
Охват и читатели4.9K

Привет, Хабр! В одной из предыдущих статей команда ВТБ обещала подробнее рассказать, как на конкурсе «Большие вызовы» в образовательном центре «Сириус» команда школьников занималась разработкой сервиса геоаналитики для бизнеса. Итак, время пришло, давайте же скорее начинать!

Меня зовут Максим Воля, мне 17 лет, и я один из тех самых школьников, который принял участие в этом конкурсе в составе школьной команды разработки. В статье расскажу, как мы готовились к проекту и создавали его, с какими данными работали, какой стек технологий применяли, с какими сложностями столкнулись и что получилось в итоге. На проекте я был Product-менеджером, также в команду входили Илья Демидов, который занимался машинным обучением, Даниил Ануфриев — компьютерное зрение, Дмитрий Рынин — аналитика, Владислав Секин — фуллстек-разработка. Сейчас подробно все расскажу. Добро пожаловать под кат!

Читать далее

Вклад авторов