Пишем первое приложение в магазин OpenAI

Совсем недавно вышел магазин приложений от компании OpenAI, под названием GPTs.
Давайте попробуем сделать первое приложения и опубликовать его.

Основа искусственного интеллекта

Совсем недавно вышел магазин приложений от компании OpenAI, под названием GPTs.
Давайте попробуем сделать первое приложения и опубликовать его.

Всем привет, меня зовут Валентина Тарадайко и я владелец платформы «Чат-бот и IVR» в М.Тех. У пользователей часто возникает вопрос, почему крупные компании с мощным технологическим стеком, внушительными бюджетом и штатом сотрудников никак не добавят вожделенную кнопку «Вызвать оператора». Ведь речь идёт о ведущих российских компаниях - М.Видео, Озон, Мегамаркет и других. Чат-боты все умнее, благодаря прорыву c генеративным искусственным интеллектом, но попасть на оператора порой не проще, чем достучаться до небес. Попробую рассмотреть основные причины и поделиться опытом, который заставит усомниться в необходимости этой бесхитростной фичи.

Привет читатель,эта стать является переводом решений соревнования Forecasting Mini‑Course Sales на Kaggle и дополнениями от автора данной статьи.
Новички и уже хлебавшие данные люди могут найти здесь что-то интересное или новое,да и в принципе провести время полезнее ,чем листать ленту в тиктоке или запрещенных сетях.
Приятного прочтения.
Обнаружение движущихся объектов широко используется в самых разных приложениях, от видеонаблюдения до мониторинга дорожного движения. Это важнейшая задача в постоянно развивающейся области компьютерного зрения. Библиотека OpenCV с открытым исходным кодом, известная своим полным набором инструментов для компьютерного зрения, предоставляет надежные решения для обнаружения движущихся объектов. В этой статье рассмотрим комбинацию обнаружения контуров и вычитания фона, которые можно использовать для обнаружения движущихся объектов с помощью OpenCV.

Во времена повсеместного заполонения трансформерами, которые пожирали в себя все больше и больше кремниевых чипов; когда казалось, что лучше уже не будет и за каждый новый токен нужно платить в квадрате от предыдущих, в эту холодную зимнюю пору появилась она - Мамба.

В минувшем году все только и говорили об ИИ и о том, как он может всё за вас сделать.
Мне нравится, когда кто-то или что-то работает за меня. Поэтому решил: попрошу-ка ChatGPT написать за меня новогодний пост:
«Эй, ChatGPT. А ты можешь реализовать большую языковую модель на SQL?»
«Нет, SQL не подходит для реализации больших языковых моделей. Язык SQL предназначен для выполнения запросов к данным, хранящимся в РСУБД и для управления этими запросами. Для реализации большой языковой модели требуются сложные алгоритмы, обширные датасеты, а зачастую — и фреймворки для глубокого обучения. SQL всеми этими возможностями не обладает.»
Что ж, лишний раз убеждаешься, что, если хочешь что‑то сделать хорошо – сделай это сам.
Давайте же воодушевимся этим оптимистическим планом и реализуем большую языковую модель на языке SQL.

Когда слушаешь доклады на больших ML-конференциях, то часть докладов вызывает восторг, но другая часть на послевкусии вызывает странное чувство. Да, доклад может быть очень крутым, математика блестящей, сложность крышесносной, но что-то как будто бы не так.
Эта статья — развлекательно-философская, все совпадения с реальностью — случайны, персонажи вымышлены, с точкой зрения — можно не соглашаться, но поразмышлять — стоит.
Да при чем здесь вообще деривативы? А просто у деривативов, дженги и машинного обучения — много общего, давайте разбираться.

Вчера вечером, 10 января 2024 г., OpenAI официально запустили GPT Store.
Давайте разберемся, что это такое, и что оно дает. А затем создадим свой собственный GPT и добавим его в GPT Store.
Концепция "custom GPT" в терминах OpenAI - это кастомный набор инструкций (custom prompt), который может быть создан любым пользователем ChatGPT с подпиской Plus. Каждый такой custom GPT за счет своего набора инструкций хорошо заточен под решение своей конкретной задачи. Есть custom GPT, которые хорошо пишут код, есть custom GPT, которые играют роль репетитора или психотерапевта и т.д.
Таким образом, GPT store - это большая библиотека инструкций для разных задач внутри ChatGPT. Она создается и поддерживается комьюнити и очень сильно напоминает google play market или apple app store.
Процесс создания Custom GPT заключается в том, что в интерфейсе ChatGPT пользователь составляет подробные инструкции, что и как его GPT должен делать, дает описание, придумывает название, примеры использования и т.д. - всё это сохраняется на серверах OpenAI.

Литий-ионные батареи, как известно, являются источником питания множества гаджетов, электромобилей и других устройств, без которых трудно представить нашу повседневную жизнь. При этом добыча лития наносит ощутимый экологический ущерб, а цены на него постоянно растут.
Потенциальный поиск альтернатив занял бы годы кропотливых исследований и тестирования миллионов вариантов новых материалов. Однако команда под руководством Нейтана Бейкера из Microsoft смогла решить эту задачу всего за несколько месяцев, опираясь на мощь искусственного интеллекта. Им удалось разработать опытный образец батареи с содержанием лития на 70% меньше относительно ряда альтернатив.
Методы, использованные в работе, являются передовыми с точки зрения инструментов машинного обучения, а результаты приятно впечатляют.
Давайте вместе окунемся в процесс исследования!
Для этой задачи использую LLM (Large Language Models - например, chatGPT или opensouce модели) для внутренних задач (а-ля поиск или вопрос-ответную систему по необходимым данным).
Я пишу на языке R и также увлекаюсь NLP (надеюсь, я не один такой). Но есть сложности из-за того, что основной язык для LLM - это python. Соответственно, на R мало примеров и документации, поэтому приходится больше времени тратить, чтобы “переводить” с питона, но с другой стороны прокачиваюсь от этого.
Чтобы не городить свою инфраструктуру, есть уже готовые решения, чтобы быстро и удобно подключить и использовать. Это LangChain и LlamaIndex. Я обычно использую LangChain (дальше он и будет использоваться). Не могу сказать, что лучше, просто так повелось, что использую первое. Они написаны на питоне, но с помощью библиотеки reticulate всё работает и на R.

В настоящее время фиксируются реальные атаки DDoS более 1 Тбит/с. Так, например, атака 2018 год на GitHub достигла пикового объема трафика в 1,35 терабит в секунду, превосходя любую ранее зарегистрированную атаку. При этом растет количество сложных атак на протоколы прикладного уровня. Эти атаки воздействуют на ключевой принцип информационной безопасности - доступность информационных ресурсов.
Машинное обучение становится всё более востребованным в каждой области, включая защиту от DDoS атак. Идентификация вредоносного трафика в компьютерных системах может быть достигнута путем использования алгоритмов машинного обучения при анализе и обнаружении DDoS-атак для повышения безопасности компьютерной сети. Модули обнаружения DDoS-атак анализируют собранные данные для оценки риска безопасности, создаваемого сетевыми подключениями, в то время как алгоритмы машинного обучения, обученные на предыдущих задачах и обратной связи, расширяют свои возможности прогнозирования за счет адаптивных изменений.

В Альфа-Банке безостановочно ведутся работы по созданию и обновлению статистических моделей. Чтобы выявить момент, когда модель перестала соответствовать критериям качества установленным в банке, требуется регулярный мониторинг. Это задача нашего подразделения — регулярно мониторить модели, которые находятся в продуктивном контуре, собирать метрики по качеству моделей. Так как мы за эффективность, то мониторим модели автоматизировано.
В задаче автоматизированного мониторинга есть два условия:
• Нам нужен реестр моделей, для понимания, что мониторить сейчас, а что необходимо мониторить завтра.
• Нам нужно ПО которое будет выполнять мониторинг с необходимой периодичностью и с заданными критериями оценивания.
Для выполнения первого условия у нас есть интеграция с Jira и пользовательский интерфейс, если необходимо внести модель, которой нет в Jira. Для выполнения второго до недавнего момента использовали разработку иностранной компании. Но теперь у нас есть своё.

Привет, Хабр. Мы — команда Ling Bizkit (я — Никита Лаврентьев, Валентин Ануфриков, Матвей Липилин, Егор Плужник и Павел Рыбаков). И это наш рассказ о том, как можно заработать 3 миллиона за два дня. А точнее, о победе в хакатоне на одном из этапов «Цифрового Прорыва».

Продолжаю разбор материалов на тему NLP в контексте работы переводчиков, на этот раз мы с практикантами решили поразбираться в том, как работают мультимодальные модели, т. е. как машины учатся находить соответствие не только между словами из разных языков, но и между картинкой и словами. Представляем вашему вниманию перевод статьи на эту тему.
Материал местами несколько академичный, но надеюсь, будет интересен не только нам.

В России АПК пока слабо использует искусственный интеллект (согласно данным ВШЭ за 2022 год, только 4,7% организаций сельского хозяйства внедряли ИИ), однако ситуация постепенно меняется. В 2023 году Минэкономразвития выбрало сельское хозяйство в целом и пищпром в частности в качестве приоритетных отраслей для внедрения ИИ. На уровне крупных агрохолдингов ИИ уже давно используется на всех этапах производства продукции — от управления полевыми работами до упаковки готовой продукции и взаимодействия с конечным потребителем.
ИИ открывает широкие возможности для производства продуктов питания. По данным Technavio, чаще всего на рынке пищевой промышленности технологии ИИ используются в логистике, продуктовом планировании и контроле качества. Отобрали в материале интересные кейсы внедрения ИИ в российской пищевой промышленности.

IT-компании сейчас создают различные языковые модели, стараясь превзойти друг друга. Одна из таких организаций — корпорация Microsoft. Не так давно она представила модель Phi-2, при этом разработчики утверждают, что она равна или превосходит гораздо более масштабные проекты. Подробности — под катом.

Человек без труда воспринимает речь на фоне тихой музыки и звуков окружающей среды. Более того, прямо во время разговора он может мысленно подпевать и реагировать на звуки. До недавнего времени нейросети так не умели. Одни были заточены на распознавание речи, другие — на обработку музыки, а третьи — на анализ различных звуковых событий. Всё изменилось с появлением работы китайских исследователей, создавших единую мультимодальную модель SALMONN. Это нейронная сеть с открытым исходным кодом, предназначенная для обработки аудиоданных любого типа: речи, музыки и различных звуков.
В этой статье мы рассказываем об особенностях SALMONN на основе научной публикации его разработчиков. Адаптировать материал помогли наши эксперты в области обработки и синтеза речи. Перевод и разбор препринта о SALMONN выполнен исследователем лаборатории больших данных и статистики компании «Криптонит» Анной Холькиной.
Ключевой идеей проекта SALMONN стала интеграция большой языковой модели (LLM) с двумя энкодерами: одним из модели Whisper для восприятия речи и другим (BEATs) для остальных звуков. В качестве предобученной LLM используется Vicuna, созданная на основе модели LLaMA с 13 миллиардами параметров и обученная на данных лучших диалогов с ChatGPT (также авторы SALMONN выпустили версию своей модели на основе Vicuna с 7 миллиардами параметров).

Вы, наверное, уже не раз слышали о тонкой настройке (fine-tuning) моделей. На самом деле, в нашей компании мы настраиваем модель каждые 10 секунд. До написания этой статьи я даже настроил свой завтрак, на всякий случай, потому что, как мы все знаем, все лучше, когда хорошо настроено.
Но что это на самом деле? Это просто другой модный термин или в нем есть смысл? ? Давайте выясним.

Больше года не утихают споры в интернете насчёт авторских прав. Сам задавался этим вопросом и пообщался с американским юристом на эту тему. Почему именно с американским? Потому что основные юридические баталии происходят в США. Корпорация Microsoft, которая частично финансирует openAI находится в США и от решения суда многое зависит.

Часто приходится слышать: наука вне политики, наука вне идеологии, потому наука никак с моралью не связана, и рассматривать вопросы морали или политики в науке – это попросту глупо. Действительно, на первый взгляд, так и есть. Если, к примеру, я – клеточный биолог, то какая связь между тем, за кого я голосую на выборах, и тем, что я исследую в микроскоп? Разве может быть хоть какая-то связь? Любому же понятно, что нет….
Однако эта точка зрения является заблуждением, основанном на том, что каждый ученый рассматривается в абсолютном социальном вакууме, то есть как индивид, лишенный любых общественных связей. Добавление общественных связей в эту модель сразу усложняет ее, качественно меняет и приводит к тому, что экономика начинает влиять на политику и через нее – на науку. А бывает и в обратном направлении - наука начинает влиять на политику.
Я хотел бы рассмотреть один красочный пример из истории 80-летней давности. Он касается гиков того времени, «красноглазиков» 30-40-х годов 20-го века, – квантовых физиков. Они во многом, как и мы, современные программисты-исследователи из мира IT, не сильно заботились вопросами того, какие последствия принесут их исследования и наработки: положительные или отрицательные, а если отрицательные, то насколько.
Между ними тогдашними и нами сегодняшними очень много общего: и в психологии, и в месте в обществе, и в отношении к исследованиям, и даже в такой, казалось бы, мелочи, как пренебрежение изучением общественных дисциплин. Смотря на 80 лет назад, в них я вижу себя и людей, которые меня окружают в программистском и исследовательском сообществе здесь и сейчас. Они создали атомную бомбу – совершенное и смертоноснейшее оружие. Причем практически не задумываясь о последствиях. А что создаем прямо сейчас мы?