Обновить
773.09

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга

Чат-бот ChatGPT не может дать ответ на вопрос о том, кто такой David Mayer и ещё несколько людей. Причина такой цензуры только на английском языке непонятна. На других языках ИИ отвечает без ошибки.

Теги:
Всего голосов 2: ↑1 и ↓1+2
Комментарии1

Python 3.13 на iMac 2011 High Sierra и VScode

Изучал Python на Anaconda/JupyterLab/Notebook/Spider под Windows 11. Возникла потребность все запускать на старом, но прикольном iMac 2011 32 ГБ ОЗУ, 1 ТБ disk, FulHD экран. Оказалось последняя Anaconda для него 2019 года с Python 3.6. Случайно узнал, что есть для Python отличные PyCharm и VScode. Оказалось VScode предпоследней версии работает на этом iMac, причем в ней есть microsoft Python практически новейший версии 3.13 и отладчик работает и pip есть сразу из коробки. Все работает с достойной скоростью. А ведь куплен iMac был за 10 тыс. руб. Добавлю еще, что он тихий даже под рендерингом анимации 3D в VTK и расчетах pandas. Добавлю еще, что с самого офицального python.org на этот iMac смог поставить только Python 3.11, a Jupyter/Spyder отказались работать.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии5

TL;DR: Драма вокруг OpenAI и гонка за AGI (2015–2024)

  • Илон хотел остановить Демиса и DeepMind от создания "диктатуры AGI"

  • Назначил себя гендиректором OpenAI

  • Грег и Илья возразили: «Илон сам может стать диктатором AGI»

  • Сэм пытался взять контроль, Илья обвинил его в жадности и политике

  • Карпати предложил объединить OpenAI с Tesla. Илон поддержал, остальные — нет

  • Илон предложил, чтобы Tesla финансировала OpenAI, сохраняя её некоммерческой

  • Сэм и Грег искали другие источники финансирования

  • Сэм предложил ICO, но Илон сказал, что это будет выглядеть как мошенничество

  • В итоге заключили сделку с Microsoft

  • Илон ушёл в 2018, прекратив финансирование, и основал X.AI

  • Сэм стал гендиректором, превратил OpenAI в организацию с ограниченной прибылью, а затем в коммерческую

  • Илья уволил Сэма за фокус на монетизации

  • Сэма вернули благодаря Сатье и поддержке в Twitter

  • Сэм уволил Илью

  • Илья основал SSI для безопасного AGI

  • Грег покинул OpenAI, пытался попасть в SSI, но вернулся к Сэму

Но всё это, похоже, уже не имеет значения, так как масштабирование LLM (больших языковых моделей) достигло своего предела и не приведёт нас к AGI.

Недавно Сэм сказал: «Теперь я знаю цену AGI», что многие расценили как шаг для привлечения инвестиций.

Драма продолжается.

Перевод поста John Rush

Теги:
Всего голосов 6: ↑5 и ↓1+4
Комментарии1

Итоги хакатона: ML, ГОСТ, металлургия

Привет! Вот и мы с итогами!

Мне нужны твои решения для обработки текстов ГОСТов
Мне нужны твои решения для обработки текстов ГОСТов

На прошедшем хакатоне участники пытались приручить ГОСТы и создать инструмент, ищущий испытания по заданным характеристикам изделий и материалов. Легко сказать! Подача информации в ГОСТах — настоящий ужас программиста. Все расположено и структурировано нетипично. Запросы пользователей прилетают в произвольной форме. Участникам предлагалось покреативить и подключить ИИ, чтобы разобраться с этим беспорядком. Подробности в анонсе.

В хакатоне приняло участие около 30 человек. Мы протестировали все решения и выбрали три лучших:

3 место занял Андрей Леонов. Его решение основано на создании базы вопросов и ответов. Система ищет пару вопрос-ответ с помощью специального метода без использования ИИ. Мы присудили третье место за оригинальный подход.

2 место досталось Носко Виктору. Он адаптировал готовую ML-модель под наши задачи. Решение отлично понимает запросы, выдает верные результаты, но работает только через веб-интерфейс, а закрытый код усложняет доработку и интеграцию.

А победу мы отдали команде Игоря Пластова и Литаврина Ярослава. Они разработали систему на основе ИИ, которая предобрабатывает тексты ГОСТов в разных форматах и выдает точные рекомендации по запросам в свободной форме. Алгоритм имеет высокую точность и открытый код, то есть готов к интеграции.

Планируем как можно скорее внедрить и проверить решение победителя в деле! Хакатон зашел на ура, так что точно будем проводить такие штуки еще! Следите за анонсами!

Теги:
Всего голосов 6: ↑5 и ↓1+8
Комментарии3

Открываем пользователям облака доступ к AI Assistant API — инструменту для быстрого создания умных ассистентов

Сегодня мы запустили AI Assistant API — сервис, который помогает быстро создавать умных ассистентов на базе большой языковой модели YandexGPT. В его основе — объединение LLM с технологией поиска по базам знаний RAG, которая позволяет интегрироваться с внешними системами.

AI Assistant API открыт всем пользователям Yandex CLoud в режиме Public Preview и доступен через ML SDK в сервисе Foundation Models.

Как это работает на примере AI‑ассистента для оформления командировок:

  • Создание ассистента доступно в удобном интерфейсе, поэтому с сервисом могут работать сотрудники без глубокой экспертизы в Data Science.

  • Разработчик умного ассистента может выбрать подходящую версию YandexGPT — Lite или Pro, настроить уже обученные версии модели и адаптировать под свои задачи компоненты сервиса: параметры генерации текста и базы знаний, к примеру, в которой хранятся сведения о внутренних процессах оформления командировок.

  • Пользователь AI‑ассистента формулирует запрос, например на оформление командировки в Санкт‑Петербург. Умный помощник анализирует запрос в контексте всей беседы и обращается к нужной базе знаний. На основе анализа диалога и информации из базы ассистент формирует релевантный ответ с инструкциями.

Также при росте нагрузки сервис автоматически масштабируется. Более подробно ознакомиться с возможностями настройки можно в документации AI Assistant API.

Теги:
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Одна из фич моей читалки новостей — автоматическая генерация тегов с помощью LLM. Поэтому я периодически занимаюсь prompt engineering — хочу чтобы теги были лучше, а платить было меньше.

И вот дотюнил я промпты до состояния, когда вроде всё работает, но осадочек какой-то остаётся: правильные теги определяются, но кроме них создаётся ещё 100500 бесполезных, а иногда даже совсем неверных.

Вариантов действий в таких случаях кот наплакал:

  • Собрать обучающие данные и дообучить модель делать только правильные теги.

  • Построить цепочку акторов, где один будет создавать теги, а другой — отсеивать лишние.

  • Попытаться как-то радикально переработать промпт.

На варианты 1 и 2 нет ни денег не времени. Моя текущая стратегия — использовать только готовые ИИ решения, так как в одиночку за отраслью не угнаться. Поэтому пришлось браться за третий.

В процессе рефакторинга получилось пересмотреть подход к промпту ммм… с developer-cetric точки зрения на user-centric.

На мой взгляд это интересный разворот, поэтому я подробно описал его у себя в блоге:

https://tiendil.org/ru/posts/prompt-engineering-building-prompts-from-business-cases

Теги:
Всего голосов 2: ↑1 и ↓1+2
Комментарии0

Генеративный ИИ может предсказывать действительные проблемы с удобством использования в исходном коде, которые легко просмотреть и исправить до выпуска приложения, избегая неудовлетворенности пользователей и ухудшения их опыта. Однако важные проблемы, выявленные экспертами по удобству использования, были упущены UX-LLM.

Теги:
Рейтинг0
Комментарии0

Яндекс разработал этические принципы синтеза речи

Соблюдение приватности пользовательских данных — одна из ключевых задач сервис‑провайдеров, которая решается с помощью комплекса мер безопасности.

Но при работе с ML‑технологиями могут быть не всегда очевидные риски, о которых должны знать все участники процесса обработки данных. Например, те, чьи голоса используются для синтеза речи.

Для защиты прав дикторов Яндекс создал принципы работы с синтезом речи. Команды Яндекса соблюдают этот кодекс и рекомендуют его к использованию в индустрии.

Принципы синтеза речи

  1. Мы не синтезируем речь людей без их разрешения

  2. Мы информируем дикторов о том, как будут использоваться их голоса

  3. Мы храним и обрабатываем данные таким образом, чтобы они всегда оставались в безопасности

  4. Мы сохраняем за собой право ограничивать сценарии использования нашей технологии синтеза речи

Данные, которые обрабатываются на стороне сервис‑провайдера, например, записи голосов, хранятся в дата‑центрах, отвечающих строгим стандартам в сфере информационной и физической безопасности.

Доступ к данным имеет ограниченное количество сотрудников — только те, кому они непосредственно нужны в работе. Такие сотрудники проходят инструктаж.

Когда пользователи синтезируют речь через API Yandex SpeechKit, сервис‑провайдер не имеет доступа к исходному тексту и результатам синтеза. Если партнёр синтезирует речь с помощью технологии Яндекса на своём сервере, провайдер также не имеет доступа к таким данным.

Полная версия принципов синтеза речи

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии1

Валера Бабушкин в новом Sravni Podcast: «Выйдет GPT-5, и я стану плотником!»

Поговорили с Валерой Бабушкиным — экспертом в области ML и анализа данных, автором книги о проектировании ML-систем. 

Обсудили будущее машинного обучения, сложности с поиском хороших инженеров и менеджеров, несовершенство собеседований и специфику работы в big tech. А ещё разыгрываем книгу Валеры — смотрите выпуск до конца и участвуйте в конкурсе!

Также в этом выпуске:

  • Неизвестный бэкграунд Валеры: чем занимался ранее?

  • Компетенции и карьерный путь ML-специалистов

  • Как успешно управлять командами в ИТ

  • Кто самый крутой в ML прямо сейчас — среди отдельных специалистов и компаний

Посмотреть или послушать подкаст можно здесь:

Оперативно узнавать о наших новых подкастах, докладах, лекциях и других полезных ИТ-материалах, можно в тг-канале Sravni Tech.

Теги:
Всего голосов 5: ↑3 и ↓2+1
Комментарии2

Внедряем модели машинного обучения в мобильное приложение на Flutter

Если Flutter-приложение нужно сделать более удобным и инклюзивным, скорее всего, придется использовать технологии ML. Вот только несколько примеров задач, в которых машинное обучение наверняка понадобится:

  • классификация изображений: чтобы приложение могло распознавать объекты на фотографиях или видео (например, Google Lens);

  • обработка естественного языка (NLP): в приложениях с голосовыми ассистентами или чат-ботами ML обрабатывает речь и тексты;

  • персонализация: алгоритмы ML анализируют поведение пользователей и предлагают персонализированный контент или рекомендации;

  • распознавание голоса: используется в приложениях для конвертации речи в текст и команд.

Существует несколько способов, как интегрировать модели машинного обучения в приложение. Можно воспользоваться ML Kit от Firebase или библиотеками на Dart. Но самое распространенное решение — фреймворк TensorFlow Lite (TFLite). Его главное (но не единственное) преимущество — что он будет работать в том числе тогда, когда смартфон не подключен к интернету.

В отдельной статье разбираем, как настроить модель для работы с TFLite, как интегрировать TFLite во Flutter-приложение и как оптимизировать модели для мобильных устройств.

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Люди часто спрашивают меня, как попасть на работу в ИТ.

Говорят, у вас, айтишников, работа не пыльная и зарплаты высокие. Спрашивают, как быстрее войти в профессию? С чего начать? Может, какие курсы посоветуете?

Мне всегда хочется начать свой ответ словами из песни: «Видишь там на горе возвышается крест, повиси-ка на нём…»

Чтобы быть айтишником, у вас должно быть самое главное качество — вы должны получать удовольствие от работы за компьютером. Удовольствие от программирования или настройки программ. Если вы никогда в жизни не ловили себя на том, что уже 2 часа ночи, а вы не можете оторваться от решения поставленной задачи, то у меня для вас плохие новости — скорее всего, вы не сможете работать в ИТ.

Даже максимально увлеченные профессией люди со временем выгорают. Что уж говорить о человеке, который не горит профессией и в лучшем случае просто может долго сидеть за компьютером. Никакие курсы не сделают такого человека айтишником.

Хотя, не буду скрывать, в отрасли хватает самозванцев, особенно на управляющих должностях.

Я вижу, что людей привлекают высокие зарплаты и комфортные условия работы. Но нужно понимать, что, как и любую другую «хайповую» профессиональную область, ИТ скоро ждет стагнация. Зарплаты выровняются, а конкуренция за рабочие места возрастет.

Теги:
Всего голосов 16: ↑13 и ↓3+13
Комментарии15

Не время менять работу, AI специалисты всё ещё на коне.

Недавно вышла статья от одного из крупнейших международных консалтинговых агенств Robert Half, на тему какие профессии будут востребованы в ИТ сфере в 2025 году. 

Агенство прогнозирует что ИИ специалисты по прежнему будут занимать лидирующие позиции по востребованности и уровню зарплат. 

Так же представлены в алфавитном порядке 12 самых востребованных профессий на 2025 год. Из неинтересного там появилась новая профессия - Специалист по этике ИИ. 

А из интересного то что в список попали ИТ Бизнес-аналитики. 

Это подтверждает мои догадки о том что 2025 год будет годом в котором косты на Data Science будут срезать.

Список из 12 самых оплачиваемых ИТ профессий в США:

1. AI ethicist

2. AI product manager

3. Business analyst

4. Cybersecurity engineer

5. Data engineer

6. Database administrator

7. ERP integration manager

8. Machine learning engineer

9. Network engineer

10. IT Project manager

11. QA analyst 

12. Software engineer

Источник: https://www.roberthalf.com/us/en/insights/career-development/highest-paying-it-jobs

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии0

Где используется машинное обучение? Примеры использования машинного обучения - на картинке ниже.

Тут писала про бесплатные курсы, которые мне понравились и я рекомендую.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Ближайшие события

Обзор возможностей распознавания и генерации трехмерных тел с использованием алгоритмов ИИ — Никита Петрушан / Ural Digital Weekend 2024

Опубликовали запись доклада секции «Разработка» с Ural Digital Weekend 2024.

1. Что такое трехмерное тело?

2. Проблема распознавания образов в ИИ.

3. Плюсы и минусы фотограмметрии.

4. Выбор алгоритмов и методов.

Ответы на эти вопросы вы услышите в докладе.

Ссылка на запись доклада в ВКонтакте.

Ссылка на презентацию: https://goo.su/HAhYs

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Сможет ли ИИ однажды заменить человека или обрести сознание и реализовать сценарии фантастических романов?

Эксперты SberDevices стали участниками литературного проекта «За ширмой тысячного Ли», где рассказали писателям-фантастам про технологии, которые мы разрабатываем, а также порассуждали о технологичном будущем и перспективах развития искусственного интеллекта.

Чтобы узнать больше о нашем участии в проекте и услышать, что же ответили коллеги из RnD-команды, предлагаем посмотреть выпуск.

Теги:
Всего голосов 12: ↑9 и ↓3+11
Комментарии0

🏆 Учёные, выигравшие Нобелевскую премию по физике, предупреждают об угрозах ИИ

Исследователи Джеффри Хинтон и Джон Хопфилд стали лауреатами Нобелевской премии по физике 2024 года за их новаторские исследования в области ИИ. Их работы 1980-х годов по нейронным сетям стали основой для современных систем глубокого обучения, которые обещают революцию, но также вызывают опасения.

Хинтон, известный как "Крёстный отец ИИ", выразил тревогу по поводу возможных последствий технологии, над которой он работал. "Я беспокоюсь, что это может привести к появлению систем, которые станут умнее нас и однажды выйдут из-под контроля", — сказал он. В 2023 году Хинтон ушёл из Google, чтобы предупредить о "глубоких рисках" ИИ для общества. 

Потенциал и вызовы
Нобелевский комитет отметил, что искусственные нейронные сети уже стали частью повседневной жизни — от распознавания лиц до автоматического перевода. Но, как заявила Эллен Мунс, председатель комитета, быстрый прогресс ИИ вызывает опасения за будущее. "Человечество несет ответственность за безопасное использование этой технологии," — добавила она.

Хопфилд, в свою очередь, предостерег, что современные ИИ-системы могут содержать непредсказуемые последствия, и призвал к более глубокому пониманию их работы.

Хинтон и Хопфилд были награждены за вклад в разработку систем, таких как сеть Хопфилда и машина Больцмана, которые сделали возможным обучение нейронных сетей выполнять сложные задачи, такие как распознавание образов.

📄 Подробнее: Nobel Prize

TG.

Теги:
Всего голосов 5: ↑4 и ↓1+5
Комментарии2

Авторы жгут! Итоги автоген-челленджа

Всем привет! На связи команда Самолета. Совсем недавно мы объявляли о старте автоген-челледжа — совместной инициативы Хабра и Самолета. Мы призывали авторов с практическим опытом в области генеративного ИИ наваять технохардкора. Теперь пришло время подвести итоги и объявить призёров. 

Всего в челлендже приняли участие 26 статей, как новых, так и старых (благо правила позволяли). Если смотреть по популярности тем, то самыми-самыми стали большие языковые модели и их дообучение. Кроме этого было затронуто и много других тем — компьютерное зрение, колоризация видео, оптимизация, бенчмарки.

На почётном третьем месте оказался @breakmirrors с лонгридом за авторством Екатерины Венедиктовой про ускорение обучения нейросетей. Хотя изначально мы хотели нечто более практическое, энциклопедизм этой статьи и при этом простота изложения определённо заслуживают награды. Автор получает набор мерча от Самолета + блог по тарифу Бизнес на полгода.

Второе место занимает @efreelancer с прошлогодней, но всё ещё крутой статьёй про дообучение ruGPT. Автор заявил на челлендж сразу четыре интересных статьи, и одна из них получает законный приз — то же, что у третьего места, плюс пост в соцсетях от Хабра.

А главным автогенщиком мы после долгих дебатов выбрали @Aleron75 с подробным гайдом про дообучение Llama. За технохардкорность и актуальность он получает те же плюшки, что и у второго места, плюс сторис на Хабре.

Спасибо всем авторам! Вы делаете Хабр тортом.

Теги:
Всего голосов 9: ↑9 и ↓0+15
Комментарии0
Сгенерированно при помощи DALL-E

Проект ruMorpheme — позволяет обучить модель для морфемного анализа русского языка. При желании код можно адаптировать и для других языков, но основное внимание уделено русскому.

ruMorpheme вдохновлён и является портом с TensorFlow (0.12) на PyTorch (2.4) проекта NeuralMorphemeSegmentation, реализованного в рамках публикации "Deep Convolutional Networks for Supervised Morpheme Segmentation of Russian Language" авторства Алексея Сорокина и Анастасии Кравцовой.

Обученная модель способна сегментировать слова, выделяя в них следующие морфемы:

  • Приставки (PREF)

  • Корни (ROOT)

  • Соединительные гласные (LINK)

  • Дефисы (HYPH)

  • Суффиксы (SUFF)

  • Постфиксы (POSTFIX)

  • Окончания (END)

Попробовать модель можно через Telegram-бот: @ruMorphemeBot, его можно добавить в группу и отправлять текст через упоминание @ruMorphemeBot.

Ссылки:

Как пользоваться:

git clone https://github.com/EvilFreelancer/ruMorpheme.git
cd ruMorpheme
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt

Для выполнения инференса:

python predict.py input_text.txt --model-path=evilfreelancer/ruMorpheme-v0.1

Скрипт автоматически скачает веса модели и выполнит анализ.

Пример вывода:

{"word": "родословие", "morphemes": [{"text": "род", "type": "ROOT"}, {"text": "о", "type": "LINK"}, {"text": "слов", "type": "ROOT"}, {"text": "и", "type": "SUFF"}, {"text": "е", "type": "END"}]}

Спасибо за внимание!

Теги:
Всего голосов 9: ↑8 и ↓1+10
Комментарии3

10 октября — флагманская конференция Selectel Tech Day.🦖

Надеемся, вы ждали ее так же сильно, как и мы.

Самое время занять место в зрительном зале — регистрируйтесь на сайте мероприятия. Не забывайте про тематический канал ивента: в нем мы делимся подробностями докладов и новостями программы, а еще проводим конкурсы.

Прямо сейчас проходит один — вы успеваете проверить свои предсказательные способности и побороться за наш мерч 🦾

Встречаемся 10 октября — офлайн в Москве и онлайн.

Теги:
Всего голосов 6: ↑6 и ↓0+11
Комментарии0

Мультимодальная модель от Mistral?

Сегодня на платформе X Mistral опубликовала пост с magnet-ссылкой на новую небольшую модель Pixtral-12b-240910 размером около 24 гб.

Pixtral получила поддержку изображений: теперь она умеет обрабатывать изображения наряду с текстом. Передавать изображение можно тремя способами: как объект ImageChunk, URL-адрес ImageURLChunk с автоматической загрузкой или в формате base64.

Если говорить об изменениях, то также модели увеличили словарь до 131072 токенов; в токенизатор Mistral были добавлены три новых токена для работы с изображениями; а еще для обработки изображений используется vision adapter, основанный на функции активации GeLU и 2D RoPE

По этой ссылке можно найти PR с использованием.

Теги:
Всего голосов 4: ↑4 и ↓0+5
Комментарии0

Вклад авторов