Дообучение больших языковых моделей на кастомных датасетах делает модели гораздо сообразительнее. Есть история успеха датасета alpaca. Он творит чудеса с моделями, которые сначала если и умели что-то делать, то делали это очень плохо. Мы решили понять, как это делается, а главное - какие проблемы есть на этом пути и могут ли новички вроде нас разобраться в этом. История взлетов и падений - под катом.
Как deep learning помогает в разработке персонализированной терапии рака?
Специалистам в области технологий и медицинских инноваций посвящается новое слово в борьбе с раком – применение глубокого обучения, использованное исследовательской командой университета Джона Хопкинса для индивидуального анализа генетических данных пациентов. В мире, где онкология является неотъемлемой частью нашего здравоохранения, эта инновационная технология предлагает персонализированный подход к лечению, основанный на алгоритмах машинного обучения.
Он не просто борется с болезнью, а анализирует многочисленные факторы, связанные с онкологической патологией конкретного пациента. Это не просто лечение, это индивидуально настроенная стратегия, созданная благодаря силе глубокого обучения.
Моя статья направлена на то, чтобы донести до специалистов в области медицины и машинного обучения важность этого направления. Приглашаю вас изучить эту захватывающую технологию и присоединиться к обсуждению.
Давайте вместе взглянем на возможность изменения стратегии борьбы с раком и наступления новой эры в медицинских исследованиях!
Как машинлернеры мерили экспрессию генов от воздействия лекарств
Привет! Меня зовут Дима и я веду канал про соревновательный МЛ. Недавно мы выиграли приз в довольно престижном соревновании и я сделал обзор всех лучших решений
Хочу вам рассказать о Open Problems, где не удалось взять золото, но все равно все очень довольны, ведь мы взяли 13 место и специальные приз жюри, который позволил нам выступить на NeuralIPS.
Начнем с краткого описания соревнования:
Компания-организатор занимается тем, что пытается оптимизировать проведение дорогостоящих экспериментов с препаратами на живых, но отделенных от самих созданий клетках 🧪 (in vitro) 🧪. У клеток много разных типов и препарат лечащий одну клетку мог спокойно убить все клетки другого типа в том же организме. Взяли много таких экспериментов, в том числе контрольные. Можно увидеть на картинке подробности того, как проводился тест
Baidu опубликовала демо инструмента глубинного обучения PaddlePaddle
Китайский поисковый гигант Baidu опубликовал демо-версию исходного кода своего инструмента глубинного обучения PaddlePaddle (PArallel Distributed Deep LEarning) на GitHub. Анонс всего кода PaddlePaddle состоится 30 сентября.
Согласно информации на GitHub, сейчас сборка PaddlePaddle сырая и к массовому «употреблению» заинтересованными лицами готова не до конца. Разработчики заранее предупреждают, что еще не все файлы и пакеты готовы к установке, поэтому у желающих опробовать публичную демо-версию могут возникнуть серьезные проблемы при попытке работы с PaddlePaddle.
Microsoft представила обновление своего набора инструментов Cognitive Toolkit
Вчера компания Microsoft в своем официальном блоге представила публике обновление своего набора инструментов Microsoft Cognitive Toolkit — системы для проектирования и обучения глубинных, сверточных и рекуррентных сетей.
Кроме того, Cognitive Toolkit дает возможность использовать обучение с подкреплением. Cognitive Toolkit предлагается использовать в таких сферах как распознавание объектов, речи и поиска релевантных результатов.
Новости машинного обучения. Самое интересное из пяти рассылок
Наиболее интересные новости из пяти почтовых рассылок. Новые технологии, идеи по применению и гипотезы.
Новости машинного обучения. Выпуск 7
Новости ML, новые технологии, идеи по применению и гипотезы.
Изображение сделано в Nvidia GauGan. Видео, статья и исходный код.
Новости машинного обучения. Выпуск 8
Экзоскелеты; бионические протезы; промышленные роботы; исследование автоматических рекоммендаций Ютуба; создание моделей машинного обучения в браузере с помощью MediaPipe; виртуальная клавиатура для смартфонов; 5G; еще раз о сильном и слабом ИИ.
Microsoft представила DeepSpeed для тренировки нейросетей на моделях с >100 млрд параметров
Microsoft выпускает библиотеку с открытым исходным кодом под названием DeepSpeed, которая значительно расширяет возможности обучения для больших моделей естественного языка. Она дает возможность обучения нейросетей на моделях со 100 млрд параметров и более. DeepSpeed совместима с PyTorch.
Приглашаем на Samsung AI Forum 2020
На форуме выступят крутейшие ученые мира в области ИИ, такие как Ян ЛеКун и Йошуа Бенджио (на фото), получившие премию Тьюринга за открытие глубоких нейронных сетей
Глубокое обучение на Kotlin: вышла альфа-версия KotlinDL
Всем привет!
На днях мы выпустили первую альфа-версию KotlinDL, фреймворка для глубокого обучения нейросетей, API которого мы старались сделать максимально похожим на Keras (фреймворк на Python поверх TensorFlow).
В KotlinDL вы найдете простые API как для описания, так и для тренировки нейронных сетей. За счет высокоуровневого API и аккуратно подобранных значений по умолчанию для множества параметров мы надеемся снизить порог входа в глубокое обучение на JVM. Вот так, например, выглядит тренировка и сохранение простой нейросети, написанной при помощи KotlinDL:
Phygital podcast — разговариваем о 3D ML и phygital технологиях
Всем привет хабровчане и любители 3D ML!
Мы уже ведем на хабре серию заметок про 3D ML, а теперь еще и выпускаем на нашем youtube канале визуальный подкаст "PHYGITAL PODCAST", где освещаем новости из мира ML, 3D и phygital технологий, а также вкратце излагаем суть выпущенных здесь заметок.
OpenCV ищет студентов для Google Summer of Code-2021
Крупнейшая библиотека компьютерного зрения OpenCV присоединилась к программе Google Summer of Code-2021 и объявляет набор студентов, которые хотели бы попробовать свои силы и заодно помочь улучшить работу библиотеки. Детальную информацию об OpenCV и ее участии в GSoC можно найти здесь.
Круглый стол «Искусственный Интеллект – Machine Learning – Deep Learning: наше будущее или временный тренд»
В чем разница между искусственным интеллектом (AI), машинным обучением (ML) и глубоким обучением (DL)? Где заканчивается ML и начинается AI? Как это работает, почему без человека не обойтись и какую цену придется заплатить за ошибку? Вместе с ABBYY, «Цифровая Индустриальная Платформа», «ТОЧКА», «Лига Цифровой Экономики» обсуждаем эти и другие вопросы по ИИ в рамках круглого стола на конференции «Технореволюция 2.0» от IT-компании SimbirSoft.
20 марта приглашаем CEO, CTO, CIO, IT-директоров, руководителей всех уровней, владельцев продуктов, маркетологов, HR-специалистов и разработчиков на «Технореволюцию 2.0» от SimbirSoft.
В интерактивном формате поговорим о трендах на примерах реальных кейсов, обсудим особенности менеджмента в IT-индустрии, а также поспорим на тему искусственного интеллекта.
Первая публикация с участием ВТБ на главной конференции по Data Science — NeurIPS 2021
NeurlPS — самая большая в мире и авторитетная среди data scientists конференция по машинному обучению и развитию искусственного интеллекта.
Алексей Пустынников (DS VTB Bank) и Дмитрий Еремеев (DS РОСГОССТРАХ) заняли 2 место в конкурсе Shifts Challenge в рамках NeurIPS 2021 и представили результаты своего исследования в рамках Bayesian Deep Learning workshop.
Конкурс, организованный коллаборацией Oxford Applied and Theoretical Machine Learning Group, Yandex Research и University of Cambridge, был посвящен применению и анализу техник байесовского глубокого обучения в промышленных задачах в условиях изменения распределения данных (distributional shift). Команда приняла участие в треке «Предсказание траекторий движения». Разработанное решение предсказывает наиболее вероятные будущие траектории участников дорожного движения, а также может оценить степень неуверенности модели в своих предсказаниях, что является ключевым элементом для безопасности беcпилотных автомобилей.
Команда заняла 2 место, опираясь на последние достижения в областях Bayesian Deep Learning и Vehicle Motion Prediction, при этом достигла наилучшей точности непосредственно в предсказании траекторий среди конкурентов. Для построения модели организаторы предоставили самый большой на текущий момент набор данных для задачи Motion Prediction, включающий в себя более 1600 часов движения, записанных во время поездок по городам России, Израиля и США в различных погодных условиях.
С результатами исследования можно ознакомиться в статье «Estimating Uncertainty For Vehicle Motion Prediction on Yandex Shifts Dataset» по ссылке arxiv.org/abs/2112.08355.
Автоматический перевод текста, HTML, файлов без ограничений на 100 языков для ваших проектов. Офлайн. API, сервер, SDK
Я занимаюсь переводчиками с 2012 года, и эта тема выбрана не случайно. Еще тогда было замечено, насколько сильно переводы могут влиять на показатели бизнеса. В нашем случае поддержка всего 15 языков вместо одного позволила увеличить количество скачиваний мобильных приложений до 35 миллионов без затрат на рекламу. Никакие другие действия не давали такой пользы с учетом потраченного времени и денег. И это стало основной причиной того, почему я выбрал это направление.
Несмотря на глобализацию, проблема языкового барьера до сих пор актуальна. В мире насчитывается более 7 тысяч языков, на которых общаются более 7 миллиардов жителей. По статистике, каждый год более 1 миллиарда человек ищут в интернете решения, связанные с переводами.
Каждый день увеличивается количество данных на разных языках. Доля английского языка в интернете сократилась до 25% в последние годы.
· Согласно недавнему опросу в восьми странах, более 72% потребителей заявили, что у них больше шансов совершить покупку на веб-сайте, если он будет на их родном языке.
· 42% потребителей Европейского Союза не покупают товары или услуги, представленные на иностранном языке, даже если они свободно говорят на этом языке.
· Компании, которые локализовали свой контент, в 2,5 раза чаще испытывают рост прибыли в годовом исчислении и в 1,8 раза чаще испытывают рост доходов.
· Для предприятий, локализовавших информацию, предназначенную для коммуникации с клиентами и партнерами, увеличение выручки было в 2,67 раза более вероятным, а рост прибыли — в 2,6 раза более вероятным.
Анонс октябрьских обучающих вебинаров для инженеров
Всем привет. В октябре мы запланировали 3 бесплатных вебинара для инженеров. Приглашаем вас принять в них участие.
Темы вебинаров:
• Глубокое обучение в инженерных системах
• Быстрое прототипирование и полунатурное моделирование с машинами реального времени РИТМ
• Разработка на ПЛИС с применением IP-ядер российского производства
Открытый семинар «Предсказание границ объектов в задаче семантической сегментации»
7 апреля в 16:30 (мск) пройдёт открытый семинар «Предсказание границ объектов в задаче семантической сегментации».