Как стать автором
Обновить
1
0

Bayesian Statistics

Отправить сообщение

ruT5, ruRoBERTa, ruBERT: как мы обучили серию моделей для русского языка

Время на прочтение5 мин
Количество просмотров20K


В зоопарке русскоязычных моделей прибавление: в открытом доступе появилась модель text2text-генерации ruT5 и модели-энкодеры ruRoBERTa и ruBERT, формирующие семантическое пространство текста. Модели можно использовать для создания классификаторов текстов, кластеризации, извлечения информации, суммаризации и многих других NLP-задач.

Ещё в начале пути создания виртуальных ассистентов Салют мы, команда NLP R&D SberDevices, поняли, что нужно обучать базовые языковые модели для русского языка, ориентируясь на успешные модели для английского. Опыта в этом, надо сказать, у нас было немного. Прошло два года, и сейчас мы обучили множество моделей, которыми хотим поделиться с вами.

С нашими «гптшками» вы уже знакомы, и про них мы уже рассказывали. Сейчас мы решили расширить наш открытый зоопарк и остальными моделями. Их все легко дообучать и использовать в проме на одной GPU, в том числе в Colab. Мы надеемся, что эти модели будут полезны русскому NLP-сообществу и помогут родиться многим интересным решениям.

В этой статье мы поделимся общими характеристиками и результатами замеров моделей на разных задачах.

Все модели размещены в формате PyTorch-Transformers. Вы можете скачать их в HF transformers.

Colab с примерами.
Читать дальше →
Всего голосов 15: ↑15 и ↓0+15
Комментарии12

Большая подборка полезных ресурсов от экспертов Positive Technologies: от лаб и подкастов до блогеров и сообществ

Время на прочтение10 мин
Количество просмотров22K

Хотите быть в курсе всего интересного, что происходит в практической информационной безопасности? Знать, за чьими твитами стоит следить, где можно подружиться с коллегами по цеху, что в первую очередь читать и смотреть, чтобы почерпнуть фундаментальные штуки? На каких площадках можно прокачать скилы, например, в пентесте или обнаружении зловредов, да еще и бесплатно?

Сдаем все явки и пароли: делимся полезными ссылками на курсы и лабы, книги и подкасты, Telegram- и YouTube-каналы, форумы и блоги, которые наши крутые эксперты читают сами и рекомендуют тем, кто хочет держать руку на пульсе кибербеза и постоянно повышать свою ценность как профессионала. А может, наши подборки пригодятся вам при подготовке к собеседованию и помогут получить более высокую должность — кто знает 😉

Сегодня предлагаем погрузиться в тестирование на проникновение и проверку приложений на прочность, обнаружение и реверс вредоносных программ, киберразведку и расследование сложных инцидентов. Рассказываем, в какие методички заглядывают «белые шляпы», что помогает выйти на след APT-группировок и раскрутить цепочки хакерских атак, где первыми узнавать о новых подходах и техниках, используемых злоумышленниками. Добро пожаловать под кат!

Смотреть подборку
Всего голосов 12: ↑10 и ↓2+8
Комментарии1

Security Week 36: Braktooth, новые уязвимости в Bluetooth-чипах

Время на прочтение4 мин
Количество просмотров2.8K
1 сентября исследователи из Сингапурского университета технологий и дизайна опубликовали информацию о 20 уязвимостях, обнаруженных в распространенных bluetooth-чипах различных производителей. Все баги можно эксплуатировать без предварительной авторизации, в большинстве случаев достаточно находиться неподалеку от атакуемого устройства, но необходимо также знать его уникальный адрес (BD_ADDR, также иногда называемый Bluetooth MAC Address из-за сходства с идентификаторами модулей Wi-Fi). Последствия — от временного сбоя в работе атакуемого чипа до полного зависания, которое лечится только перезагрузкой. В самом сложном случае исследователи реализовали выполнение кода, содержащегося в прошивке, по произвольному адресу.



Уязвимости названы Braktooth, где использовано норвежское слово Brak, обозначающее «крушение» или «шум». Русское слово «брак» тоже хорошо подходит. Объединяет 20 уязвимостей разного типа одно — некорректная обработка пакетов данных по протоколу Link Management Protocol, который отвечает за установку соединения между устройствами. В отличие от более ранних уязвимостей в спецификации протокола Bluetooth Classic, в данном случае речь идет о некорректной реализации в устройствах конкретными производителями. Частично обнаруженные проблемы закрыты вендорами, но далеко не все устройства удастся починить.
Читать дальше →
Всего голосов 5: ↑5 и ↓0+5
Комментарии1

Разговоры с призраками: Ада Лавлейс

Время на прочтение7 мин
Количество просмотров6.9K

Ужасами Хэллоуина могут стать не только привидения за окном и страшные костюмы, в которых пришли коллеги. Для истинного интроверта — это будет общение с толпами людей во время праздника, да и не только. В прошлом году я участвовала в создании бота Ады Лавлейс, первой в мире женщины-программиста. В течение года я периодически болтала с ней и мечтала сделать её более совершенной. Приглашаю под кат почитать о новых возможностях, которые мы добавили: цитаты самой Ады, математические задачи от неё и распознавание изображений.


Читать дальше →
Всего голосов 26: ↑22 и ↓4+18
Комментарии14

Кодим–пицца

Время на прочтение8 мин
Количество просмотров9.6K
Привет, Хабр. Мы спонтанно провели первый внутренний хакатон. Решила поделиться с вами своими болями и выводами о подготовке к нему за 2 недели, а также проектами, которые получились.


Читать дальше →
Всего голосов 28: ↑24 и ↓4+20
Комментарии12

Как мы анализируем пиццу и ваш вкус

Время на прочтение6 мин
Количество просмотров10K
Прежде чем прочитать статью ниже, попробуйте ответить на вопрос: «Что такое вкусная пицца?». А теперь подумайте, что такое вкусная пицца для вашего друга? А теперь представьте, что у вас 12 миллионов друзей в 13 странах мира и вам нужно выпустить линейку вкусных пицц для них всех. Под катом вы узнаете, как мы решили эту задачу.


Читать дальше →
Всего голосов 27: ↑24 и ↓3+21
Комментарии23

Применение интегрирования Монте-Карло в рендеринге

Время на прочтение6 мин
Количество просмотров4.4K
Все мы изучали в курсе математики численные методы. Это такие методы, как интегрирование, интерполяция, ряды и так далее. Существует два вида числовых методов: детерминированные и рандомизированные.

Типичный детерминированный метод интегрирования функции $f$ в интервале $[a, b]$ выглядит так: мы берём $n + 1$ равномерно расположенных в интервале точек $t_0 = a, t_1 = a + \frac{b - a }{n}, \ldots, t_n - b$, вычисляем $f$ в средней точке $\frac{t_i + t_{i + 1}}{2}$ каждого из интервалов, определяемых этими точками, суммируем результаты и умножаем на ширину каждого интервала $\frac{b -a}{b}$. Для достаточно непрерывных функций $f$ при увеличении $n$ результат будет сходиться к верному значению.

Читать дальше →
Всего голосов 17: ↑15 и ↓2+13
Комментарии2

Материалы летней школы Deep|Bayes по байесовским методам в глубинном обучении

Время на прочтение3 мин
Количество просмотров25K

Глубинное обучение в последние годы стало ключевым направлением исследований в машинном обучении. Начавшись с архитектурных прорывов, позволявших эффективно обучать глубокие нейросети, оно стало распространяться на другие подобласти, предоставляя набор эффективных средств там, где для решения задачи требуется приближение некоторой сложной функции.


Многие современные исследовательские статьи активно используют байесовский формализм в сочетании с глубокими нейросетями, приходя к интересным результатам. Мы – исследовательская группа BayesGroup с помощью наших друзей из Сколтеха, а так же при поддержке Высшей Школы Экономики, Сбербанка, Яндекса, Лаборатории Касперского, JetBrains и nVidia – решили поделиться накопленным опытом и устроить летнюю школу по байесовским методам в глубинном обучении Deep|Bayes, где подробно рассказать, что такое байесовские методы, как их комбинировать с глубинным обучением и что из этого может получиться.


Отбор на школу оказался весьма сложным занятием – мы получили более 300 заявок от сильных кандидатов, но вместить смогли только 100 (приятно, что среди участников были не только жители Москвы и Петербурга, но и студенты из регионов, а так же русскоговорящие гости из-за границы). Пришлось отказать многим сильным кандидатам, поэтому для смягчения этого прискорбного факта мы решили сделать доступными максимальное количество материалов, которыми и хотим поделиться с хабраюзерами.

Читать дальше →
Всего голосов 65: ↑64 и ↓1+63
Комментарии5

Разбор спорных научных вопросов: прививки и аутизм, гомеопатия, ГМО и мужчины умнее женщин? ч.1

Время на прочтение13 мин
Количество просмотров7.6K

Привет Хабр! Меня зовут Михаил и я решил написать большую статью для саморазвивающихся людей про одну интересную книгу Аси Казанцевой, в которой разбирается ряд спорных научных вопросов, таких как "Вредно ли ГМО" или же "Пора ли запретить опыты над животными?". Я упрощу написанное еще сильнее и расскажу про эти темы кратко, но емко и передав основной смысл, а еще максимально понятным языком. В название поста это не входит, но по сути этот пост - полноценный разбор крутой и интересной книжки, которую можно почитать и самостоятельно. Свою общую работу я поделю на три части, а конкретно в первой мы поговорим про гомеопатию и ее проблемах, про связь прививок и аутизма, про вредность ГМО и правда ли что мужчины умнее женщин? Помимо этого, мы разберемся еще и в понятии генов, ДНК, клеток, поговорим про множество исследований, разберемся в коэффициенте корреляции и вообще пост будет реально длинным, но очень информативным и простым для понимания.

Читать далее
Всего голосов 33: ↑24 и ↓9+15
Комментарии90

Патологическая наука

Время на прочтение13 мин
Количество просмотров16K
В темной-темной комнате сидят двое ученых. Один крутит черный-черный потенциометр, второй внимательно смотрит в темную-темную катодную трубку. Страшно? На самом деле – да. Потому что происходящее – это самая настоящая



В наше время непрерывных потоков информации, развития науки и ее популяризации, с увлечением социальными сетями и различными медиаплатформами как никогда стоит вопрос о качестве этой самой информации. Помимо вирусности распространения настоящим бичом соцсетей становится моментальное нахождение и сплочение единомышленников вокруг практически любой идеи – как радикально политически окрашенной, так и совершенно абсурдной. Если даже сторонников идей вроде плоской Земли набирается критическая масса, чтобы их количество и уверенность в себе позволяли им самоподдерживаться и психологически сопротивляться даже простейшим и железным логическим доводам, что же говорить о более сложных темах, требующих специальных знаний? Конечно, это касается массового сознания. Специалистов подобные вещи практически не затрагивают, потому что образование позволяет им отличить факты от лженауки и медиа-мифов.

Но гораздо более коварным по сравнению со лженаукой является случай, когда профессионал в области науки по каким-то причинам одурачивает сам себя. То ли гоняясь за сенсационным открытием, то ли окрыленный результатами и не желающий сдаваться, ученый становится невидимым вредоносным элементом внутри научного сообщества. Он гордится своими результатами, он публикует их, он вызывает дискуссии. И даже находит сторонников своему открытию, которого на самом деле нет. Феномену, который он выдумал незаметно для себя, в самом процессе своих исследований, даже не имея умысла на подлог.
Читать дальше →
Всего голосов 33: ↑32 и ↓1+31
Комментарии101

R в руках маркетолога. Когортный анализ своими руками

Время на прочтение4 мин
Количество просмотров3.2K

В маркетинге очень популярен когортный анализ. Его популярность вызвана, скорее всего, легкостью алгоритма и вычислений. Никаких серьезных математических концепций в основе нет, элементарная математика, выполняемая в excel. С точки зрения получения инсайтов гораздо интереснее анализ дожития.


Тем не менее, считаем, что есть такая задача и ее надо решить. Искать какие-либо пакеты и готовые функции неинтересно — математика проста, параметров настройки масса. Ниже возможный пример реализации (без особой фиксации на скорость исполнения), всего кода на пару десятков строк.


Является продолжением серии предыдущих публикаций.

Читать дальше →
Всего голосов 3: ↑3 и ↓0+3
Комментарии1

R, Монте-Карло и enterprise задачи, часть 2

Время на прочтение7 мин
Количество просмотров2.1K

Как ни парадоксально, но пока еще нередко в enterprise встречаются задачи, отличные от построения еще одного личного кабинета, еще одного мониторинга или еще одного документооборота. Если немного подумать, а не хвататься сразу кодировать или искать специализированное ПО, то можно написать компактное, весьма элегантное и быстрое решение, используя метод Монте-Карло .


Задачи в Enterprise достаточны компактны для перебора и не требует точности 100 знаков после запятой. Не ракеты или реакторы запускаем и не научную теорию всего строим.


Рассмотрим далее на примере одной из нестандартных задач.


Является продолжением серии предыдущих публикаций.

Читать дальше →
Всего голосов 3: ↑3 и ↓0+3
Комментарии8

Кластеризация смешанных (числовых и категориальных) данных в R

Время на прочтение4 мин
Количество просмотров3.6K

Основная проблема всех классических алгоритмов анализа данных – это их малая применимость к практическим задачам. Относится это и к задачам кластеризации.

В реальных (да и в научных задачах) возникает необходимость в кластеризации данных смешанного типа – например, когда половина переменных числовые, а половина переменных – категориальные.

По отдельности данные задачи решаются стандартными способами (вот, например, статья про иерархическую кластеризацию чисто категориальных данных - https://habr.com/ru/company/otus/blog/461741/), однако решение задачи кластеризации смешанных данных представляет некоторые трудности, связанные в основном со сложностью расчета величины расстояния между наблюдениями.

Минутка теории

Существующие методы предполагают расчет расстояния при Гауэра использовании функции daisy (daisy(method = "gower")) в пакете cluster.

Однако, как утверждают создатели пакета clustMixType, этот способ неприменим при обработки больших объемов данных, и в их пакете реализован иной метод

Теоретические основы реализованного метода кластеризации были разработаны еще в 1999 году в работе Z. Huang. Extensions to the k-means algorithm for clustering large data sets with categorical variables. Data Mining and Knowledge Discovery, 2:283–304, 1998. doi: 10.1023/A:1009769707641. Он получил название метода k-prototypes и основан на следующей формуле расстояния:

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии2

Эксперименты с тиграми и другие способы преподавать программирование студентам, которым скучно

Время на прочтение16 мин
Количество просмотров14K
image

Привет, Хабр! Я Маша, старший инженер-разработчик iOS в КРОК и аспирант на кафедре Прикладной математики и Искусственного интеллекта в московском вузе. А еще я уже четыре года преподаю. Два года назад мы с коллегами с кафедры, преимущественно аспирантами, основали кружок спортивного программирования, который вырос в большое IT-коммьюнити в стенах универа, где мы делимся разного рода знаниями со студентами.

В рамках этой затеи мы решили улучшить процессы обучения дисциплинам Computer Science (до чего дотянулись). К нему у всех уже было много вопросов.

Первый ужас я испытала на первом же занятии со студентами. Одна группа не могла привести ДНФ в КНФ, другая — не смогла даже общим усилием воли вспомнить таблицу истинности для конъюнкции и дизъюнкции. Третья — не понимала как программно устроены списки (это у нас проходят годом ранее). А потом я вспомнила себя — про мой курс преподы говорили то же самое. И про курсы до нас, и про курсы после меня. И школьную учительницу Ольгу Николаевну вспомнила: «В этом году класс еще слабее, чем в прошлом — если так пойдет и дальше, вернемся к жизни на деревьях!». В школе мне казалось, что это такой изощренный педагогический прием, который должен подхлестнуть нас учиться усерднее чтобы «доказать, что мы лучше чем кажется». Ошибалась.

Решили мы с коллегами порефлексировать — а почему так происходит? Результаты, наши грабли и опасные эксперименты с тигром под катом!
Читать дальше →
Всего голосов 77: ↑71 и ↓6+65
Комментарии126

Линейная алгебра для исследователей данных

Время на прочтение5 мин
Количество просмотров20K

Для многих начинающих исследователей данных линейная алгебра становится камнем преткновения на пути к достижению мастерства в выбранной ими профессии.

В этой статье я попытался собрать основы линейной алгебры, необходимые в повседневной работе специалистам по машинному обучению и анализу данных.

 

Читать далее
Всего голосов 8: ↑5 и ↓3+2
Комментарии1

Ответ: что же происходит с наукой в России

Время на прочтение19 мин
Количество просмотров76K
Эту статью решил написать как ответ к вот этой. Не знаю, заметят ли, автор поставил какие-то лютые хабы [которые модератор уже изменил — прим. мод.], в которые я оффтопить не хочу.

Я очень частично согласен с изложенным, и в первую очередь потому, что в статье в ряде случаев сделаны сомнительные акценты: что-то чрезмерно выпячено, чего-то недоговорено и сделан обобщающий рукоопускающий вывод.

Я подтверждаю: в России с наукой во многих аспектах хуже, чем в развитых странах. Но в целом не безнадежно. Худшие времена сейчас позади, и они также могут быть впереди, если не принять определенные меры. Описанные в указанной статье проблемы присутствуют, но являются второстепенными, существуют скрытые ямы и посерьезнее, чем отсутствие графы «наука» в программных документах неокомсомольских движений. Давайте же я их перечислю, а также приложу свой инсайдерский взгляд на современное состояние отрасли.

image
Читать дальше →
Всего голосов 174: ↑169 и ↓5+164
Комментарии254

6 правил по обеспечению качества данных для машинного обучения

Время на прочтение6 мин
Количество просмотров4.8K
«Качество — это не действие, а привычка», — сказал великий древнегреческий философ Аристотель. Эта идея справедлива сегодня так же, как и более двух тысяч лет назад. Однако качества добиться не так легко, особенно когда дело касается данных и технологий наподобие искусственного интеллекта (ИИ) и машинного обучения.

В некоторых областях можно почти без проблем использовать данные с высокой частотой ошибок, в других же система даёт сбой при малейших погрешностях в большом датасете. Принцип «мусор на входе, мусор на выходе» нужно воспринимать со всей серьёзностью. Мельчайшая некорректность в наборах данных может иметь большое влияние на модель и приводить к созданию бесполезных результатов. Чистота и целостность данных — ключевой аспект в создании сложных моделей машинного обучения.

Читать дальше →
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Шпаргалка по сортировке для Data Science

Время на прочтение11 мин
Количество просмотров22K
image

Сортировка данных является основной задачей для ученых и инженеров по обработке данных. Пользователи Python могут выбирать наиболее удобную из ряда библиотек со встроенными, оптимизированными опциями сортировки. Некоторые даже работают параллельно с GPU. На удивление, некоторые методы сортировки не используют указанные типы алгоритмов, а другие работают совсем не так, как ожидалось.

Выбор библиотеки и типа алгоритма сортировки не всегда прост, а нововведения меняются в быстром темпе. На данный момент документация Pandas не соответствует коду (хотя лично мое PR-обновление сортировочных опций было самым последним).

В этой статье я разъясню вам, что к чему, дам пару советов, которые помогут с разобраться с методами, и поделюсь результатами теста скорости.

UPD 17 июля 2019: В результаты оценки теста скорости теперь входят реализации GPU PyTorch и TensorFlow. TensorFlow также включает в себя результаты CPU как при tensorflow==2.0.0-beta1, так и при tensorflow-gpu==2.0.0-beta1. Интересные наблюдения: графический процессор PyTorch буквально летает, а GPU TensorFlow оказался медленнее CPU TensorFlow.

Контекст


Базовых алгоритмов сортировки существует множество. Одни из них имеют высокую производительность и занимают меньше места, другие хорошо работают с большим числом данных. Для некоторых алгоритмов важно взаимное расположение элементов данных. На диаграмме в начале статьи можно увидеть ситуацию по времени и объему для самых распространенных алгоритмов.
Читать дальше →
Всего голосов 19: ↑13 и ↓6+7
Комментарии2

Как работает поиск изображений в Dropbox

Время на прочтение11 мин
Количество просмотров4.3K

Если вам нужно найти фотографию, сделанную на пикнике несколько лет назад, вряд ли вы помните имя, которое камера автоматически присвоила файлу в момент съёмки, например, 2017-07-04 12.37.54.jpg. Вы просматриваете всё подряд — фотографии, их эскизы, пытаетесь определить объекты или признаки искомого — и не важно, ищете ли вы потерянное фото или хотите подыскать в архивах приличный снимок для презентации нового проекта.

Вот было бы здорово, если бы Dropbox мог самостоятельно просматривать все изображения и выбирать их них те, которые лучше всего соответствуют заданным в описании словам! Именно эту задачу мы поставили перед собой, создавая функцию поиска изображений.

К старту курса о машинном и глубоком обучении мы решили поделиться переводом о том, как текстовый поиск по изображениям в Dropbox работает изнутри, на каких наборах данных обучалась решающая задачу модель, как комбинировались методы, а также о том, какие Dropbox получила результаты и над чем работает сегодня.

Читать далее
Всего голосов 14: ↑13 и ↓1+12
Комментарии4

Регулярные выражения в Python от простого к сложному. Подробности, примеры, картинки, упражнения

Время на прочтение25 мин
Количество просмотров1.4M

Регулярные выражения в Python от простого к сложному




Решил я давеча моим школьникам дать задачек на регулярные выражения для изучения. А к задачкам нужна какая-нибудь теория. И стал я искать хорошие тексты на русском. Пяток сносных нашёл, но всё не то. Что-то смято, что-то упущено. У этих текстов был не только фатальный недостаток. Мало картинок, мало примеров. И почти нет разумных задач. Ну неужели поиск IP-адреса — это самая частая задача для регулярных выражений? Вот и я думаю, что нет.
Про разницу (?:...) / (...) фиг найдёшь, а без этого знания в некоторых случаях можно только страдать.

Плюс в питоне есть немало регулярных плюшек. Например, re.split может добавлять тот кусок текста, по которому был разрез, в список частей. А в re.sub можно вместо шаблона для замены передать функцию. Это — реальные вещи, которые прямо очень нужны, но никто про это не пишет.
Так и родился этот достаточно многобуквенный материал с подробностями, тонкостями, картинками и задачами.

Надеюсь, вам удастся из него извлечь что-нибудь новое и полезное, даже если вы уже в ладах с регулярками.
Читать дальше →
Всего голосов 99: ↑98 и ↓1+97
Комментарии66
1

Информация

В рейтинге
Не участвует
Откуда
Austin, Texas, США
Зарегистрирован
Активность