Как стать автором
Обновить
1
0
Cristobal H. Hunta @Shamus

Пользователь

Отправить сообщение

Рекуррентные сети против трансформеров

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров6.5K

Или история о том, как научная статья "Вам нужно только внимание..." немного перевернула игру и индустрию ИИ. 

Трансформеры становятся сотами или попросту попадают в самые последние решения сферы NLP. Кстати, заслужили свою популярность они вообще недавно — только в 2017 году, когда курс доллара был 60 рублей, а для ТГ-каналов с новыми ИИ не исчислялись тысячами.

Читать далее
Всего голосов 8: ↑7 и ↓1+7
Комментарии10

Уязвимые гиганты: что общего между зулусским языком и LLM

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров3.2K

Сейчас, когда каждый чих в интернете может привести к новому стартапу или технологическому прорыву, большие языковые модели (LLM) занимают своё законное место на передовой научно-технического прогресса. Они умнее, быстрее и эффективнее человека в ряде задач: написание кода, создание контента, перевод текстов и многое другое. Однако, такая высокая степень умения ставит нас перед новым набором проблем – их безопасностью и устойчивостью.

Кто бы подумал, что искусственный интеллект кусается? На деле, конечно, дело не в физическом нападении, а в уязвимостях, которые могут быть использованы злоумышленниками. Большие языковые модели действительно могут попасть под угрозу, и влияние таких событий может оказаться далеко не виртуальным.

Меня зовут Дарья Лютова, я data scientist в ЦАД ВАВТ, также я учусь в магистратуре AI Talent Hub ИТМО и интересуюсь вопросами обучения и безопасности языковых моделей. В этом посте, вместе с вами, хочу пойти дальше простого обсуждения существования уязвимостей в LLM и предлагаю вникнуть в тему проблем безопасности, касающуюся больших языковых моделей, выявить слабые места и прийти к пониманию методов их укрепления. Очень надеюсь, что эта информация поможет тем, кто преследует цель не только достичь новых высот в области AI, но и удостовериться, что их достижения надежны и устойчивы к киберугрозам.

Поехали!
Всего голосов 9: ↑8 и ↓1+11
Комментарии8

[Личный опыт] Страна фермеров и банков: как живётся разработчику в крошечном Люксембурге

Время на прочтение17 мин
Количество просмотров42K

Фронтенд-разработчице посчастливилось переехать в Люксембург. Сначала казалось, что это скучная бабушкина деревня, и делать тут нечего. Но через пару лет выяснилось, что у жизни в крошке-стране есть неожиданные плюсы. За окном своего дома гуляют олени, доехать до магазина можно быстрее, чем с московского Выхино до места работы, ипотеку дают под 1%, кредит на машину — под 0%, а местное гражданство — через 5 лет. Звучит, как мечта экспата? Разбираемся вместе с нашей героиней!




Читать дальше →
Всего голосов 64: ↑58 и ↓6+73
Комментарии117

Ретромалина. Устанавливаем старые игры и Windows 95 на Raspberry Pi с помощью Dosbian

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров16K

Я очень люблю старую компьютерную технику — есть в ней какой-то непередаваемый шарм. Но одно дело — коллекционирование винтажных ноутбуков, и совсем другое — установка древних операционных систем или софта на современном «железе». Во многих случаях старые операционки и игры на актуальном оборудовании попросту не запускаются из-за проблем с совместимостью. Положение отчасти спасают виртуальные машины, но гонять ОС, а особенно игрушки на «виртуалке» далеко не всегда удобно. И вот пару месяцев назад я случайно услышал о Dosbian: специальной версии Raspberry Pi OS, позволяющей запускать на «малинке» MS-DOS и даже Windows 3.1/9x, не говоря уже о DOS-совместимых играх. Признаться, мне всегда нравился компьютер Raspberry Pi 400, правда, я никак не мог придумать, к чему его приспособить. Теперь вопрос решился сам собой: я заказал себе эту машину специально, чтобы установить и протестировать на ней Dosbian. Результатами своих экспериментов я сегодня делюсь с вами.
Читать дальше →
Всего голосов 69: ↑66 и ↓3+89
Комментарии44

Величайшие программисты XXI века. Марк Руссинович и его 65 системных утилит

Время на прочтение9 мин
Количество просмотров47K
Кто из админов не знает утилиты SysInternals (Winternals) для администрирования и диагностики Windows? Кажется, они известны с незапамятных времён. Но не каждый в курсе, что эти незаменимые инструменты написаны вовсе не компанией Microsoft. Скорее наоборот, они написаны вопреки её желанию.

И здесь мы подходим к личности автора, талантливого и суперпродуктивного программиста Марка Руссиновича. Он показал, что один умный парень способен интеллектуально продавить мегакорпорацию. И той придётся заплатить ему огромные деньги, и даже взять на работу. Потому что повторить его программы она не сумела…
Читать дальше →
Всего голосов 93: ↑87 и ↓6+109
Комментарии62

Как лучше обучать RNN для прогнозирования временных рядов?

Время на прочтение10 мин
Количество просмотров18K

Привет, Хабр!

Два последних года я в рамках магистерской диссертации разбирался с тем, как лучше использовать рекуррентные нейронные сети для прогнозирования временных рядов, и теперь хочу поделиться моим опытом с сообществом.

Читать далее
Всего голосов 19: ↑19 и ↓0+19
Комментарии32

Summary для резюме Data Scientist

Время на прочтение7 мин
Количество просмотров12K

Что будет в этой статье:

1. Пример успешного завершенного Summary для Data Scientist который при обновлении под Ваш опыт, можно использовать как шаблон для резюме (такой шаблон уже использовался моими клиентами и друзьями в стартапах в России, Европе и США, компаниях MAANG, кандидаты были приглашены на интервью и получили Job Offer в Amazon, Google и других компаниях)

2. Инструкция как написать Summary для своего резюме

3. Ответы на часто задаваемые вопросы по Summary

Читать далее
Всего голосов 6: ↑4 и ↓2+3
Комментарии2

Tidymodels: аккуратное машинное обучение в R

Время на прочтение14 мин
Количество просмотров2.9K

Последнее время пакет tidymodels активно развивается в направлении задач машинного обучения.

Несколько лет назад Мак Кун разработал пакет caret, целью которого было создать единую платформу для моделей машинного обучения, существующих в R. Caret был прекрасен во многих отношениях, но далек от идеала. Но это был прекрасный старт. В связи с этим RStudio пригласила Макса Куна для разработки “аккуратной” версии данного пакета. В итоге, мы получили tidymodels.

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии2

«За границей»: кратко о бюджетных вариантах

Время на прочтение12 мин
Количество просмотров95K

Если вы чувствуете себя небезопасно или вам стало неудобно работать из-за санкций, и вы хотите переждать неспокойное время в другой стране, мы собрали несколько вариантов временного бюджетного релокейта. Советуем не принимать реактивных решений, а все тщательно продумать.

Читать далее
Всего голосов 119: ↑100 и ↓19+120
Комментарии237

Почему при разработке ИИ главное — это данные

Время на прочтение7 мин
Количество просмотров4.3K

Системы машинного обучения рождаются от союза кода и данных. Код сообщает, как машина должна учиться, а данные обучения включают в себя то, чему нужно учиться. Научные круги в основном занимаются способами улучшения алгоритмов обучения. Однако когда дело доходит до создания практических систем ИИ, набор данных, на котором выполняется обучение, по крайней мере столь же важен для точности, как и выбор алгоритма.

Существует множество инструментов для улучшения моделей машинного обучения, однако чрезвычайно мало способов улучшения набора данных. Наша компания много размышляет над тем, как можно систематически улучшать наборы данных для машинного обучения.
Читать дальше →
Всего голосов 5: ↑4 и ↓1+4
Комментарии11

Как измерить количество информации?

Время на прочтение16 мин
Количество просмотров31K

Мы ежедневно работаем с информацией из разных источников и поэтому имеем интуитивные представления о том, что означает, когда один источник является более информативным, чем другой. Однако далеко не всегда понятно, как это правильно определить формально. Не всегда большое количество текста означает большое количество информации. Например, среди СМИ распространена практика, когда короткое сообщение из ленты информационного агентства переписывают в большую новость, но при этом не добавляют никакой «новой информации». Или другой пример: рассмотрим текстовый файл с романом «Война и мир» в кодировке UTF-8. Его размер — 3.2 Мб. Сколько информации содержится в этом файле? Изменится ли это количество, если файл перекодировать в другую кодировку? А если заархивировать? Сколько информации вы получите, если прочитаете этот файл? А если прочитаете его второй раз?

По мотивам открытой лекции для Computer Science центра рассказываю о том, как можно математически подойти к определению понятия "количество информации".

Читать далее
Всего голосов 36: ↑36 и ↓0+36
Комментарии20

Как Hasty использует автоматизацию и быструю обратную связь для обучения моделей ИИ

Время на прочтение5 мин
Количество просмотров1.1K

CEO Hasty Тристан Руиллар (в центре), сооснователи компании Константин Проскудин (слева) и Александр Веннман (справа)

Компьютерное зрение становится всё важнее для различных промышленных сфер, от слежения за строительными работами до реализации умного сканирования штрих-кодов на складах. Однако обучение искусственного интеллекта точному распознаванию изображений может быть медленным и затратным трудом, не гарантирующим результаты. Молодой немецкий стартап Hasty стремится помочь в решении этой задачи, обещая предоставить инструменты нового поколения, способные ускорить весь процесс аннотирования изображений для обучаемой модели.

Основанный в 2019 году в Берлине Hasty заявляет сегодня, что ему удалось получить 3,7 миллиона долларов в первом раунде финансирования, проведённом Shasta Ventures. Эта венчурная фирма из Кремниевой долины провела уже множество значимых выводов: Nest (куплен Google), Eero (куплен Amazon) и Zuora (IPO). Другими участниками раунда стали iRobot Ventures и Coparion.
Читать дальше →
Рейтинг0
Комментарии0

Многомерные данные и оценка качества их визуализации

Время на прочтение5 мин
Количество просмотров3.8K
image

  • Многомерные данные — что они из себя представляют?
  • Зачем их визуализировать и что мы можем понять из визуализации?
  • Какими способами можно уменьшить размерность таким образом, чтобы сохранилась главная структура данных и какие свойства учитывать при проектировании?
Читать дальше →
Рейтинг0
Комментарии1
Недавно мы со Сбером проводили опрос о том, кто должен заниматься работой с данными и как это организовано в ваших компаниях. Чтобы не прослыть сапожниками без сапог, для анализа результатов мы использовали DS-подход. Хотите узнать, что у нас получилось? Тогда милости просим под кат.
Читать далее
Всего голосов 21: ↑21 и ↓0+21
Комментарии9

История «Data Science». Или как это только не называли

Время на прочтение16 мин
Количество просмотров11K

Data Science — одна из самых востребованных профессий в IT. Она продолжает набирать обороты, хотя отдельной дисциплиной наука о данных стала сравнительно недавно. В эту субботу делимся большим, насыщенным материалом, который поможет узнать или вспомнить о ключевых этапах становления профессии, а освоить её можно здесь.

Читать далее
Всего голосов 7: ↑6 и ↓1+5
Комментарии2

Технология Google повышает разрешение изображений до 16 раз без потери качества

Время на прочтение3 мин
Количество просмотров33K

Исследователи Google из команды Brain Team поделились своими достижениями в области масштабирования изображений.

Результаты, мягко говоря, поражают...

Читать далее
Всего голосов 37: ↑31 и ↓6+33
Комментарии72

Используем Google Cloud AutoML Vision для создания бинарного классификатора для обнаружения пневмонии на рентгеновском

Время на прочтение4 мин
Количество просмотров2.1K

Мы живем в век, когда каждая задача, которую мы выполняли на нашей локальной машине, теперь выполняется в облаке. Гибкость, надежность, совместная работа, более низкие затраты на оборудование и программное обеспечение, энергоэффективность, защита данных и безопасность — эти особенности выделяют облако и делают его предпочтительным выбором по сравнению с локальными компьютерами.

В этой статье я детально продемонстрирую шаги создания грязного/сбалансированного бинарного классификатора для обнаружения пневмонии на рентгеновских снимках грудной клетки с Google Cloud AutoML Vision без написания единой строчки кода.

Читать далее
Всего голосов 2: ↑1 и ↓10
Комментарии3

Дистанционное открытие счетов в банках через биометрию и даже без

Время на прочтение3 мин
Количество просмотров6.7K

Если кратко, то пока не работает или работает через попу с кучи попыток, за исключением Почта банка. В Почта банке оказалось даже биометрия не нужна. Молодцы! В деталях погнали. 

Решил я сдать эту биометрию. Обещают же счастье. Не нужно будет в банки и ещё много куда ходить.  Сдал. Профиль, то есть образ подтвердился.

Читать далее
Всего голосов 6: ↑4 и ↓2+2
Комментарии12

Шифрование диска с помощью VeraCrypt на Windows для неискушенных пользователей

Время на прочтение4 мин
Количество просмотров75K

В интернете уже есть множество статей на тему VeraCrypt. Но большинство из них задействуют стандартные настройки, которые уже давно отработаны злоумышленниками и не могут считаться безопасными. Поскольку с развитием и появлением на рынке мощных пользовательских устройств растет и спрос на превосходящее его по характеристикам энтерпрайз-оборудование.

Сегодня я расскажу, как мы будем выстраивать линию обороны для защиты данных на устройстве с Windows.

Читать далее
Всего голосов 6: ↑4 и ↓2+4
Комментарии17

Поиск изображений

Время на прочтение5 мин
Количество просмотров12K

Пытаясь реализовать обратный поиск изображений для своего сайта, я столкнулся с огромным миром поиска изображений. Ниже приведены краткие описания и варианты применения некоторых подходов обратного поиска/поиска похожих изображений.

Читать далее
Всего голосов 21: ↑21 и ↓0+21
Комментарии3
1
23 ...

Информация

В рейтинге
Не участвует
Откуда
Luxembourg, Luxembourg, Люксембург
Дата рождения
Зарегистрирован
Активность