Статьи / Закладки / Профиль Shamus / Хабр

Cristobal H. Hunta @Shamus

Пользователь

Профиль Публикации Комментарии 5Закладки 206

The-Founder-1 29 мар в 18:59

Рекуррентные сети против трансформеров

Простой

6 мин

6.5K

Машинное обучение*Искусственный интеллектNatural Language Processing*

Или история о том, как научная статья "Вам нужно только внимание..." немного перевернула игру и индустрию ИИ.

Трансформеры становятся сотами или попросту попадают в самые последние решения сферы NLP. Кстати, заслужили свою популярность они вообще недавно — только в 2017 году, когда курс доллара был 60 рублей, а для ТГ-каналов с новыми ИИ не исчислялись тысячами.

LyutovaDaria 29 мар в 15:30

Уязвимые гиганты: что общего между зулусским языком и LLM

Простой

10 мин

3.2K

Искусственный интеллектNatural Language Processing*

Из песочницы

Сейчас, когда каждый чих в интернете может привести к новому стартапу или технологическому прорыву, большие языковые модели (LLM) занимают своё законное место на передовой научно-технического прогресса. Они умнее, быстрее и эффективнее человека в ряде задач: написание кода, создание контента, перевод текстов и многое другое. Однако, такая высокая степень умения ставит нас перед новым набором проблем – их безопасностью и устойчивостью.

Кто бы подумал, что искусственный интеллект кусается? На деле, конечно, дело не в физическом нападении, а в уязвимостях, которые могут быть использованы злоумышленниками. Большие языковые модели действительно могут попасть под угрозу, и влияние таких событий может оказаться далеко не виртуальным.

Меня зовут Дарья Лютова, я data scientist в ЦАД ВАВТ, также я учусь в магистратуре AI Talent Hub ИТМО и интересуюсь вопросами обучения и безопасности языковых моделей. В этом посте, вместе с вами, хочу пойти дальше простого обсуждения существования уязвимостей в LLM и предлагаю вникнуть в тему проблем безопасности, касающуюся больших языковых моделей, выявить слабые места и прийти к пониманию методов их укрепления. Очень надеюсь, что эта информация поможет тем, кто преследует цель не только достичь новых высот в области AI, но и удостовериться, что их достижения надежны и устойчивы к киберугрозам.

Поехали!

+11

mashakonova 12 апр 2021 в 16:09

[Личный опыт] Страна фермеров и банков: как живётся разработчику в крошечном Люксембурге

17 мин

42K

IT-эмиграцияКарьера в IT-индустрииЭкологияУрбанизмБлог компании getmatch

Фронтенд-разработчице посчастливилось переехать в Люксембург. Сначала казалось, что это скучная бабушкина деревня, и делать тут нечего. Но через пару лет выяснилось, что у жизни в крошке-стране есть неожиданные плюсы. За окном своего дома гуляют олени, доехать до магазина можно быстрее, чем с московского Выхино до места работы, ипотеку дают под 1%, кредит на машину — под 0%, а местное гражданство — через 5 лет. Звучит, как мечта экспата? Разбираемся вместе с нашей героиней!

Читать дальше →

+73

117

Holmogorov 8 ноя 2023 в 12:00

Ретромалина. Устанавливаем старые игры и Windows 95 на Raspberry Pi с помощью Dosbian

Простой

8 мин

16K

Блог компании RUVDS.comСтарое железоИгры и игровые консоли

Кейс

Я очень люблю старую компьютерную технику — есть в ней какой-то непередаваемый шарм. Но одно дело — коллекционирование винтажных ноутбуков, и совсем другое — установка древних операционных систем или софта на современном «железе». Во многих случаях старые операционки и игры на актуальном оборудовании попросту не запускаются из-за проблем с совместимостью. Положение отчасти спасают виртуальные машины, но гонять ОС, а особенно игрушки на «виртуалке» далеко не всегда удобно. И вот пару месяцев назад я случайно услышал о Dosbian: специальной версии Raspberry Pi OS, позволяющей запускать на «малинке» MS-DOS и даже Windows 3.1/9x, не говоря уже о DOS-совместимых играх. Признаться, мне всегда нравился компьютер Raspberry Pi 400, правда, я никак не мог придумать, к чему его приспособить. Теперь вопрос решился сам собой: я заказал себе эту машину специально, чтобы установить и протестировать на ней Dosbian. Результатами своих экспериментов я сегодня делюсь с вами.

Читать дальше →

+89

alizar 16 янв 2023 в 12:00

Величайшие программисты XXI века. Марк Руссинович и его 65 системных утилит

9 мин

47K

Системное администрирование*Системное программирование*Блог компании RUVDS.comРазработка под Windows*Софт

Кто из админов не знает утилиты SysInternals (Winternals) для администрирования и диагностики Windows? Кажется, они известны с незапамятных времён. Но не каждый в курсе, что эти незаменимые инструменты написаны вовсе не компанией Microsoft. Скорее наоборот, они написаны вопреки её желанию.

И здесь мы подходим к личности автора, талантливого и суперпродуктивного программиста Марка Руссиновича. Он показал, что один умный парень способен интеллектуально продавить мегакорпорацию. И той придётся заплатить ему огромные деньги, и даже взять на работу. Потому что повторить его программы она не сумела…

Читать дальше →

+109

Lev_Perla 26 ноя 2022 в 22:27

Как лучше обучать RNN для прогнозирования временных рядов?

10 мин

18K

Python*Машинное обучение*Искусственный интеллектФинансы в IT

Из песочницы

Привет, Хабр!

Два последних года я в рамках магистерской диссертации разбирался с тем, как лучше использовать рекуррентные нейронные сети для прогнозирования временных рядов, и теперь хочу поделиться моим опытом с сообществом.

+19

TechRecruiter 18 ноя 2022 в 17:43

Summary для резюме Data Scientist

7 мин

12K

Управление персоналом*

Туториал

Что будет в этой статье:

1. Пример успешного завершенного Summary для Data Scientist который при обновлении под Ваш опыт, можно использовать как шаблон для резюме (такой шаблон уже использовался моими клиентами и друзьями в стартапах в России, Европе и США, компаниях MAANG, кандидаты были приглашены на интервью и получили Job Offer в Amazon, Google и других компаниях)

2. Инструкция как написать Summary для своего резюме

3. Ответы на часто задаваемые вопросы по Summary

Abby_Baby 24 авг 2022 в 11:29

Tidymodels: аккуратное машинное обучение в R

14 мин

2.9K

R*Машинное обучение*

Туториал

Перевод

Последнее время пакет tidymodels активно развивается в направлении задач машинного обучения.

Несколько лет назад Мак Кун разработал пакет caret, целью которого было создать единую платформу для моделей машинного обучения, существующих в R. Caret был прекрасен во многих отношениях, но далек от идеала. Но это был прекрасный старт. В связи с этим RStudio пригласила Макса Куна для разработки “аккуратной” версии данного пакета. В итоге, мы получили tidymodels.

Svetlana_get-it 12 мар 2022 в 12:31

«За границей»: кратко о бюджетных вариантах

12 мин

95K

IT-эмиграцияКарьера в IT-индустрииУдалённая работа

Если вы чувствуете себя небезопасно или вам стало неудобно работать из-за санкций, и вы хотите переждать неспокойное время в другой стране, мы собрали несколько вариантов временного бюджетного релокейта. Советуем не принимать реактивных решений, а все тщательно продумать.

+120

237

kucev 24 янв 2022 в 14:01

Почему при разработке ИИ главное — это данные

7 мин

4.3K

Data Mining*Обработка изображений*Big Data*Машинное обучение*Искусственный интеллект

Перевод

Системы машинного обучения рождаются от союза кода и данных. Код сообщает, как машина должна учиться, а данные обучения включают в себя то, чему нужно учиться. Научные круги в основном занимаются способами улучшения алгоритмов обучения. Однако когда дело доходит до создания практических систем ИИ, набор данных, на котором выполняется обучение, по крайней мере столь же важен для точности, как и выбор алгоритма.

Существует множество инструментов для улучшения моделей машинного обучения, однако чрезвычайно мало способов улучшения набора данных. Наша компания много размышляет над тем, как можно систематически улучшать наборы данных для машинного обучения.

Читать дальше →

avsmal 13 янв 2022 в 19:49

Как измерить количество информации?

16 мин

31K

Алгоритмы*Математика*Блог компании Образовательные проекты JetBrainsНаучно-популярное

Мы ежедневно работаем с информацией из разных источников и поэтому имеем интуитивные представления о том, что означает, когда один источник является более информативным, чем другой. Однако далеко не всегда понятно, как это правильно определить формально. Не всегда большое количество текста означает большое количество информации. Например, среди СМИ распространена практика, когда короткое сообщение из ленты информационного агентства переписывают в большую новость, но при этом не добавляют никакой «новой информации». Или другой пример: рассмотрим текстовый файл с романом «Война и мир» в кодировке UTF-8. Его размер — 3.2 Мб. Сколько информации содержится в этом файле? Изменится ли это количество, если файл перекодировать в другую кодировку? А если заархивировать? Сколько информации вы получите, если прочитаете этот файл? А если прочитаете его второй раз?

По мотивам открытой лекции для Computer Science центра рассказываю о том, как можно математически подойти к определению понятия "количество информации".

+36

kucev 27 окт 2021 в 09:33

Как Hasty использует автоматизацию и быструю обратную связь для обучения моделей ИИ

5 мин

1.1K

Data Mining*Обработка изображений*Big Data*Машинное обучение*Искусственный интеллект

Перевод

CEO Hasty Тристан Руиллар (в центре), сооснователи компании Константин Проскудин (слева) и Александр Веннман (справа)

Компьютерное зрение становится всё важнее для различных промышленных сфер, от слежения за строительными работами до реализации умного сканирования штрих-кодов на складах. Однако обучение искусственного интеллекта точному распознаванию изображений может быть медленным и затратным трудом, не гарантирующим результаты. Молодой немецкий стартап Hasty стремится помочь в решении этой задачи, обещая предоставить инструменты нового поколения, способные ускорить весь процесс аннотирования изображений для обучаемой модели.

Основанный в 2019 году в Берлине Hasty заявляет сегодня, что ему удалось получить 3,7 миллиона долларов в первом раунде финансирования, проведённом Shasta Ventures. Эта венчурная фирма из Кремниевой долины провела уже множество значимых выводов: Nest (куплен Google), Eero (куплен Amazon) и Zuora (IPO). Другими участниками раунда стали iRobot Ventures и Coparion.

Читать дальше →

ItisMarketing 6 окт 2021 в 17:38

Многомерные данные и оценка качества их визуализации

5 мин

3.8K

Промышленное программирование*Визуальное программирование*Блог компании ОЭЗ «Иннополис»

Многомерные данные — что они из себя представляют?
Зачем их визуализировать и что мы можем понять из визуализации?
Какими способами можно уменьшить размерность таким образом, чтобы сохранилась главная структура данных и какие свойства учитывать при проектировании?

Читать дальше →

30 сентября 2021

Так вот кто все эти люди: DS-анализ результатов опроса о Data Science

Недавно мы со Сбером проводили опрос о том, кто должен заниматься работой с данными и как это организовано в ваших компаниях. Чтобы не прослыть сапожниками без сапог, для анализа результатов мы использовали DS-подход. Хотите узнать, что у нас получилось? Тогда милости просим под кат.

+21

Mojsha 2 окт 2021 в 18:26

История «Data Science». Или как это только не называли

16 мин

11K

Блог компании SkillfactoryТерминология ITУчебный процесс в ITЧитальный залИстория IT

Перевод

Data Science — одна из самых востребованных профессий в IT. Она продолжает набирать обороты, хотя отдельной дисциплиной наука о данных стала сравнительно недавно. В эту субботу делимся большим, насыщенным материалом, который поможет узнать или вспомнить о ключевых этапах становления профессии, а освоить её можно здесь.

steff 4 сен 2021 в 16:28

Технология Google повышает разрешение изображений до 16 раз без потери качества

3 мин

33K

Алгоритмы*Обработка изображений*Машинное обучение*Искусственный интеллект

Исследователи Google из команды Brain Team поделились своими достижениями в области масштабирования изображений.

Результаты, мягко говоря, поражают...

+33

MaxRokatansky 3 авг 2021 в 20:14

Используем Google Cloud AutoML Vision для создания бинарного классификатора для обнаружения пневмонии на рентгеновском

4 мин

2.1K

Блог компании OTUSИскусственный интеллект

Перевод

Мы живем в век, когда каждая задача, которую мы выполняли на нашей локальной машине, теперь выполняется в облаке. Гибкость, надежность, совместная работа, более низкие затраты на оборудование и программное обеспечение, энергоэффективность, защита данных и безопасность — эти особенности выделяют облако и делают его предпочтительным выбором по сравнению с локальными компьютерами.

В этой статье я детально продемонстрирую шаги создания грязного/сбалансированного бинарного классификатора для обнаружения пневмонии на рентгеновских снимках грудной клетки с Google Cloud AutoML Vision без написания единой строчки кода.

itsoft 19 июл 2021 в 12:18

Дистанционное открытие счетов в банках через биометрию и даже без

3 мин

6.7K

Финансы в ITБудущее здесьБлог компании ITSOFT

Если кратко, то пока не работает или работает через попу с кучи попыток, за исключением Почта банка. В Почта банке оказалось даже биометрия не нужна. Молодцы! В деталях погнали.

Решил я сдать эту биометрию. Обещают же счастье. Не нужно будет в банки и ещё много куда ходить. Сдал. Профиль, то есть образ подтвердился.

CivSocIT 19 мая 2021 в 17:49

Шифрование диска с помощью VeraCrypt на Windows для неискушенных пользователей

4 мин

75K

Информационная безопасность*Хранение данных*

Из песочницы

В интернете уже есть множество статей на тему VeraCrypt. Но большинство из них задействуют стандартные настройки, которые уже давно отработаны злоумышленниками и не могут считаться безопасными. Поскольку с развитием и появлением на рынке мощных пользовательских устройств растет и спрос на превосходящее его по характеристикам энтерпрайз-оборудование.

Сегодня я расскажу, как мы будем выстраивать линию обороны для защиты данных на устройстве с Windows.

qwertyforce 3 апр 2021 в 16:53

Поиск изображений

5 мин

12K

Поисковые технологии*Python*Обработка изображений*Машинное обучение*

Пытаясь реализовать обратный поиск изображений для своего сайта, я столкнулся с огромным миром поиска изображений. Ниже приведены краткие описания и варианты применения некоторых подходов обратного поиска/поиска похожих изображений.

+21

2 3 ...

10 11