User

Profile Publications Comments 17Bookmarks 62

shifttstas May 31 2018 at 09:41

SSLH: Прячем SSH/HTTPS/OpenVPN/Telegram за единым портом 443

3 min

117K

Information Security*Open source*

Tutorial

SSH/HTTPS/OpenVPN/Telegram и всё на одном порту?! Что?!
— Да!

Хотите скрыть наличее у вас некоторых сервисов?

В публичной wi-fi сети блокируется всё кроме 443 (https) порта?

Настроили Telegram Proxy/OpenVPN и не хотите его «светить» ?

SSH подключение к своему серверу из стран с цензурой?

На все эти вопросы ответ один — Мультиплексирование SSL/TLS соединений, или SSLH.

В посте мы рассмотрим как в 1 команду спрятать кучу сервисов за 1 портом.

Читать дальше →

+75

100

Krupnikas Oct 23 2022 at 09:06

WiFi-портал в Россию – Как работать из-за границы, если компания не разрешает?

5 min

55K

Network technologies*Network hardware

Tutorial

Понятно, что из такой компании надо уходить. Но в тяжелый и затратный период экстренной эмиграции остаться без дохода не хочется. Я расскажу, как настроить сеть, чтобы продолжать работать из-за границы.

+29

170

Rybolos Dec 21 2022 at 14:10

TAPE: первый бенчмарк для few-shot оценки языковых моделей на русском языке

9 min

3.1K

Machine learning*Artificial IntelligenceNatural Language Processing*SberDevices corporate blog

Мы в SberDevices обучаем и оцениваем языковые модели для русского языка уже давно — так, например, за два года существования бенчмарка Russian SuperGLUE через его систему оценки прошли более 1500 сабмитов. Мы продолжаем разрабатывать инструменты для русского языка и в этой статье расскажем, как создали новый бенчмарк, который:

- опирается на оценку моделей в режимах zero-shot и few-shot;

- использует новую библиотеку RuTransform для создания состязательных атак и трансформации данных с учётом особенностей русского языка на уровне слов и предложений — библиотека может быть использована как инструмент для аугментации данных;

- позволяет проводить детальный анализ качества модели на подмножествах тестовой выборки с учётом длин примеров, категории целевого класса, а также предметной области.

+27

gra-paul Nov 29 2022 at 18:01

Нейрофэнтези: сочиняем с ruGPT-3. Русский вариант AI Dungeon уже доступен пользователям ассистентов Салют

7 min

6.3K

Machine learning*Artificial IntelligenceSberDevices corporate blog

From sandbox

Мы в SberDevices выпустили первый продукт в серии Нейроквестов — Нейрофэнтези. Квестами мы решили заняться по разным причинам. Например, в квестах можно испытать всю генеративную мощь семейства GPT-моделей. Квест также одновременно и литературный, и игровой формат взаимодействия с пользователем. В процессе игры фактически создается новая история. Среди решений на английском языке популярным стал проект AI Dungeon, мы захотели сделать нечто похожее на русском, попытавшись при этом превзойти оригинал, а также улучшить некоторые аспекты взаимодействия с пользователем. В этом посте расскажу, как мы разбирались с ходом сюжетных поворотов и с саджестами, и даже пришли к разработке инструмента для преобразования художественных текстов в обучающие данные в формате квеста.

+26

king_menin Jun 24 2021 at 12:50

ruCLIP — мультимодальная модель для русского языка

5 min

14K

Image processing*Machine learning*Artificial IntelligenceNatural Language Processing*SberDevices corporate blog

Известно, что глубокие нейронные сети (DNN) и модели компьютерного зрения, в частности, хорошо справляются с конкретными задачами, но зачастую не могут сделать обобщение при работе с новыми. Так, модель, которая хорошо работает с данными о продуктах питания, может показать себя не очень хорошо на спутниковых изображениях и т. д..

В начале этого года OpenAI опубликовала модель под названием CLIP (Contrastive Language–Image Pre-training). В статье авторы модели привели потрясающие результаты по точности zero-shot-классификации изображений, а также сопоставили тексты и картинки в рамках одной системы. Однако модель OpenAI работает только с английским языком. Можно ли быстро адаптировать её для работы с русским?

Команды R&D SberDevices и Sber AI увлеклись этим вопросом. В этой статье мы расскажем про первые результаты наших исследований CLIP для русского языка, опишем ключевые идеи предложенной модели и поделимся с вами кодом для её использования — решения задач zero-shot image classification.

Что же можно сделать с помощью ruCLIP?

+29

Rybolos Apr 1 2021 at 14:22

Всё, что нам нужно — это генерация

10 min

28K

Сбер corporate blogMachine learning*Artificial IntelligenceNatural Language Processing*SberDevices corporate blog

Tutorial

Применяем ruGPT-3 в популярных задачах и показываем, зачем языковым моделям триллион параметров

С наступлением 2021 в NLP продолжается гонка «больше — лучше», захватывая новые архитектуры. Пальма первенства самой большой языковой модели в 2020 году принадлежала GPT-3 от OpenAI с 175 миллиардами параметров — но недолго. Модель GShard с помощью Mixture-of-Experts повысила планку до 600 миллиардов параметров, а затем и Google Brain заявил о разработке архитектуры Switch Transformer с 1,6 триллионами параметров (и тоже является MoE). Насколько повышение результатов за счет объема полезно для индустрии? Тот же Switch Transformer с его триллионом параметров далеко не на 1 месте в лидербордах.

Огромные языковые модели (Enormous Language Models, теперь это термин, им посвящен отдельный воркшоп конференции ICLR 2021) показывают действительно интересные результаты — не только в традиционных задачах ML, но и в новых сферах применения: генерации всего того, что раньше генерировать без ошибок было нельзя — музыку, изображения попиксельно, программный код и т.д. Из всех традиционных форм NLP-задач — классификация, классификация элементов последовательности, seq2seq, — по сути, у нас остается только одна: seq2seq. С приходом больших языковых моделей все задачи NLP сводятся теперь к форме генерации, при должном качестве этой самой генерации.

Seq2seq — самая «человеческая» форма решения задач: человек использует тот же формат, отвечая на сообщения в чате, общаясь устно, сортируя имейлы в почте.

Лично нам в SberDevices не терпелось поскорее применить такой формат к различным задачам — поэтому мы открываем доступ к самой большой русскоязычной нейросети ruGPT-3 XL с 1,3 млрд параметров.

Инженерный запал вылился в кропотливую работу по распараллеливанию обучения, очистке данных и тестированию. Но зато… теперь в open-source модель ruGPT-3 XL с 1,3 млрд параметров!

А также ее публичное API:

Читать дальше →

+21

m1rko Jul 6 2020 at 19:42

В сообществе машинного обучения есть проблема токсичности

3 min

13K

Machine learning*Community management*Popular scienceArtificial Intelligence

Translation

Токсичность везде.

Во-первых, нарушен процесс независимой экспертизы (peer review). Четверть работ с конференции NeurIPS выкладывается на arXiv. В DeepMind есть исследователи, которые публично преследуют рецензентов, критикующих их представление ICLR. Кроме того, статьи известных институтов с arXiv принимаются на ведущих конференциях, даже если рецензенты решают отклонить работу. И наоборот, некоторые статьи с большинством положительных отзывов отклоняются (не хочу называть никаких имён, просто взгляните на страницу openreview ICRL этого года).

Читать дальше →

+22

prof1983 Nov 26 2012 at 15:53

OpenCog — проект создания ИР (AGI)

6 min

17K

Open source*

From sandbox

OpenCog — инструмент для создания искусственного интеллекта на основе открытого исходного кода.

«Сегодня нет задачи более важной, чем создание искусственного разума (AGI), с широкими возможностями на уровне человека и, в конечном итоге за его пределами.» ©

OpenCog-проект, нацеленный на создание инструментов для создания искусственного интеллекта с открытым исходным кодом. OpenCog Prime — это познавательная архитектура с определенным набором взаимодействующих компонентов, предназначенных для создания человеко-подобного искусственного разума (AGI). Дизайн OpenCog Prime — это прежде всего работы Бен Герцеля, но OpenCog структура предназначена в качестве общей основы для ИР (AGI) исследований. OpenCog выпускается в соответствии с условиями GPL лицензии.

Читать дальше →

+21

AloneCoder Jun 27 2017 at 14:43

Табы, пробелы и ваша зарплата — какая связь?

11 min

41K

Open source*VK corporate blogMathematics*Open data*Data visualization*

Translation

Пару дней назад Дэвид Робинсон опубликовал на Stack Overflow статью с очень провокационным названием: Разработчики, использующие пробелы, зарабатывают больше использующих табуляцию (перевод на Хабре). Автор взял данные из исследования разработчиков, проведённого Stack Overflow, и в самом деле показал, что использование пробелов ассоциируется с более высокими зарплатами, даже принимая в расчёт одинаковый уровень опыта. Так что, нужно вместо табуляций использовать пробелы, чтобы увеличить свою зарплату?

Читать дальше →

+65

143

kozyrevskaya Aug 5 2016 at 17:40

8 лекций, которые помогут разобраться в машинном обучении и нейросетях

2 min

84K

Data Mining*Surfingbird corporate blogMathematics*Machine learning*

Мы собрали интересные лекции, которые помогут понять, как работает машинное обучение, какие задачи решает и что нам в ближайшем будущем ждать от машин, умеющих учиться. Первая лекция рассчитана скорее на тех, кто вообще не понимает, как работает machine learning, в остальных много интересных кейсов.

Читать дальше →

+43

m1rko Jan 6 2018 at 14:07

Итоги развития компьютерного зрения за один год

12 min

29K

Working with video*Algorithms*Image processing*Machine learning*

Translation

Часть первая. Классификация/локализация, обнаружение объектов и слежение за объектом

Этот фрагмент взят из недавней публикации, которую составила наша научно-исследовательская группа в области компьютерного зрения. В ближайшие месяцы мы опубликуем работы на разные темы исследований в области Искусственного Интеллекта — о его экономических, технологических и социальных приложениях — с целью предоставить образовательные ресурсы для тех, кто желает больше узнать об этой удивительной технологии и её текущем состоянии. Наш проект надеется внести свой вклад в растущую массу работ, которые обеспечивают всех исследователей информацией о самых современных разработках ИИ.

Введение

Компьютерным зрением обычно называют научную дисциплину, которая даёт машинам способность видеть, или более красочно, позволяя машинам визуально анализировать своё окружение и стимулы в нём. Этот процесс обычно включает в себя оценку одного или нескольких изображений или видео. Британская ассоциация машинного зрения (BMVA) определяет компьютерное зрение как «автоматическое извлечение, анализ и понимание полезной информации из изображения или их последовательности».

Термин понимание интересно выделяется на фоне механического определения зрения — и демонстрирует одновременно и значимость, и сложность области компьютерного зрения. Истинное понимание нашего окружения достигается не только через визуальное представление. На самом деле визуальные сигналы проходят через оптический нерв в первичную зрительную кору и осмысливаются мозгом в сильно стилизованном смысле. Интерпретация этой сенсорной информации охватывает почти всю совокупность наших естественных встроенных программ и субъективного опыта, то есть как эволюция запрограммировала нас на выживание и что мы узнали о мире в течение жизни.

Читать дальше →

+19

sahsAGU Nov 22 2017 at 11:03

6 строк глубокого обучения

9 min

12K

SQL*Microsoft corporate blogMicrosoft SQL Server*Machine learning*

Translation

Привет, Хабр! Такое понятие, как «Глубокое обучение», существует с 1986 года, когда его впервые употребила Рина Дехтер. Развитие технология получила в 2006 после выхода публикации Джеффри Хинтона об эффективном предобучении многослойной нейронной сети. Сегодня deep learning часто живет в связке с распознаванием речи, пониманием языка и компьютерным зрением. Под катом вы узнаете про использование алгоритмов глубокого обучения в SQL. Заглядывайте!

Читать дальше →

+14

mythmaker Jan 16 2013 at 19:13

11 важных вещей, которые нужно знать про DevOps — часть первая

9 min

302K

System administration*ScrumTrek corporate blogDevOps*

Translation

От переводчика

В 2009 года за рубежом возникло движение, которое назвало себя DevOps. На первый взгляд это разработчики с навыками сисадминов и сисадмины с навыками разработчиков. Но на самом деле это отнюдь не так. Данное подход имеет четкие цели, философию, инструменты и методы, которые только некоторые русскоязычные компании начинают использовать. Мне кажется, что данный подход у нас незаслуженно игнорируется и мне хотелось бы рассказать об 11 вещах, которые нужно знать о DevOps, в частности:

что такое DevOps

каковы его ценности

как он внедряется

кому он приносит пользу

Надеюсь, этот текст вам понравится.

Читать дальше →

Karaoke Mar 29 2016 at 14:59

Palantir и отмывание денег

6 min

37K

Information Security*Big Data*Data visualization*Edison corporate blog

Palantir —
[Контент удален по требованию Википедии]

На официальном канале Palantir есть видео с демонстрацией работы аналитика, использующего систему Palantir в ходе расследования отмывания денег. По-моему, как-то так видели пользу информационных технологий «отцы-основатели» Вэнивар Буш («As We May Think»), Дуглас Энгельбарт («The Mother of All Demos») и Джозеф Ликлайдер («Интергалактическая компьютерная сеть» и «Симбиоз человека и компьютера»), о которых я писал немного ранее.

(За помощь с переводом спасибо Ворсину Алексею)

+19

shimapa23 Feb 15 2015 at 17:07

300 потрясающих бесплатных сервисов

11 min

1.6M

Web design*Typography*Interfaces*

Translation

Автор оригинальной статьи Ali Mese добавил ещё 100 новых бесплатных сервисов. Все 400 потрясающих сервисов доступны здесь. И еще подборку +500 инструментов от 10 марта 2017 г. смотрите здесь.

A. Бесплатные Веб-Сайты + Логотипы + Хостинг + Выставление Счета

HTML5 UP: Адаптивные шаблоны HTML5 и CSS3.
Bootswatch: Бесплатные темы для Bootstrap.
Templated: Коллекция 845 бесплатных шаблонов CSS и HTML5.
Wordpress.org | Wordpress.com: Бесплатное создание веб-сайта.
Strikingly.com Domain: Конструктор веб-сайтов.
Logaster: Онлайн генератор логотипов и элементов фирменного стиля (new).
Withoomph: Мгновенное создание логотипов (англ.).
Hipster Logo Generator: Генератор хипстерских логотипов.
Squarespace Free Logo: Можно скачать бесплатную версию в маленьком разрешении.
Invoice to me: Бесплатный генератор счета.
Free Invoice Generator: Альтернативный бесплатный генератор счета.
Slimvoice: Невероятно простой счет.

Читать дальше →

+309

107

sbmaxx Dec 25 2013 at 14:43

Agile Board. Как мы планируем в Яндекс.Картинках и как к этому пришли

5 min

105K

Яндекс corporate blog

Наша команда занимается разработкой интерфейсов для четырех крупных проектов: Яндекс.Картинки, Яндекс.Видео и их версий для смартфонов. Разработка верстки поисковых сервисов в Яндексе обладает своей спецификой. Задачи стекаются с разных сторон: от менеджеров, разработчиков бэкэнда, поиска, проявляются баги и т.д. Внедряются новые фичи, требующие отображения в верстке. Все это стекается в наш таск-трекер (JIRA).

При этом задач всегда больше, чем ресурсов. Всем заказчикам нужно сделать задачи как можно раньше, все поднимают приоритеты своих задач. У разработчиков уходило слишком много времени на то, чтобы разобраться, какие из этих неотложных задач самые неотложные. Это очень тормозило развитие, и нужно было что-то предпринимать. Сделать так, чтобы каждый разработчик знал, какими именно задачами ему заниматься сегодня, а какие можно отложить на завтра, следующую неделю, месяц.

В конечном итоге большинство наших проблем удалось решить при помощи Agile Board и Scrum, но пришли мы к этому далеко не сразу, а поэтапно.

Как мы это делали, и что получилось

+65

itunioninfo Sep 10 2013 at 01:56

Что нужно знать о трудовых правах каждому работнику. Часть 2

8 min

189K

Legislation in IT

В первой статье  «Что нужно знать о трудовых правах каждому работнику» мы рассказали и дали несколько рекомендаций, как обезопасить себя при устройстве на работу и увольнении с неё. Кроме того, запустили небольшое исследование*, на которое откликнулось немало хабраюзеров. Вторая часть посвящена вопросам, так или иначе связанным с заработной платой.

Все мы работаем, и в том числе для того, чтобы радоваться перечислению заработной платы на банковские карточки. И очень огорчаемся, когда оповещения задерживаются или сообщают нам о приходе не тех сумм, на которые мы рассчитывали. Заработная плата, пожалуй, самая важная часть трудовых отношений для работника и, даже если мы готовы терпеть нарушения в ходе работы или в условиях труда, то мириться с нарушениями в выплатах заработной платы, как правило, не хочется.

Читать дальше →

+40

Artur Jan 22 2013 at 17:03

Один день в офисе 500px. Фото-рассказ

3 min

109K

Offices of IT companies

Этим летом мне посчастливилось быть в Торонто. Именно там, а не в привычной всем Долине, находится офис стартапа №1 в Канаде — 500px. Конечно, нельзя было упускать шанс побывать в гостях у известного на весь мир проекта, который, кстати сказать, создали и развивают два «наших» фотографа — москвич Евгений Чеботарев и киевлянин Олег Гуцол. Так что, в одну из пятниц я отправился в гости.

Что такое 500px?

«500px — is a photo community powered by creative people worldwide», — так о своем проекте говорят сами авторы. Я бы добавил, что это лучший сайт с самыми красивыми фотографиями, которые я когда либо встречал.

Благодаря внутренней экосистеме, которая каждому в его ленту отбирает действительно потрясающие снимки, отличному интерфейсу и продуманным мотивационным правилам для фотографов, сайт получил мировую известность и продолжает стремительный рост.

Побывать в офисе у такого проекта и окунуться в рабочую атмосферу было по-настоящему интересно.

Офис

Основное рабочее пространство — open space в большой комнате. Столы расположены «фермами» в несколько рядов по 4-6 рабочих мест в ряду. Рабочие места — друг на против друга.

Читать дальше →

+53

Larrr Sep 24 2010 at 17:52

Стажировка в Google (окончание)

9 min

11K

IT-companies

В последней части своего отчета я расскажу про жизнь интерна в главном офисе Google, про офис и, собственно, про саму стажировку.

Читать дальше →

+118

ivanchik Sep 2 2010 at 07:59

Разработка привлекательных реалистичных пользовательских интерфейсов

4 min

15K

Design

Translation

Cекрет разработки привлекательных интерфейсов заключается в реализме. Ваша задача — придать плоским элементам объём, используя свойства реальных объектов, вроде неровностей и шероховатостей, бликов и теней, различных текстур поверхностей. В идеале они должны выглядеть как предметы на вашем столе. Создавая классный интерфейс, в первую очередь нужно думать не «как», а «почему».

Читать дальше →

+198

2 3