Статьи / Закладки / Профиль Nikoobraz / Хабр

@Nikoobraz

Пользователь

Профиль Публикации Комментарии 481Закладки 22

mr-pickles 14 авг 2023 в 12:45

Что LLM знают о лингвистике? Это зависит от того, какие вопросы им задают

Средний

15 мин

4.7K

Блог компании Wunder FundИскусственный интеллектИзучение языковNatural Language Processing*

Перевод

Развитие больших языковых моделей (Large Language Model, LLM) привело к смене парадигмы в сфере обработки естественного языка (Natural Language Processing, NLP). LLM, обученные на огромных объёмах текста, взятого из интернета, могут осваивать выполнение новых задач, задействуя механизмы контекстного обучения. Это означает, что NLP‑специалисты, «натаскивая» такие модели на решение определённых задач, не занимаются обновлением их параметров. Вместо этого специалисты пишут для LLM промпты, демонстрирующие желаемое поведение моделей и содержащие инструкции или некоторое количество готовых примеров. Эти промпты передают моделям в виде входного контекста (потому это и называют «контекстным обучением»), а модели используют информацию из промптов для формирования ответов на похожие вопросы.

+10

Weshid 11 авг 2022 в 14:16

Алгоритм обучения CBOW архитектуры для векторизации слов

5 мин

4.4K

Семантика*Математика*Машинное обучение*Natural Language Processing*Блог компании Unistar Digital | Юнистар Диджитал

В этой статье подробно разбирается алгоритм обучения архитектуры CBOW (Continuous Bag of Words), которая появилась в 2013 году и дала сильный толчок в решении задачи векторного представления слов, т.к. в первый раз на практике использовался подход на основе нейронных сетей. Архитектура CBOW не столь требовательна к наличию GPU и вполне может обучаться на ЦП (хотя и более медленно). Большие готовые модели, обученные на википедии или новостных сводках, вполне могут работать на 4-х ядерном процессоре, показывая приемлемое время отклика.

alexsivova 6 окт 2020 в 16:20

Разработка модели в PySpark ML на датасете с разными типами данных для ржавых чайников

5 мин

7.6K

Python*Big Data*Машинное обучение*

Из песочницы

А ты уже умеешь работать с несколькими типами данных в PySpark ML? Нет? Тогда тебе срочно нужно к нам.

Читать дальше →

Nikuson 12 окт 2022 в 12:00

Диффузионные Нейросети — самый актуальный подход к генерации изображений

6 мин

22K

Машинное обучение*Блог компании RUVDS.comИскусственный интеллект

Метод обратной диффузии поистине является самым нашумевшим в этом году методом генерации изображений нейросетями. Его используют: DALLE 2, Midjourney, imagen и другие актуальные модели 2022 года.

В данной статье мы подробно изучим, что под капотом самых современных генеративных моделей и даже напишем небольшую свою.

Под катом будет много кода, программирования, математики, в общем — всё, как вы любите.

Читать дальше →

+47

Arnak 31 авг 2022 в 11:25

Выгорание эволюционирует. Что такое «тихий уход» — новый тренд среди офисных сотрудников

7 мин

93K

Карьера в IT-индустрииСтатистика в ITБлог компании getmatch

«Громкий уход» — это когда ты объявляешь всем, что увольняешься. Когда об этом знают по крайней мере твои работодатели. Но в последнее время резко начал набирать популярность так называемый «тихий уход» («quiet quitting»). Когда о том, что ты по сути перестал стараться, знаешь только ты.

Читать дальше →

+88

330

BootSector 3 ноя 2021 в 16:00

Рисуем вместе с CLIP Guided Diffusion HQ

7 мин

11K

Обработка изображений*Машинное обучение*Блог компании RUVDS.comДизайнБудущее здесь

UPD: эта статья была написана до выхода интереснейшего материала о нейросети ruDALL-E. Мы решили всё равно её опубликовать — таким образом у читателей будет возможность сравнить изображения, сгенерированные отечественной и зарубежной сетями. Дальнейший текст публикуется без изменений.

Во времена старого Баша мне запомнилась одна цитата:

kok:
Подскажите какой прогой перегонять книги из txt в mp3
Izzzum:
^^^^^ No Comment а почему сразу не в 3gp или XviD?
kok:
А в каком по твоему формате аудиокниги?
kok:
Или ты думаешь, что какойто дурень сидит и начитывает перед микрофоном?

Что ж, если не предъявлять слишком высоких требований к реалистичности результата, можно сказать, что сегодня у нас такие «проги» есть. Речь, конечно же, о нейросетях, которые умеют генерировать практически любые виды контента.

Читать дальше →

+56

Vlomme 15 авг 2022 в 11:45

В IT в 30. Как я стал solo Kaggle Grandmaster, устроился на работу, но так и не стал программистом

10 мин

72K

Разработка игр*Машинное обучение*Карьера в IT-индустрии

Всем привет, меня зовут Крамаренко Владислав. В этом году мне исполнилось 30 лет, а также случилось много событий, в том числе и позитивных. Во первых, я устроился на вторую в жизни работу(и первую в айти), а во вторых, стал грандмастером. Это сложный путь, на котором было несколько ключевых решений, которые привели меня к себе нынешнему. Им я и поделюсь далее, начав с детства.

+87

Molechka 2 мар 2021 в 22:48

Регулярные выражения (regexp) — основы

21 мин

869K

Тестирование IT-систем*Регулярные выражения*

Регулярные выражения (их еще называют regexp, или regex) — это механизм для поиска и замены текста. В строке, файле, нескольких файлах... Их используют разработчики в коде приложения, тестировщики в автотестах, да просто при работе в командной строке!

Чем это лучше простого поиска? Тем, что позволяет задать шаблон.

Например, на вход приходит дата рождения в формате ДД.ММ.ГГГГГ. Вам надо передать ее дальше, но уже в формате ГГГГ-ММ-ДД. Как это сделать с помощью простого поиска? Вы же не знаете заранее, какая именно дата будет.

+43

altyshevamaria 7 авг 2022 в 16:25

Обработка изображений с помощью библиотеки Python Pillow

33 мин

122K

Python*Обработка изображений*

Туториал

Перевод

Данный туториал является переводом статьи, написанной Stephen Grupetta. Все изображения и коды скопированы без изменений. В конце вы найдете примечания относительно данной информации, а также ссылку на github с работающим кодом. Если код, приведенный автором не запускается, переходите в примечания и, возможно, сможете найти решение вашей ошибки.

+10

ptsecurity 9 фев 2022 в 11:25

Подборка полезных ресурсов от экспертов Positive Technologies: от лаб и подкастов до блогеров и сообществ. Часть 2

7 мин

Блог компании Positive TechnologiesBig Data*Машинное обучение*Читальный залИскусственный интеллект

Продолжаем делиться интересными курсами и лабами, книгами и подкастами, блогами и сообществами, а также Telegram- и YouTube-каналами, которые наши крутые эксперты читают сами и советуют тем, кто хочет быть в курсе всего, что происходит в мире практической кибербезопасности.

В этом посте — три десятка полезных ресурсов по машинному обучению от Александры Мурзиной, Вадима Столярова и Игоря Пестрецова. По их словам, они подойдут и совсем новичкам, которые хотят развиваться в этом направлении, и тем, кто делает первые шаги и еще не успел освоить все тонкости, и опытным исследователям, которым важно следить за новостями из мира ML и data science и постоянно совершенствовать свои навыки.

Смотреть подборку

AlexanderBolshakov 1 фев 2022 в 16:47

35 реальных рисков, убивающих data- и machine learning проекты

13 мин

Big Data*Машинное обучение*Управление проектами*Управление продуктом*Data Engineering*

Из песочницы

Всем привет! Эта статья - обобщение моего опыта 30+ проектов, связанных с обработкой данных и машинным обучением. Здесь не будет теории про управление рисками и общего перечня проектных рисков. Я перечислил только наиболее частые “грабли” именно из data-специфики, с которыми приходилось сталкиваться за последние 7 лет. Надеюсь, что эта статья поможет менеджеру проекта или менеджеру продукта сохранить свой цвет волос, ценное время команды и удовлетворенность заказчиков. Риски я разделил на три группы:

+24

hse_spb 18 янв 2022 в 14:33

Градиенты в нейронных сетях для поиска аномалий в данных

9 мин

5.4K

Алгоритмы*Математика*Машинное обучение*Блог компании Питерская Вышка

В основе машинного обучения лежит предположение, что данные для обучения, тестирования и применения взяты из одного и того же распределения. К сожалению, в процессе применения модели это предположение может нарушаться, что приводит к необъяснимым последствиям — сдвигу распределения. Особенно такие нарушения опасны в областях, где требуется быстро и точно принимать решения: медицина, финансы, self-driving cars.

Системы машинного обучения часто просто игнорируют сдвиги распределения и продолжают работать в штатном режиме, не представляя, что ответы на запросы могут быть невалидными. Чтобы сделать работу системы более точной и понять причину происхождения некорректных данных, можно отлавливать такие нарушения — нужно только добавить возможность поиска аномалий.

Меня зовут Глеб Енгалыч, я аспирант Питерской Вышки первого года обучения. В этом посте я расскажу о своей магистерской диссертации «Анализ градиента нейронной сети для поиска аномалий в данных», которую сейчас активно дорабатываю для подачи на конференцию ICML-2022.

+15

Asya_Dyu 13 янв 2022 в 15:56

15 игр, которые прокачивают логику, алгоритмы, ассемблер и силу земли

8 мин

102K

Программирование*Алгоритмы*Блог компании Timeweb CloudНаучно-популярноеИгры и игровые консоли

Есть «Super Mario», признанная классика видео игр. Есть «Doom», который запускают на чайниках и тестах на беременность. Есть супер-популярные по статистике twitch.tv игры («League of Legends», «GTA V», «Fortnite», «Apex Legends») которые стримят пятая часть всех стриммеров.

А есть игры, на которые очень мало обзоров, но они супер крутые — игры про алгоритмы. Игры, в которых можно кодить на ретро-компьютере; игры, которые надо взламывать; игры, где можно программировать контроллеры или поведение персонажей; игры, где можно создавать свою игру внутри игры.

Под катом подборка классных игр про алгоритмы за последние 10 лет. Если что-то упустила — буду рада дополнениям.

Еще я создала канал в Telegram: GameDEVils, буду делиться там клевыми материалами (про геймдизайн, разработку и историю игр).

Читать дальше →

+88

snipsnap 8 фев 2019 в 00:58

Как стать Java разработчиком за 1,5 года

10 мин

309K

Java*Учебный процесс в ITIT-эмиграция

Меня зовут Сергей, мне 40 лет и сейчас я работаю Java разработчиком в немецкой компании. Мы занимаемся разработкой программного обеспечения для ~~пивоварен~~ оценки финансовых и кредитных рисков. Это моя первая работа в качестве разработчика. До этого я работал в сфере IT-поддержки и системной интеграции. Первого февраля 2019 г. закончился мой шестимесячный испытательный срок, и у меня на руках бессрочный контракт. Я хочу поделиться своим опытом, как можно самостоятельно выучить Java так, чтобы получить работу.

Это мой рабочий стол. Пить пиво в рабочее время у нас разрешено, мы же в Германии.

Моя первая статья: «IT-эмиграция с семьей. И особенности поиска работы в маленьком городе Германии, когда ты уже там»

Читать дальше →

+115

212

rishat_edison 23 дек 2018 в 00:39

Годные туториалы на YouTube

3 мин

56K

Python*JavaScript*Программирование*Блог компании EdisonУчебный процесс в IT

Перевод

На YouTube много бесплатных обучающих и курсов и туториалов.

Я веду freeCodeCamp, YouTube канал без рекламы. У нас есть полные видеокурсы и учебные пособия по многим популярным языкам программирования и фреймворкам (включая JavaScript, Python, Java, Ruby, C, C ++, Angular и не только).

Есть и другие YouTube каналы с бесплатными уроками по программированию, которые ничуть не хуже, а иногда даже лучше, чем платные.

В этой статье я перечисляю десять YouTube каналов, которые можно посмотреть, чтоб прокачаться в программировании. Расположение каналов — случайное.

Бывает полезно посмотреть одну и ту же тему у разных преподов, так можно глубже разобраться в вопросе.

Есть много отличных каналов, для которых у меня не хватило места в этом списке. Поделитесь своими находками в комментах.

+33

2vlad 11 дек 2018 в 15:38

Шесть бесплатных автоматизированных платформ для изучения программирования

3 мин

106K

PHP*JavaScript*Программирование*Блог компании ХекслетУчебный процесс в IT

Привет, сообщество! Мы в Хекслете составили список из пяти бесплатных автоматизированных онлайн-платформ для новичков.

На русском:

HTML Academy
«Академия» учит верстать сайты. Основной контент в формате подписки (390 рублей в месяц) и интенсивов (от 12500 рублей), но есть несколько бесплатных автоматизированных курсов по основам HTML, CSS и JavaScript.

В HTML Academy не столько задания для прокачки в программировании, сколько для знакомства с основами веб-разработки. Но это идеальный формат для тех, кто никогда не писал код и хочет попробовать. Большое количество веб-разработчиков начинало путь именно здесь.

Code Basics
Это новый бесплатный сервис от Хекслета. Его основная идея — через решение простых заданий прямо в браузере погружать новичков в основы программирования. Сейчас есть уроки по PHP, JavaScript и Python, ближайшее время появятся — новые. Платформа подойдет лучше всего для изучения основ синтаксиса, и меньше — для прокачки алгоритмов.

Обучение построено вокруг чередования небольших порций теории (3-4 абзаца) и закрепления практики в тренажере. У каждого практического задания есть решение учителя, которое можно сравнить со своим после успешного прохождения и раздел для обсуждения задания.

Читать дальше →

+43

ua-hosting 4 мая 2018 в 19:55

Курс MIT «Безопасность компьютерных систем». Лекция 1: «Вступление: модели угроз», часть 1

15 мин

139K

Информационная безопасность*Программирование*IT-инфраструктура*Блог компании ua-hosting.company

Перевод

Массачусетский Технологический институт. Курс лекций #6.858. «Безопасность компьютерных систем». Николай Зельдович, Джеймс Микенс. 2014 год

Computer Systems Security — это курс о разработке и внедрении защищенных компьютерных систем. Лекции охватывают модели угроз, атаки, которые ставят под угрозу безопасность, и методы обеспечения безопасности на основе последних научных работ. Темы включают в себя безопасность операционной системы (ОС), возможности, управление потоками информации, языковую безопасность, сетевые протоколы, аппаратную защиту и безопасность в веб-приложениях.

Лекция 1: «Вступление: модели угроз» Часть 1 / Часть 2 / Часть 3

+21

CyberEdRussia 5 дек 2018 в 16:13

Как прокачать свою карьеру через GitHub

4 мин

12K

Информационная безопасность*Системное программирование*GitHub*Карьера в IT-индустрииБлог компании CyberEd

GitHub – крупнейшая библиотека, созданная разработчиками для разработчиков. Главная прелесть хостинга в его идеологии: отдавать также легко, как и получать. Здесь можно найти самые разные IT-проекты как легальные, так и не совсем. Пользуясь открытостью, кто-то роется в исходниках в корыстных целях – чтобы потом использовать их уязвимости для банального шантажа, а кто-то с помощью репозиториев прокачивает свои профессиональные скилы. Давайте разберемся, как не закопаться в миллионах источников и какие перки можно заполучить.

То, что знания не принадлежат лишь узкому кругу избранных, уже признают и транснациональные корпорации. На основе одного исходного кода вырастает несколько новых – так и развиваются технологии, которыми в итоге начинает пользоваться весь мир. Такие гиганты, как Apple, Google, Facebook, Microsoft – разместили и продолжают постоянно обновлять свои репозитории на GitHub. Да что уж, если даже Министерство обороны США заводит хранилище на хостинге https://github.com/Code-dot-mil/code.mil с лозунгом «Помогите нам стать лучше». И каждое новое предложенное полезное решение – это очередной выученный урок в карьере разработчика.

Формат open-source проектов хорош тем, что позволяет участникам общаться также, как мы делаем это в социальных сетях. Помните про принцип соревновательности! К примеру, некто постит вариант реализации идеи. Другие участники, на интересе, либо желая покуражиться предлагают хаки. В итоге – сообщество плюсует авторам лучших решений.

Поэтому чтобы попрактиковаться и проверить свои способности периодически стоит закидывать pull requests – предложения на изменения кода – разработчику, открывшему приглянувшийся вам репозиторий. Владелец в свою очередь может как отклонить, так и принять запрос. Это и будет оценкой выполненной работы. Плюс – таким образом можно понять нуждается ли проект в доработках.

Читать дальше →

alizar 4 авг 2017 в 12:46

Опубликована база с 320 млн уникальных паролей (5,5 ГБ)

3 мин

237K

Информационная безопасность*

Проверка аккаунтов на живучесть

Одно из главных правил при выборе пароля — не использовать пароль, который уже засветился в каком-нибудь взломе и попал в одну из баз, доступных злоумышленникам. Даже если в вашем пароле 100500 символов, но он есть там — дело плохо. Например, потому что в программу для брутфорса паролей можно загрузить эту базу как словарный список. Как думаете, какой процент хешей она взломает, просто проверив весь словарный список? Вероятно, около 75% (реальную статистику см. ниже).

Так вот, откуда нам знать, какие пароли есть у злоумышленников? Благодаря специалисту по безопасности Трою Ханту можно проверить эти базы. Более того, их можно скачать к себе на компьютер и использовать для своих нужд. Это два текстовых файла в архивах: с 306 млн паролей (5,3 ГБ) и с 14 млн паролей (250 МБ).

Читать дальше →

+25

PuzzleEnglish 21 авг 2018 в 15:19

Коробка по-прежнему в ручке: почему в 2018-м вам все еще нужно изучать языки самостоятельно

3 мин

13K

Блог компании Puzzle EnglishИзучение языков

В 1959 году один из ведущих лингвистов и математиков того времени, Йегошуа Бар-Хиллел, опубликовал знаменитую статью: «Демонстрация неосуществимости полностью автоматического высококачественного машинного перевода»[1]. С тех пор привидение мальчика Джонни, оставившего коробку с игрушками в манеже, как назгул следует по пятам мечтателей, не жалеющих денег инвесторов на поиски вавилонской рыбки. Прошло почти 60 лет — целая жизнь (а для компьютерных технологий — как минимум четыре), но Джонни все еще тут: дышит в затылок нейросетям глубинного бурения, не дает расслабиться hadoop-кластерам.

Читать дальше →

+11