Pull to refresh
2
J_K @J_K read⁠-⁠only

User

Send message

Переносим свою картину мира в чат-бота на базе GPT-3

Reading time 4 min
Views 45K

Думаю, все уже наслышаны о потрясающих возможностях ChatGPT и GPT-3, многие уже вдоволь наигрались с ними, а новые стартапы на их основе льются на нас каждый проливным дождём! Возможности ChatGPT в решении некоторых текстовых задач потрясают, порой кажется, что имеешь дело с настоящим разумом.

У меня возникла идея - что если попробовать доучить сеть так, чтобы она имитировала картину мира определенного человека? (Да, снова Черное Зеркало). Классический подход с pre-prompt для этого не подходит, так как хочется заложить в сеть побольше знаний (а также реально поменять веса связей), поэтому будем использовать fine-tune (дообучение на небольшом датасете и небольшом числе итераций). Такая опция доступна пользователям openAI за небольшую плату ($0.5-1 в моих примерах).

В этой статье я покажу как можно обучить GPT-3 (в версии davinchi-003) на своей картине мира и засунуть её внутрь телеграм-бота, потратив на всё всего несколько долларов.

Код бота доступен в репозитарии.

Читать далее
Total votes 43: ↑42 and ↓1 +41
Comments 31

Особенности удалённого грумминга

Reading time 7 min
Views 15K

Статья коллеги про отношение к вынужденной удалёнке вдохновила меня рассказать о самом серьёзном испытании, с которым я столкнулся в первые полгода такого режима: грумминг сложных задач стал невыносим. Под катом я постарался не только рассказать о проблеме, но и поделиться своими соображениями о её решении. Возможно, кто-то сочтёт мои рассуждения очевидными и подумает, что были допущены детские ошибки. Но я также верю, что найдутся и те, кому мой опыт окажется полезен.

Читать далее
Total votes 46: ↑44 and ↓2 +42
Comments 13

Учебный фреймворк на Java по глубокому обучению

Reading time 2 min
Views 6.8K

Недавно мы выпустили первую версию нового фреймворка по глубокому обучению DeepJava (DJ) 0.01.


Основная цель фреймворка, по крайней мере, на текущий момент, чисто учебная. Мы строим шаг за шагом фреймворк, у которого:


  • будет понятная кодовая база
  • будет набор бранчей, по которым можно шаг за шагом проследить процесс создания и понять, почему были сделаны те или иные изменения
Читать дальше →
Total votes 10: ↑9 and ↓1 +8
Comments 3

Специалист по разметке данных

Reading time 3 min
Views 30K
Сегодня замечательный день (if you know what I mean), чтобы анонсировать нашу новую программу — Специалист по разметке данных.

На текущий момент в сфере искусственного интеллекта сложилась такая ситуация, при которой для обучения сильной нейронной сети нужны несколько компонентов: железо, софт и, непосредственно, данные. Много данных.

Железо, в общем-то, доступно каждому через облака. Да, оно может быть недешевым, но GPU-инстансы на EC2 вполне по карману большинству исследователей. Софт опенсорсный, большинство фреймворков можно скачать себе куда-то и работать с ними. Некоторые сложнее, некоторые проще. Но порог для входа вполне приемлемый. Остается только последний компонент — это данные. И вот здесь и возникает загвоздка.

Deep learning требует действительно больших данных: сотни тысяч–миллионы объектов. Если вы хотите заниматься, например, задачей классификации изображений, то вам, помимо самих данных, нужно передать нейронке информацию, к какому классу относится тот или иной объект. Если у вас задача связана еще и с сегментацией изображения, то получение хорошего датасета — это уже фантастически сложно. Представьте, что вам нужно на каждом изображении выделить границы каждого объекта.


В этом посте хочется сделать обзор тех инструментов (коммерческих и бесплатных), которые пытаются облегчить жизнь этих прекрасных людей — разметчиков данных.
Читать дальше →
Total votes 22: ↑20 and ↓2 +18
Comments 4

Как Яндекс создавал курс по C++, или Почему нам всё пришлось переписать

Reading time 4 min
Views 84K
В Яндексе C++ — один из основных языков, на нём написан наш поиск. Его развитие нам настолько важно, что больше года назад по инициативе Яндекса была создана российская рабочая группа по стандартизации «плюсов». Через неё у всех разработчиков русскоязычного пространства есть возможность влиять на развитие языка.



Недавно Физтех, Яндекс и ШАД запустили ещё один курс на платформе Coursera — «Основы разработки на C++: белый пояс». Он посвящён знакомству с С++. Я расскажу, для кого этот курс, как мы его готовили, что получилось в итоге и каковы наши дальнейшие планы.

Как всё началось, было выброшено и началось снова


Онлайн-специализацию из пяти курсов по С++ мы задумали прошлым летом. Сначала сочиняли программу потихоньку, потом активнее, и в октябре начали снимать видео.

Читать дальше →
Total votes 74: ↑72 and ↓2 +70
Comments 148

Подборка полезных материалов по Azure

Reading time 4 min
Views 9K
У нас накопилось много бесплатных материалов по работе с облаком, поэтому мы решили поделиться с вами самыми последними из них. Под катом вы найдёте описание 6 курсов и 12 книг/гайдов по обучению работе с Azure.


Читать дальше →
Total votes 28: ↑26 and ↓2 +24
Comments 2

Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес

Reading time 28 min
Views 258K

Пятую статью курса мы посвятим простым методам композиции: бэггингу и случайному лесу. Вы узнаете, как можно получить распределение среднего по генеральной совокупности, если у нас есть информация только о небольшой ее части; посмотрим, как с помощью композиции алгоритмов уменьшить дисперсию и таким образом улучшить точность модели; разберём, что такое случайный лес, какие его параметры нужно «подкручивать» и как найти самый важный признак. Сконцентрируемся на практике, добавив «щепотку» математики.


UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.


Видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017).


Читать дальше →
Total votes 56: ↑55 and ↓1 +54
Comments 31

МФТИ запустил онлайн-курс по управлению инновационными проектами

Reading time 3 min
Views 6.5K
image

Курс разработан МФТИ совместно с компанией eNANO при поддержке IBS и предназначен для лидеров инновационных компаний, технологических предпринимателей, стартаперов и всех тех, кто занимается высокотехнологичным бизнесом, а также изучает инновации и управление проектами.

Total votes 14: ↑12 and ↓2 +10
Comments 2

No free lunch. Введение в участие в соревнованиях по анализу данных на платформе Kaggle

Reading time 14 min
Views 14K
Цель статьи — познакомить широкую аудиторию с соревнованиями по анализу данных на Kaggle. Я расскажу о своем подходе к участию на примере Outbrain click prediction соревнования, в котором я принимал участие и занял 4ое место из 979 команд, закончив первым из выступающих в одиночку.

Для понимания материала желательны знания о машинном обучении, но не обязательны.
Читать дальше →
Total votes 34: ↑29 and ↓5 +24
Comments 10

Как расширить функционал приложения, размещенного на Mac Store, при помощи Apple Script

Reading time 5 min
Views 3.1K
С тех пор, как для прохождения модерации на Mac Store стала требоваться поддержка Sandbox, прошло уже 5 лет. Хотя возможности MacOS и Sandbox постепенно расширяются, разработчики, желающие публиковаться в официальном магазине Apple, по-прежнему ограничены в возможностях работы c этой ОС. Особенно остро эта проблема стоит для утилит и системных приложений.


Sandbox призван сделать macOS безопасней и уберечь пользователя от вредоносных и потенциально опасных приложений — все действия приложений, которые могут гипотетически принести вред, должны сопровождаться запросом к пользователю на предоставление доступа. В теории это разумная мера предосторожности, однако в действительности под санкции попадают многие приложения, которым пользовательские данные необходимы для осуществления базовых функций. В данной статье мы расскажем, как внедряли подобные функции в приложение, поддерживая совместимость с Sandbox, — возможно, этот опыт будет полезен для других разработчиков, работающих с официальным маркетом.

Наши партнеры столкнулись с подобной необходимостью при работе с утилитой для мониторинга системы MaCleaner X. Вся линейка продуктов MaCleaner распространяется исключительно через Mac App Store.

Отличительными особенностями MaCleaner X являются поддержка тачбара и кастомизированный дизайн: приложение автоматически определяет модель Mac и предлагает особый вариант интерфейса для каждого девайса. Однако в дополнение к этому мы в данный момент работаем над тем, чтобы реализовать в расширенной версии некоторые функции, которые пользователи хотели бы видеть в программе и которые для утилит, распространяемых вне Mac Store, считаются привычными.
Читать дальше →
Total votes 5: ↑3 and ↓2 +1
Comments 2

+500 бесплатных инструментов для запуска вашего стартапа в 2017 году

Reading time 40 min
Views 155K


Сейчас доступно огромное количество отличных бесплатных инструментов. Но используя бесплатный или условно-бесплатный инструмент, вам понадобится больше времени на достижение своей цели, потому что такой инструмент не будет полностью соответствовать вашим потребностям.

С другой стороны, в начале пути важно минимизировать издержки и внимательно следить за своими платными подписками. В конце месяца они могут незаметно вылиться в огромные накладные расходы.

Итак, мы нашли в интернете бесплатные и условно-бесплатные инструменты для роста вашего бизнеса. Когда они дадут вам желаемый результат, вы можете оформить платную подписку.
Читать дальше →
Total votes 74: ↑60 and ↓14 +46
Comments 26

Speech AI с Python & Google API

Reading time 3 min
Views 67K

Speech AI с Python & Google API


image


Добрый день!


Совсем недавно пришла в голову идея сделать "говорилку" на русском языке. В голове была простенькая схема наподобие:


1) Распознать речь с микрофона
2) Придумать более — менее разумный ответ.
В этом пункте можно сделать много интересного.
Например реализовать управление чем — нибудь физическим и не очень.
3) Преобразовать этот самый ответ в речь и воспроизвести.


Самое интересное, что для всех этих пунктов нашлись библиотеки под Python, чем я и воспользовался.


В итоге получилась связка, практически не зависящая от выбранного в качестве разговорного языка.

Total votes 19: ↑19 and ↓0 +19
Comments 14

Погружение в технологию блокчейн: Взаимное страхование животных

Reading time 15 min
Views 12K
Этот материал из серии статей о первых в России проектах, разработанных на основе технологии блокчейн, немного необычен. Вы узнаете о технической реализации платформы для взаимного страхования домашних животных, которая запустилась только сегодня. Сейчас протестировать бота Lexi Bot можно в Telegram. Будем рады вашим комментариям.


Читать дальше →
Total votes 20: ↑16 and ↓4 +12
Comments 22

Как двухлетний репозиторий на GitHub стал трендовым за 48 часов

Reading time 8 min
Views 41K


GitHub предоставил возможность миллионам разработчиков с легкостью публиковать свои проекты и тем самым привлекать пользователей и единомышленников. Часто перед разработчиками возникает проблема неэффективного использования ресурсов — они тратят сотни часов на создание проекта с целью продвинуть его на GitHub, а получают максимум две звезды.
Читать дальше →
Total votes 88: ↑74 and ↓14 +60
Comments 37

Парсим weblancer используя PROXY

Reading time 9 min
Views 21K

Цель работы


  1. Парсим сайт, используя прокси-сервера.
  2. Сохраняем данные в формате CSV.
  3. Пишем поисковик по найденным данным.
  4. Строим интерфейс.




Использовать будем язык программирования Python. Сайт, с которого мы будем качать данные — www.weblancer.net (парсинг старой версии этого сайта был размещен здесь), в нем есть предложения работы по адресу www.weblancer.net/jobs. С него мы и будем получать данные — это название, цена, количество заявок, категория, краткое описание предлагаемой работы.

Вход с использованием прокси означает — вход на сайт под ненастоящим адресом. Пригодится для парсинга сайта с защитой бана по IP адресу (то есть, если вы слишком часто, за короткий отрезок времени, входите на сайт).
Читать дальше →
Total votes 28: ↑15 and ↓13 +2
Comments 8

Creative Commons запускает сервис для поиска бесплатных изображений

Reading time 1 min
Views 6.7K


Организация Creative Commons, которая помогает законно обмениваться творческими материалами, запустила бета-версию новой поисковой системы CC Search для поиска бесплатных изображений.

Читать дальше →
Total votes 18: ↑18 and ↓0 +18
Comments 11

Новый рекорд: парализованный набирает восемь слов в минуту с помощью мозгового имплантата

Reading time 3 min
Views 9.8K

Источник: Стэнфордский университет

Парализованных людей в мире много. Только в США 5,1 млн человек парализованы в той либо иной степени. В некоторых случаях паралич — прогрессирующий. Боковой амиотрофический склероз — одно из заболеваний, которое приводит к полному параличу. С течением времени человек, страдающий этим заболеванием, теряет возможность управлять даже лицевыми нервами, а в финальной стадии заболевания — и мышцами глазных яблок.

Такие пациенты не могут общаться с окружающими людьми или реагировать на внешние факторы. Они замкнуты в себе, хотя умственная деятельность обычно не затронута. Раньше возможность общения с такими людьми отсутствовала, они были предоставлены самим себе. Но по мере развития технологий новые возможности появляются и в медицине. Например, разработка Нильса Бирбаумера (Niels Birbaumer), сотрудника Wyss Center for Bio and Neuroengineering, помогла понять, что думают люди, у которых отсутствует моторно-двигательная активность.
Total votes 29: ↑29 and ↓0 +29
Comments 17

OpenStreetMap, как получить координаты адреса, часть простая

Reading time 4 min
Views 38K


Последнее время наблюдаю тенденцию, что всё больше и больше людей сталкиваются с проблемами в отсутствии геоданных. Вернее даже не так, в их закрытости. Если ещё вчера всех устраивали возможности картографических сервисов по расстановке маркеров, то теперь пользователь хочет большего: подсветить улицу, показать дома на ней, посчитать протяжённости рек и т.д. И тут их ожидает сюрприз, казалось бы на карте они всё это видят, но сделать ни чего не могут — это просто картинки. Развитие, что Google.Maps, что Яндекс.Карт остановилось на показе картинок, геокодинге, да навигации.

Читать дальше →
Total votes 34: ↑34 and ↓0 +34
Comments 24

SwiftLint — чистота и порядок в iOS проекте

Reading time 6 min
Views 54K
image

Думаю, все знают, как бывает непросто поддерживать соблюдение code style и соглашений в iOS-проекте. Сегодня поговорим о том, как автоматизировать этот процесс с помощью утилиты SwiftLint.
Читать дальше →
Total votes 23: ↑22 and ↓1 +21
Comments 17

5 действительно бесплатных нелинейных видеоредакторов для Windows

Reading time 6 min
Views 432K
Этот пост призван помочь тем, кому, как и мне, внезапно стало тесно с Movie Maker.

Видеоредакторы почти не интересовали меня до прошлого месяца, пока с друзьями мы не задумали снять что-нибудь оригинальное к Новому году. Креативность наша ограничилась тем, чтобы, говоря терминами прежде мне неизвестными, применить эффект “Разделение экрана” (Split Screen). То есть реализовать нечто такое:


Читать дальше →
Total votes 64: ↑63 and ↓1 +62
Comments 92

Information

Rating
Does not participate
Registered
Activity