Статьи / Закладки / Профиль EddyLan / Хабр

Eduard Lanchev @EddyLan

Data Scientist

Профиль Публикации 1Комментарии 29Закладки 304

anzay911 22 апр в 08:33

Backup. Файловое резервное копирование бюджетного VPS

Простой

6 мин

1.9K

Настройка Linux*

Кейс

Предыстория. В своё время, когда мне надо было найти решение этого вопроса на Хабре, казалось, что все статьи состоят из установки и настройки Veeam Backup, Proxmox Backup и прочих коммерческих решений для блочных устройств. У меня запросы поскромнее. SLA и 3-2-1 не требуются. Достаточно восстановить работоспособность за пару часов или хотя бы пару дней. В общем, в поиске нужной статьи мне не особо повезло. Зато в комментах оказались интересные находки. Попробовав некоторые из них, в итоге остановился на описанном ниже варианте. Настроил и забыл. В качестве облачного хранилища ранее был выбран Storj. Но недавно они превратили бесплатные аккаунты в триальные. Пришлось отказаться, пересесть на Mega и освежить в памяти настройки. Заодно и выложить сюда. Надеюсь, кому-то тоже пригодятся.

TL;DR Статья состоит из настройки rsnapshot, rclone и небольшого скрипта автоматизации.

porto 30 мар в 17:04

Автоматизируем поиск ценной информации в групповых чатах Telegram с помощью LLM

Средний

17 мин

10K

Python*Искусственный интеллектСоциальные сети и сообществаБудущее здесь

Туториал

Устали мониторить бесконечные групповые чаты в Telegram в поисках важной информации? Решение есть! Пишем компактное приложение на Python, которое будет делать это за нас с использованием LLM.

+16

El_Gato_Grande 25 мар в 15:19

Самый простой гайд по созданию бота для анализа сообщений в Telegram

6 мин

12K

Веб-разработка*Программирование*Блог компании Selectel

Туториал

Есть Telegram-каналы, которые отслеживают определенные события в мире. А мы следим за их сообщениями, чтобы не упустить ничего важного. Если собирать и анализировать данные вручную, процесс будет отнимать много времени и требовать высокой концентрации от человека. Чтобы решить эту проблему, наш партнер и фронтенд-разработчик Владилен Минин создал Telegram-бота, который автоматизирует процесс и выдает резюме по собранной информации.

В этой статье рассказываем, как с помощью нейросети создать бота, который собирает и обрабатывает информацию из сообщений, и задеплоить его на облачный сервер.

Читать дальше →

+30

veseluha 12 мар в 17:30

Пишем чат-бот для работы с PDF

7 мин

6.6K

Python*PDFМашинное обучение*Искусственный интеллектБлог компании BotHub

Туториал

Популярность языковых моделей, в частности ChatGPT, растет в геометрической прогрессии, но многие из нас все еще сталкивается с определенными ограничениями, такими как устаревшая информация, которые OpenAI пока что не смогла преодолеть.

Но задумывались вы над тем, чтобы задавать вопросы непосредственно из своих документов, хранящихся в облаке? Сохраните своё время, которое уходило бы на поиски и ручной мониторинг сайтов, и задействуйте автоматизацию при работе с PDF-документами. Если вас занимает такая перспектива, эта статья окажется для вас ценным ресурсом.

Мы можем избежать риска недостоверных данных в ChatGPT, внедрив работу модели через RAG. В нашем материале мы подробно объясним, как создать чат-бота для взаимодействия с документами из вашего хранилища с помощью LangChain.

Приступим (:

+13

NapoleonIT 12 мар в 13:34

Как мы делаем веб-сервис для автоматизации рабочих задач на базе агентов LLM

9 мин

4.1K

Машинное обучение*

Recovery Mode

Друзья, всем привет! Сегодня хотим рассказать про то, как мы — Виталий, Даниил, Роберт и Никита — при поддержке AI Talent Hub, совместной магистратуры Napoleon IT и ИТМО, создаем Цифработа — сервис цифровых работников, который помогает оптимизировать временные затраты у сотрудников на выполнение рабочих задач с помощью агентов больших языковых моделей (LLM).

В данной статье мы вкратце рассмотрим, кто такие агенты, как они могут автоматизировать рабочие процессы, и обсудим ключевые вызовы, с которыми мы столкнулись при разработке сервиса. Сразу хочется отметить, что данная статья, скорее, служит обзором нашего решения проблемы и тех задач, над которыми мы работали, нежели преследует цель предоставить подробное руководство по применению агентов или проектированию архитектуры сервиса.

Предлагаем начинать!

Andy_Day 15 мар в 09:00

Как LLM могут повлиять на труд разработчиков (и не только их)

Простой

15 мин

2.1K

Программирование*

Ретроспектива

Если взглянуть на ИТ индустрию изнутри, хотя бы за последние 20 лет, то технологии и продукты сменяли друг друга довольно активно, вознося на пик спроса то одних специалистов, то совершенно других. Если брать рынок РФ, то в крупном корп секторе таких волн было несколько: была волна разработчиков OEBS (который, все еще работает в очень крупных компаниях, начиная с телекома, заканчивая известными интернет компаниями), был взлет и падение SAP/ABAP, был Siebel CRM, в части интеграции были монстры типа Oracle SOA или Tibco, в BI - Oracle BI и Sap Bobj, но сейчас все эти продукты, а вместе с ними тысячи их разработчиков перешли в разряд legacy с исчезающе малым числом вакансий и низкими зарплатами. И каждый раз, находясь в казалось бы несущемся вперед поезде очередного OEBS, находились люди, видевшие, что поезд уже горит и пора "соскакивать". На этом фоне, [backend] разработка казалась чем-то стабильным, несмотря на смены парадигм и фреймворков.

Эта статья попытка взглянуть на классическую заказную разработку с т.з. "я не сидим ли мы в поезде, паровоз которого уже горит" и поделиться соображениями в части влияния больших языковых моделей (LLM) на труд разработчиков (и шире, ИТ специалистов), рынок труда в этой сфере в кратко- и средне срочной перспективе.

Mark_K 5 апр 2023 в 13:34

ChatGPT на стероидах: возможности плагина-ретривера для семантического поиска

Средний

6 мин

7.5K

API*Машинное обучение*

Туториал

OpenAI внедрил поддержку плагинов в ChatGPT, позволяя подключаться к сторонним сервисам и искать информацию в сети. Один из таких плагинов – Retrieval Plugin.

В статье описывается процесс установки, настройки окружения и интеграции плагина, а также тестирование его работы через векторный поиск.

Rai220 20 фев в 11:03

Какой плащ был у Понтия Пилата? Отвечает GigaChat

Средний

10 мин

6.4K

Машинное обучение*Искусственный интеллектNatural Language Processing*Блог компании SberDevices

Обзор

Всем привет! На связи лид разработки SDK GigaChat’a — Константин Крестников. В этой статье я расскажу о том, что такое GigaChain и как в целом SDK позволяет упростить жизнь разработчика LLM, например, научить LLM давать ответы на вопросы по вашим документам или работать в режиме автономного агента. Также поговорим про решения, которые практически невозможно сделать без использования SDK.

GigaСhain — это ответвление (fork) открытой библиотеки LangСhain на Python. Её главная цель — облегчить жизнь разработчику. Библиотека состоит из большого количества различных компонентов, которые позволяют работать с промптами, объединять вызовы к большим языковым моделям в цепочки, загружать данные из разных источников и сохранять обработанные ответы языковой модели.

+27

Mark_K 18 апр 2023 в 08:37

LangСhain: создаем свой AI в несколько строк

Средний

6 мин

37K

Машинное обучение*Искусственный интеллект

Туториал

В этой данной статье познакомимся с LangChain, перспективным фреймворком для работы с языковыми моделями. С его помощью можно создать свой собственный аналог ChatGPT всего в несколько строк кода. Благодаря модульной структуре, LangChain позволяет быстро и легко разрабатывать AI приложения различной сложности.

+13

popotam2 25 фев 2022 в 10:51

План самостоятельного обучения DDD, CQRS, EventSourcing

7 мин

38K

Анализ и проектирование систем*Проектирование и рефакторинг*

Если вы собрались плотно погрузиться в тему Doman Driven Design (DDD), о том как его применять, как использовать, для чего он нужен, и как с ним связаны Command and Query Responsibility Segregation (CQRS), Event Sourcing и другие термины из мира DDD то можно воспользоваться планом обучения, который последовательно погрузит вас в эти темы и поможет сориентироваться. Часть информации на русском, часть на английском языке, так как русскоязычных аналогов я не смог найти.

Погрузиться в DDD

+34

mihrutochka 12 окт 2021 в 06:42

Wagtail — лучшая CMS на python в нашей галактике

5 мин

33K

CMS*Python*Django*

Очень абстрактное описание, что такое Wagtail CMS и почему с ней стоит познакомиться разработчикам на Django. Вкратце, Wagtail позволяет в кратчайшие сроки сделать сложные проекты, CMS активно развивается, ее поддерживают настоящие профи.

Takagi 7 сен 2023 в 12:11

Как (быстро) сделать русский локальный ChatGPT

Средний

7 мин

36K

Программирование*Машинное обучение*Искусственный интеллектNatural Language Processing*

Ретроспектива

Эта история началась в начале марта этого года. ChatGPT тогда был в самом расцвете. Мне в Telegram пришёл Саша Кукушкин, с которым мы знакомы довольно давно. Спросил, не занимаемся ли мы с Сашей Николичем языковыми моделями для русского языка, и как можно нам помочь.

И так вышло, что мы действительно занимались, я пытался собрать набор данных для обучения нормальной базовой модели, rulm, а Саша экспериментировал с существующими русскими базовыми моделями и кустарными инструктивными наборами данных.

После этого мы какое-то время продолжали какое-то время делать всё то же самое. Я потихоньку по инерции расширял rulm новыми наборами данных. Посчитав, что обучить базовую модель нам в ближайшее время не светит, мы решили сосредоточиться на дообучении на инструкциях и почти начали конвертировать то, что есть, в формат инструкций по аналогии с Flan. И тут меня угораздило внимательно перечитать статью.

+88

agpankova 17 июл 2023 в 15:11

Эволюция метрик качества машинного перевода. Часть 2

Простой

5 мин

3.1K

Машинное обучение*Natural Language Processing*

Обзор

Как правильнее всего измерять качество машинного перевода? Многие слышали о BLEU, но на самом деле метрик много. В этой статье расскажем, какие существуют метрики, как они эволюционировали и какие сегодня наиболее адекватны. Часть 2: референсные нейросетевые метрики.

agpankova 3 июл 2023 в 20:29

Эволюция метрик качества машинного перевода — Часть 1

Простой

5 мин

Машинное обучение*Natural Language Processing*

Обзор

Как правильнее всего измерять качество машинного перевода? Многие слышали о BLEU, но на самом деле метрик много. В этой статье расскажем, какие существуют метрики, как они эволюционировали и какие сегодня наиболее адекватны. Часть 1: эволюция метрик и обзор традиционных метрик.

Ontaelio 1 ноя 2017 в 12:09

Создаем сервер для потокового видео: глава из книги по PHP от нашего разработчика

10 мин

40K

Веб-разработка*PHP*Профессиональная литература*Блог компании Skyeng

Туториал

У нас в Skyeng работают весьма талантливые люди. Вот, например, бэкенд-разработчик Words Сергей Жук написал книгу про событийно-ориентированный PHP на ReactPHP, основанную на публикациях его блога. Книга англоязычная, мы решили перевести одну самодостаточную главу в надежде, что кому-то она сможет пригодиться. Ну и дать скидочную ссылку на всю работу.

Читать дальше →

+19

slivka_83 9 дек 2022 в 19:23

Введение в библиотеку Transformers и платформу Hugging Face

17 мин

49K

Python*Data Mining*Big Data*Машинное обучение*Искусственный интеллект

Туториал

Технотекст 2022

Библиотека Transformers предоставляет доступ к огромному кол-ву современных предобученных моделей глубокого обучения. В основном основаных на архитектуре трансформеров. Модели решают весьма разнообразный спектр задач: NLP, CV, Audio, Multimodal, Reinforcement Learning, Time Series.

В этой статье пройдемся по основным ее возможностям и попробуем их на практике.

+23

Alexufo 15 дек 2020 в 02:27

Видео вещание с OvenMediaEngine, до свидания nginx rtmp module

8 мин

25K

Веб-разработка*Open source*Работа с видео*JavaScript*Nginx*

Туториал

Когда Роман Арутюнян (rarutyunyan) выпустил модуль nginx-rtmp-module, это сильно перевернуло взгляд на доступность организации видеовещания. До этого, это казалось каким-то дорогим и сложным делом.

31 декабря Adobe официально хоронит флешплеер и убирает ссылки на скачивание с сайта. Это, конечно, не может не радовать. Эти засранцы то и дело подсовывали включенные по умолчанию галочки, так что даже продвинутому пользователю прилетал вместе с флешплеером еще и какой-то антивирус в лучшем случае. То, что это чудовище бесконечно просило обновлений ручками через браузер, знают все. Ходил даже анекдот, предлагающий создателям флешплеера законодательно ограничить паспорта сроком на 1 неделю с возможностью бесконечной перевыдачи.

Читать дальше →

+10

YusmpGroup 9 сен 2022 в 13:15

Как сделать стриминговый сервис

4 мин

9.7K

Разработка мобильных приложений*Разработка под Windows*

Из песочницы

На проектах разработчикам часто приходится делать невозможное реальным. Для этого они из-под земли находят нестандартные решения, колдуют над кодом и радуют фантастическим результатом.

Команде надо было создать стриминговый сервис с разным уровнем доступа и при этом сохранить лучшее качество связи. О том, как все получилось, читайте в статье.

PatientZero 16 фев 2023 в 09:45

Пишем GPT в 60 строк NumPy (часть 1 из 2)

Средний

16 мин

71K

Python*Алгоритмы*Математика*Машинное обучение*Искусственный интеллект

Туториал

Перевод

В этом посте мы начнём реализацию с нуля GPT всего в 60 строках numpy. Во второй части статьи мы загрузим в нашу реализацию опубликованные OpenAI веса обученной модели GPT-2 и сгенерируем текст.

Читать дальше →

+92

NewTechAudit 7 июн 2023 в 08:32

Заставляем трансформеров отвечать на вопросы

Средний

10 мин

4.2K

Python*Программирование*Машинное обучение*Natural Language Processing*

Кейс

Привет, Хабр!

Меня зовут Владислав Малеев, я участник профессионального сообщества NTA.

Интеллектуальные системы призваны облегчать жизнь человека, выполняя за него рутинные задачи. Одной из таких задач является поиск информации в большом количестве текста. Возможно ли и эту задачу перенести на плечи интеллектуальных систем? Этим вопросом я решил задаться.

Что ответили трансформеры

2 3 ...

14 15