Статьи / Закладки / Профиль Story-teller / Хабр

Александр Третьяков @Story-teller

Пользователь

Профиль Публикации 9Комментарии 29Закладки 140

balandin-nick 24 окт 2022 в 09:30

[Python Intermediate] Урок 2. Docker и docker-compose

11 мин

33K

Python*Программирование*Проектирование и рефакторинг*

Технотекст 2022

К сожалению, в python-мире до сих пор повсеместно применяется неизолированный запуск приложения и его инфраструктуры на личных устройствах. Боюсь, даже опытные специалисты неохотно используют контейнеризацию, хотя в действительности её плюсы неоспоримы.

Во-первых, она позволяет при локальном запуске повторить среду продакшена, что может уберечь от многих неочевидных ошибок. А во-вторых, при переезде с компа на комп или при появлении нового разработчика не придётся в сотый раз корячиться с настройкой приложения и инфраструктуры. Конфигурация производится лишь однажды и в дальнейшем просто поддерживается в актуальном состоянии.

romankh3 12 окт 2022 в 19:21

Как программист настроил автоматическое развертывание бекенда с базой данных

11 мин

13K

Java*DevOps*

Туториал

Всем привет, хабровчане и гости сайта

Сегодня решил рассказать о своем опыте, как я при помощи docker-compose и bash скрипта настроил развертывание бекенд приложения с базой данных.

Какая была идея? Хотелось при помощи одной команды в терминале разворачивать Java приложение с базой данных так, чтобы можно было передать все необходимые переменные в момент запуска и нигде не хранить их.
Так, чтобы можно было развернуть новую версию приложения даже с телефона, просто заранее заготовив необходимую команду.

Как получилось в итоге:
в корне проекта лежит баш скрипт, который принимает переменные окружения, которые нужны для запуска бекенда и базы данных. Там внутри никаких захардкодженных данных нет, что позволяет нам запускать где угодно и с какими угодно настройками.

Путь к этому был сложен и тернист для меня. С большой вероятностью можно было сделать легче и проще, если б я занимался этим каждый день, но сделал как умел и как предполагал возможным. Поэтому все, кто имеет что сказать поэтому поводу, приглашаются в комментарии.

Дело было так...

s1m00n 31 мая 2020 в 16:06

Краткий обзор NLP библиотеки SpaСy

5 мин

32K

Natural Language Processing*Python*Машинное обучение*

Из песочницы

Обработка естественного языка(Natural Language Processing — NLP) сегодня становится очень востребованной, так как людям несомненно проще общаться с машинами также, как они общаются с людьми.

Поэтому сейчас, вместе с быстрым развитием этой области, всё больше сервисов используют NLP: чат-боты, в которых больше не нужно выбирать готовые ответы, голосовые ассистенты, электронная почта, чтобы автоматически сортировать письма и так далее. В этом посте я хочу рассказать об относительно новой Python библиотеке SpaCy, которая стала, если не индустриальным стандартом, как ~~кричат~~ заявляют сами создатели на сайте библиотеки: https://spacy.io/, то как минимум одним из самых популярных и удобных решений. Приятного чтения!

Читать дальше →

+11

edeshina 6 окт 2022 в 15:21

Основы CI/CD. Знакомство с Jenkins

8 мин

137K

Блог компании СлёрмСистемное администрирование*IT-инфраструктура*Администрирование баз данных*DevOps*

В новой статье рассмотрим основы CI/CD и познакомимся Jenkins. Вы узнаете, где применяется Jenkins и какие проблемы помогает решить, поймёте логику архитектурных решений и особенности структуры каталогов. А ещё научитесь устанавливать Jenkins и производить базовую конфигурацию.

За основу статьи взят первый урок нашего практического курса «CI/CD с Jenkins».

dmitrievanthony 2 окт 2022 в 13:34

Как с нуля построить свою блокчейн сеть

10 мин

24K

Python*Криптовалюты

Блокчейн — децентрализованная база данных, хранящая информацию о всех операциях в виде цепи блоков. Особенностью сети является то, что записи находятся не на одном сервере, а на сотнях, из-за чего незаметно подделать их или удалить невозможно. Блокчейн — надежная и безопасная технология, которую можно использовать для обмена данными, деньгами и даже документами.

Brick85 21 окт 2013 в 14:04

Квадрокоптер: дотянуться до небес

6 мин

195K

DIY или Сделай сам

Прошло некоторое время после сборки моего квадрокоптера и предыдущей статьи.
Вдохновившись статьями (1, 2) товарища PaulMan решил написать свою. Правда не так подробно, и не в виде туториала, а скорее рассказ о первых месяцах использования и установке FPV.

Заветная даль

Полетав день на поле, накручивая круги, восьмерку и побаиваясь более сложных фигур, захотелось более высоких и дальних полетов.

История целиком

+91

DmitryVl 21 сен 2022 в 17:52

Привлекаем внимание технологов (и не только «Норникеля»)! Визуализация ML-модели на «архивных» данных

11 мин

5.2K

Блог компании «Норникель»Open source*Визуализация данных*Машинное обучение*

Идет очередной этап работы датасаентиста… обучена ML-модель, которая снизит издержки, повысит эффективность, сделает жизнь лучше, ~~ничего не изменит, зато звучит модно~~. И вот настало время презентовать результаты ее работы. Если вы, как и я, работаете в промышленности, то на запланированную встречу наряду с менеджерами наверняка пригласят технологов с производства - именно они будут пользователями вашей системы, и успешность проекта может во многом зависеть от их заинтересованности и вовлеченности в совместную работу. Раз надо их заинтересовать, сделаем!

Привет, Хабр! Меня зовут Владимиров Дмитрий, я data scientist в группе анализа данных компании Норникель. Я хочу поделиться тем, как настроить интерактивную визуализацию работы ML-модели использую связку Python+Postgres+Grafana.

alejes 20 сен 2022 в 10:01

Как Яндекс перепридумал поиск для разработчиков

9 мин

38K

Блог компании ЯндексПоисковые технологии*Программирование*Алгоритмы*Машинное обучение*

Технотекст 2022

У вас бывало, что открываешь поиск, ищешь что-то по программированию и не находишь ответ? Тогда эта история для вас.

Меня зовут Алексей Степанов, я руковожу службой исследований машинного обучения поиска Яндекса. Сегодня я расскажу непростую историю. Она про проблему, до решения которой у нас слишком долго не доходили руки. Из поста вы узнаете, почему стандартная метрика качества поиска не учитывала интересы разработчиков и как мы её улучшили. Расскажу про новую нейросеть CS YATI, обученную понимать таких же айтишников, как и мы. Ну и про грабли на нашем пути тоже расскажу, куда без них.

Этот пост основан на моём докладе с Data Fest 2022, но не во всём (мой коллега Максим Хурсанов @Maxim2207 существенно расширил историю).

+85

velon 22 сен 2022 в 07:00

Как хранить сеть дорог в БД для построения маршрута?

Сложный

21 мин

19K

Геоинформационные сервисы*OpenStreetMap*Java*Программирование*PostgreSQL*

Туториал

Японцы уже в 2018 году научили немецкий GraphHopper строить маршруты по дорогам хранящимся в PostgreSQL.

Как кастомизировать источник данных, и сохранять новые дороги в таблицу правильно?

Надо всего лишь...

+29

digitalsibur 14 сен 2022 в 11:22

Автоматизируем деплой на объектах СИБУРа

4 мин

2.3K

Блог компании Цифровой СИБУРDevOps*IT-компанииIT-инфраструктура*

Привет! Хорошо налаженным CI/CD сложно кого-то удивить, потому что чаще всего это происходит в классических IT-компаниях. А в них не бывает таких жестких ограничений в плане информационной безопасности.

Как вы понимаете, у нас в СИБУРе с этим дела обстоят немного иначе. Но мы все равно осилили развернуть полноценный CI/CD в рамках целых предприятий — теперь в пару кликов мы можем разворачивать новые релизы ПО на всех наших заводах. В этом посте я расскажу, что именно мы сделали.

Наш продукт называется “IoT-Платформа СИБУР” и он распределенный: центральный репозиторий с образами нашего софта лежит на серверах в корпоративном центре, а сама платформа устанавливается на сервер каждого завода. И делалось это обычно заботливыми руками отдельно взятых специалистов. Мы решили автоматизировать процесс обновлений версий платформы на каждом заводе, и вышло так, что мы стали первым продуктом в цифровизации СИБУРа, который автоматизировал деплой на заводы (из единого репозитория в корпоративном центре).

+10

penguino 18 фев 2015 в 12:18

Selenium для Python. Глава 2. Первые Шаги

6 мин

329K

Python*Программирование*

Туториал

Перевод

Продолжение перевода неофициальной документации Selenium для Python.
Перевод сделан с разрешения автора Baiju Muthukadan.
Оригинал можно найти здесь.

Содержание:

1. Установка
2. Первые Шаги
3. Навигация
4. Поиск Элементов
5. Ожидания
6. Объекты Страницы
7. WebDriver API
8. Приложение: Часто Задаваемые Вопросы

Читать дальше →

+18

MichaelEk 23 июн 2022 в 10:59

Яндекс выложил YaLM 100B — сейчас это крупнейшая GPT-подобная нейросеть в свободном доступе. Вот как удалось её обучить

10 мин

119K

Блог компании ЯндексNatural Language Processing*Open source*Алгоритмы*Машинное обучение*

Технотекст 2022

^{Больше примеров — в конце поста}

В последние годы большие языковые модели на архитектуре трансформеров стали вершиной развития нейросетей в задачах NLP. С каждым месяцем они становятся всё больше и сложнее. Чтобы обучить подобные модели, уже сейчас требуются миллионы долларов, лучшие специалисты и годы разработки. В результате доступ к современным технологиям остался лишь у крупнейших IT-компаний. При этом у исследователей и разработчиков со всего мира есть потребность в доступе к таким решениям. Без новых исследований развитие технологий неизбежно снизит темпы. Единственный способ избежать этого — делиться с сообществом своими наработками.

Год назад мы впервые рассказали Хабру о семействе языковых моделей YaLM и их применении в Алисе и Поиске. Сегодня мы выложили в свободный доступ нашу самую большую модель YaLM на 100 млрд параметров. Она обучалась 65 дней на 1,7 ТБ текстов из интернета, книг и множества других источников с помощью 800 видеокарт A100. Модель и дополнительные материалы опубликованы на Гитхабе под лицензией Apache 2.0, которая допускает применение как в исследовательских, так и в коммерческих проектах. Сейчас это самая большая в мире GPT-подобная нейросеть в свободном доступе как для английского, так и для русского языков.

В этой статье мы поделимся не только моделью, но и нашим опытом её обучения. Может показаться, что если у вас уже есть суперкомпьютер, то с обучением больших моделей никаких проблем не возникнет. К сожалению, это заблуждение. Под катом мы расскажем о том, как смогли обучить языковую модель такого размера. Вы узнаете, как удалось добиться стабильности обучения и при этом ускорить его в два раза. Кстати, многое из того, что будет описано ниже, может быть полезно при обучении нейросетей любого размера.

Читать дальше →

+164

139

Kouki_RUS 26 апр 2020 в 13:01

Ваш первый BERT: иллюстрированное руководство

8 мин

39K

Машинное обучение*

Туториал

Перевод

bert-distilbert-sentence-classification

Прогресс в области машинного обучения для обработки естественного языка существенно ускорился за последние несколько лет. Модели покинули исследовательские лаборатории и стали основой ведущих цифровых продуктов. Хорошей иллюстрацией этому служит недавнее заявление о том, что основным компонентом, стоящим за поиском Google, стала модель BERT. Google верит, что этот шаг (т.е. внедрение передовой модели понимания естественного языка в поисковую систему) представляет собой «величайший прорыв за последние пять лет и один из знаменательнейших во всей истории поисковых систем».

Данная статья – это простое руководство по использованию одной из версий BERT'а для классификации предложений. Пример, рассмотренный нами, одновременно и достаточно простой для первого знакомства с моделью, и достаточно продвинутый для того, чтобы продемонстрировать ключевые концепты.

Помимо этой статьи был подготовлен ноутбук, который можно посмотреть в репозитории или запустить в Colab.

Читать дальше →

+10

tutova_tut 20 мая 2022 в 10:09

Меня скоро заменит AI. Почему это офигенно?

9 мин

6.6K

Блог компании Cloud.ruОблачные сервисы*Контент и копирайтинг*Интернет-маркетинг*Машинное обучение*

Привет! Я Настя, и вот уже более 10 лет я работаю с текстами. Сначала трудилась на литературной плантации в провинциальном агентстве, потом писала для свадебного журнала, после – создавала тексты акций для купонного портала. А потом попала в IT и понеслось... В этой статье хочу рассказать, где меня уже заменил искусственный интеллект, почему это круто и какие инструменты на основе AI стоит взять на вооружение всем уставшим от однообразной работы копирайтерам.

Одно из неоспоримых преимуществ работы в IT – возможность обкатать крутые продукты еще до того, как они попадут на рынок. Собственно, некоторое время назад, коллеги из NLP team SberDevices, те самые, которые наобучали целую подборку ruGPT-3 & family, дали мне потрогать два AI-сервиса, призванных упростить жизнь всем пишущим – «Рерайтер» и «Суммаризатор». Ниже подробный отчет о том, для каких задач я применяла их в своей повседневной практике, какие испытания устраивала и что из этого получилось. А у самих ребят можно почитать про техническую сторону обучения моделей, поверьте, это очень интересно.

+13

Colindonolwe 19 мая 2022 в 12:43

Практические применения генеративных моделей: как мы делали суммаризатор текстов

9 мин

12K

Блог компании SberDevicesМашинное обучение*Искусственный интеллектPython*Natural Language Processing*

В последнее время вышло большое количество генеративных моделей для русского языка. Команды Сбера выпустили целое семейство авторегрессионных моделей ruGPT3, ruT5, о которых мы подробно писали ранее. Сегодня мы расскажем, как практически применять обучение таких моделей и какие продукты можно получить на их основе.

Мы выводим в открытый доступ два новых сервиса: Рерайтер и Суммаризатор. Модель «Рерайтер» способна переписать любой текст другими словами с сохранением смысла вне зависимости от длины и формата — от новостей и художественной литературы до постов в социальных сетях. Модель «Суммаризатор» позволяет создать сжатое изложение исходного текста, сохраняющее его главные тезисы. Эта модель может быть полезна для экономии времени читателя, а также выделения главных мыслей объёмных документов, научной или бизнес-литературы. В частности, использовать сервис можно для подготовки обзоров научных работ на заданную тему, создания новостных дайджестов, выделения наиболее важных событий в лентах информагентств для аналитики.

Читать дальше →

+14

mkuzmin 30 мар 2016 в 08:08

Основы Elasticsearch

12 мин

690K

Веб-разработка*Поисковые технологии*

Elasticsearch — поисковый движок с json rest api, использующий Lucene и написанный на Java. Описание всех преимуществ этого движка доступно на официальном сайте. Далее по тексту будем называть Elasticsearch как ES.

Подобные движки используются при сложном поиске по базе документов. Например, поиск с учетом морфологии языка или поиск по geo координатам.

В этой статье я расскажу про основы ES на примере индексации постов блога. Покажу как фильтровать, сортировать и искать документы.

Читать дальше →

+37

cybran24 11 янв 2021 в 14:54

Клиент-серверный IPC на Python multiprocessing

5 мин

9.8K

Python*Параллельное программирование*Разработка под Linux*

Туториал

Статья отражает личный опыт разработки CLI приложения для Linux.

В ней рассмотрен способ выполнения привилегированных системных вызовов процессом суперпользователя по запросам управляющей программы через строго описанный API.

Исходный код написан на Python для реального коммерческого приложения, но для публикации абстрагирован от конкретных задач.

KargaltsevMikhail 10 мая 2020 в 13:48

Groupby aggregation в pandas

3 мин

68K

Python*

Агрегация является одной из самых частых операций при анализе данных. Разные технологии предлагают нам кучу способов эффективно группировать и агрегировать интересующие нас поля(столбцы, признаки). В этой статье будет рассказано про реализацию агрегации в pandas.
По своей специализации я очень мало работаю с python, но часто слышу про плюсы и мощь этого языка, в особенности когда речь заходит про работу с данными. Поэтому я проведу здесь параллель операций с T-SQL и приведу некотрые примеры кода. В качестве данных я буду использовать наверное самый популярный data set — Ирисы Фишера.

Читать дальше →

RadioRedFox 29 июн 2020 в 20:51

Подключение к session в Java и Python. HttpURLConnection и CookieManager (Java). Requests(Python)

4 мин

12K

Python*Java*

Туториал

Допустим, что нам надо подключиться к серверу, авторизоваться и поддерживать сессию. В браузере это выглядит следующим образом:

На адрес http://localhost:8080/login отправляется пустой GET запрос.
Сервер присылает формочку для заполнения логина и пароля, а также присылает Cookie вида «JSESSIONID=094BC0A489335CF8EE58C8E7846FE49B».
Заполнив логин и пароль, на сервер отправляется POST запрос с полученной ранее Cookie, со строкой в выходном потоке «username=Fox&password=123». В Headers дополнительно указывается «Content-Type: application/x-www-form-urlencoded».
В ответ сервер нам присылает новую cookie c новым «JSESSIONID=». Сразу же происходит переадресация на http://localhost:8080/ путём GET запроса с новой Cookie.
Далее можно спокойно использовать остальное API сервера, передавая последнее Cookie в каждом запросе.

Рассмотрим, как это можно реализовать на Java и на Python.

Читать дальше →

unsviperm 22 июн 2021 в 10:46

Нейрозапятые, или как мы оставили своих редакторов без работы (ну почти)

9 мин

9.8K

Блог компании БАРС ГрупPython*Машинное обучение*Natural Language Processing*

Всем привет, меня зовут Владислав Соболев – ML-инженер в компании “БАРС Груп”. Сегодня я хотел бы рассказать о том, зачем и как мы расставляем знаки препинания в текстах, сравним аналоги, и посмотрим на то, как устроена работа инструмента, который мы написали, чтобы обучать такого рода модели (ссылочка в самом конце). Начнем!

У нас в компании есть ряд ML-проектов, внутри которых используется анализ текста, в том числе и надиктованного голосом. Мы командой долго думали над тем, как можно реализовать данные проекты.

В итоге пришли к выводу, что проще всего для наших целей проводить лингвистический анализ текста искать в нём слова-действия, такие как "сгруппируй", "покажи", определять связи и зависимости между словами, искать ключевые слова, ранжировать их. И на основе всех этих данных – взаимодействовать с сервисами.

+13

1 2 3 4 5