Articles / Bookmarks / Profile of igor

Игорь @igor_suhorukov

java / open source

ProfileArticles89PostsNewsComments1.8K

PastorGL Jun 5 at 13:20

Пишем движок SQL на Spark. Часть 8: CREATE FUNCTION

Medium

12 min

1.1K

Big Data*Hadoop*Java*SQL*Programming*

Tutorial

В предыдущих сериях ( 1 • 2 • 3 • 4 • 5 • 6 • 7 • Ы ) рассмотрели, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL, заточенный на задачи подготовки и трансформации наборов данных, и работающий как тонкая прослойка поверх Spark RDD API.

Штука получилась довольно продвинутая, с поддержкой императивщины типа циклов/ветвлений/переменных, и даже с поддержкой пользовательских процедур. И в плане этой самой императивщины расширяемая: может импортировать функции из Java classpath, равно как и операторы выражений. То есть, если необходимо, можно написать функцию на Java, или определить новый оператор, и использовать потом в любом выражении на SQL.

Круто? Ещё как круто. Но как-то однобоко. Если в языке у нас поддерживаются функции, то почему бы не дать нашим пользователям определять их самостоятельно? Вот прямо через CREATE FUNCTION? Тем более, что вся необходимая для этого инфраструктура уже вовсю присутствует. Да и процедуры на уровне интерпретатора у нас уже поддерживаются ведь…

Функция для затравки.

Читать дальше →

high_fly May 15 2024 at 21:10

LLM field landscape

Medium

43 min

6.8K

Machine learning*Artificial IntelligenceNatural Language Processing*

Review

Ради чего эта статья?

Сфера генеративных моделей сегодня кипит, булькает и шипит — каждый день выходят новые статьи, новые бенчмарки, новая модель вырывается вперёд на Arena, открывается очередной AI‑стартап… Только мы успеваем потрогать одну модель и сделать свои выводы, выходит другая, а Sam Altman в каждом интервью намекает, насколько GPT-5 будет умнее, лучше и круче, чем GPT-4.

В общем, за сферой LLM сегодня очень трудно уследить. Но уследить хочется. Хочется сделать снэпшот, в котором отразить максимально актуальное состояние области на текущий момент, насколько это возможно, чтоб было от чего отталкиваться потом. На самом деле, это задача для серьёзного научного review, но лучшее враг хорошего, поэтому начну я со статьи на Хабре.

+14

Sivchenko_translate Sep 8 2024 at 17:39

Загруженность GPU — не самая репрезентативная метрика

7 min

4.6K

CPUMachine learning*Python*High performance*

Translation

В командах ML-инженеров часто пользуются метрикой «GPU Utilization» (Загруженность процессора), чтобы понять, насколько активно задействуется в работе процессор. Чтобы узнать эту информацию, обычно достаточно выполнить команду nvidia-smi в строке терминала. Во многих интегрированных наблюдательных инструментах загруженность процессора также отслеживается как основная характеристика производительности. Но иногда, как ни удивительно, эта метрика даёт не слишком точное представление о производительности GPU. На самом деле, GPU можно загрузить на 100%, выполняя лишь операции чтения и записи (в памяти), но при этом 0 вычислений. Эта статья – не о том, как мы это выяснили, а о том, что нам удалось узнать по ходу дела.

+12

dopefish_hunters Jun 5 2018 at 07:51

Allure-Framework. Работа с кодом

11 min

128K

Сбер corporate blogStudying in ITWeb services testing*IT systems testing*Programming*

Продолжая серию публикаций о возможностях Allure-framework, сегодня мы поговорим о работе с кодом. Под катом разбираем, что такое шаг теста, как выводить информацию в отчет при выполнении шагов и какие бывают категории дефектов. Кроме того, расскажем об аннотациях Allure. Дальше еще интереснее!

Читать дальше →

Sber Sep 2 2024 at 12:52

Топ 10 ИИ-фреймворков, или Сказ о том, как AMD проиграла рынок NVIDIA

Easy

8 min

5.2K

Сбер corporate blogImage processing*Machine learning*Artificial Intelligence

В индустрии машинного обучения происходит небывалый беспрецедентный бум, и главный двигатель этого праздника технологий, генерирующего сверхприбыли для больших компаний, — графические процессоры (GPU). В битве за долю рынка ИИ-ускорителей можно выделить двух титанов индустрии GPU — NVIDIA и AMD. Несмотря на то, что во всех остальных сферах, кроме ИИ, AMD периодически подаёт надежду на превосходство над NVIDIA, во всём, что касается машинного обучения, NVIDIA обладает почти что абсолютной властью над рынком. Эта компания, благодаря своей дальновидной стратегии, сумела не только завоевать доверие разработчиков, но и фактически создать экосистему, ставшую стандартом де-факто в области глубокого обучения. AMD же, несмотря на свой богатый опыт в производстве высокопроизводительных процессоров, оказалась на периферии этого стремительно растущего рынка.

+21

dimpon Sep 21 2018 at 13:53

И снова о лени

4 min

9.1K

Java*Programming*

From sandbox

Добрый день!

Как известно «лень — двигатель прогресса», самое полезное качество программиста, благодаря ей появилось множество замечательных фреймворков и так далее, и тому подобное. Но сегодня я хочу написать не про человеческую лень.

Пару недель назад мне попалась на глаза статья о черновом наброске фичи, новом модификаторе lazy для final полей. И конечно, инициализация логгеров приведена как самый наглядный пример, когда бы эта фича пригодилась. Нет, никто не спорит, конечно логгеры это overhead, создавать их во время старта, потом еще в памяти держать. Брр. Но неужели нельзя написать элегантный ~~костыль~~ решение на старой доброй Java?

Давайте попробуем

WoozyMasta Aug 16 2024 at 20:45

Прекратите делать таблицы в Markdown

Easy

13 min

34K

Technical Writing*

Opinion

В пятницу ко мне подошел коллега и с гордостью показал новую утилиту, которую он разработал. Она генерирует документацию в Markdown на основе .env файла, включая переменные, их значения и комментарии. Я, конечно, поздравил коллегу с успехом и попросил посмотреть на результат. И тут меня ждал шок — таблица в Markdown! Вы только представьте себе это!

Так начался холивар...

И что же не так с таблицами?

+61

krestjaninoff May 15 2010 at 08:32

Извлечение фактов

3 min

13K

Artificial Intelligence

Задача извлечения информации из текста сама по себе не нова: в этом направлении проделано довольно много работы как со стороны крупных компаний aka Яndex и Google, так и со стороны независимых разработчиков. Однако, говорить о том, что данная задача окончательно решена, увы, не приходится. В этой статье я хочу немного упорядочить свои знания по данному вопросу, поверхностно разобрав наработки, с которыми мне недавно пришлось столкнуться.

Читать дальше →

+54

ksenia-plesovskikh Jul 9 2024 at 20:21

Что не так с вашим кодом, сгенерированным большими языковыми моделями?

Medium

10 min

21K

Группа IT-компаний Lad corporate blogMachine learning*Artificial Intelligence

Review

Translation

Китайские ученые провели обширное исследование на 7 популярных LLM, генерируя с помощью них код, а потом выявляя и анализируя ошибки. Им удалось не только выявить и категоризировать наиболее частые закономерности ошибок, но и предложить метод их устранения.

Под катом вольный краткий перевод с комментариями.

+29

marshinov Sep 8 2023 at 14:19

Architecture as Code: реализуем подход Саймона Брауна

2 min

16K

Agile*Website development*Technical Writing*

Если вы знакомы с подходом к документированию, предложенным Саймоном Брауном, вы могли заинтересоваться им, но, возможно, задавались вопросом о его реализации. Этот репозиторий заполняет пробел, представляя конкретный шаблон реализации подхода, который состоящего из:

Модели архитектуры программного обеспечения как код, построенные с использованием Structurizr Lite
Документация, созданная с помощью шаблона Arc42
Журнал решений, созданный с помощью ADR Tools

Предполагается хранение этой документации в репозитории и работа с ней так же, как и с кодом.

Читать дальше →

Sakhar Oct 8 2019 at 09:18

Как выглядело бы Московское метро в трехмерном мире

10 min

106K

Python*Data visualization*Programming*

From sandbox

UPD: По просьбам в комментах добавляю ссылку на вращабельную схему на Javascript
К сожалению, код javascript вставить в тело поста не удалось
Добрый день! Недавно я читал блог одного урбаниста, который рассуждал о том, какая должна быть идеальная схема метро.Схему метро можно рисовать исходя из двух принципов:

Схема должна быть удобной и простой для запоминания и ориентирования
Схема должна соответствовать географии города

Очевидно, что эти принципы взаимоисключающие и первый принцип требует существенного искажения географической реальности.

Достаточно вспомнить, как выглядит схема Московского метро с красивыми кольцами и прямыми линиями:

Читать дальше →

+148

egaxegax May 5 2021 at 18:21

Карта метро Москвы с расчётом пути

Easy

2 min

11K

JavaScript*Vector graphics*HTML*Canvas*

Tutorial

В своей предыдущей статье про интерактивную карту метро Москвы я описывал процесс создания векторной карты на svg-движке, сравнивая с канвасным отображением.

Спустя время я решил вернуться к своей карте и добавил в неё возможность вывода маршрута кратчайшего пути между выбранными станциями по алгоритму BFS, обхода графа в ширину.

slava_rumin Jan 29 2024 at 08:18

Почему мой таксопарк на 300 водителей и 40 машин больше не бизнес

Easy

11 min

197K

Mobile applications monetization*Start-up developmentBusiness Models*

Interview

Я стратегический партнер Яндекса. В 2022-м открыл свой таксопарк в Сочи, у нас 40 машин для тарифа комфорт, из них 11 электрокаров и виртуальный парк (подключашка) на 300 водителей. Я слышал, что бизнес в сфере такси — прибыльное дело и мне захотелось рассказать, как здесь обстоят дела на самом деле.

Оговорюсь, что я не испытываю лютой ненависти к корпорации Яндекс. Все‑таки не жадный монополист подмял рынок. Яндекс сделал удобное приложение, и сами пользователи подмялись под него, а вслед за ними водители и таксопарки. Но есть нюансы.

+217

648

akimovpro Dec 14 2023 at 07:08

Раскрывая секреты LLM: руководство по основным понятиям больших языковых моделей без хайпа

Medium

27 min

93K

Machine learning*Artificial Intelligence

Review

Translation

AI-хайп, честно говоря, слегка задолбал. Кажется, что все вокруг только и делают, что оптимизируют свою работу с помощью AI и в ус не дуют. Все эти возвышенные презентации про amazing и awesome инновации от людей, которые слабо себе представляют, чем энкодер отличается от декодера и почему трансформеры в нейросетях не сражаются с автоботами, мало того, что набивают оскомину и отнимают время, так еще и погружают в грёзы бизнес-руководителей и создают крайне завышенные ожидания.

Вспоминаю, как на одном обмене опытом со стартапами они чётко делились на 2 группы: первая – с менеджерами про невероятные инновации и всеобщее благоденствие, а вторая – с инженерами, которые с красными глазами рассказывали, что так и не смогли победить галлюцинации, что окно контекста заканчивается очень быстро и что для того, чтобы на нормальном продакшн использовании вся эта магия заработала, нужны огромные инвестиции в инфраструктуру, оркестратор, агенты, векторные базы, кратковременную и долговременную память и так далее. Поэтому хотелось собрать в одном месте понятное руководство и для разработчиков, пробующих LLM-ки для своих задач, и для людей из бизнеса, чтобы погрузить в контекст.

+25

seniorjoker Jan 23 2024 at 07:00

Вас просто стало слишком много

Easy

6 min

142K

Programming*Personnel Management*IT career

Opinion

В последнее время тут появилось довольно много статей о сомнительных по содержанию собеседованиях, процессах отбора и т. д. (раз, два, три, четыре, пять, шесть, семь, восемь, девять, ничего себе как много, для круглого счёта можете и сами вспомнить одну. Если что, читать надо в том числе и комменты, они там даже ценнее порой самого текста). Основная претензия людей состоит в том, что на собеседованиях спрашивают вещи, которые не относятся к реальной работе, а сами процессы найма крайне затянуты.

+116

707

zhikharev_hr Jan 23 2024 at 17:06

Почему новым сотрудникам платят больше, чем работающим давно?

7 min

123K

IT careerPersonnel Management*Finance in IT

Translation

Один из самых поучительных моментов в моей карьере случился, когда я узнал, что новый коллега зарабатывает больше меня. Однажды я без задней мысли спросил его: «Какая у тебя зарплата?» Когда я услышал, что она на 40 тысяч долларов в год больше моей, то ощутил обиду, ревность и недооценённость. Как человек, имеющий ту же должность и тот же опыт, может получать на 40% больше меня? После этого открытия я начал раньше уходить из офиса, оправдывая это тем, что мне не платят справедливо. В конце концов, несколько месяцев спустя я ушёл из компании. Она предложила мне контроффер, пообещав повышение и увеличение зарплаты, но тогда я чувствовал себя оскорблённым.

Так почему же компании так поступают? Они намеренно стремятся вызвать у своих сотрудников недовольство? Они действительно думают, что работники не узнают об этой ситуации? Или они считают, что мы всё равно останемся, ведь они одни из самых лучших работодателей в мире? Позже я поработал какое-то время в отделе оплаты труда и увидел, «как делают колбасу», так что хочу поделиться размышлениями о том, почему новым работникам платят больше и почему лучший способ добиться улучшения зарплаты — перейти в новое место.

Читать дальше →

+141

274

rukhi7 Jan 17 2024 at 06:43

Можно ли использовать DMA вместо memcpy в Linux

7 min

5.1K

C*Development for Linux*Programming microcontrollers*System Programming*

В интернете можно найти описание проблем, связанных с использованием DMA для стандартной функции копирования данных из памяти в память:

Linux – DMA memcpy operation in Linux

Давайте попробуем разобраться, как можно использовать интерфейс к DMA для реализации стандартной операции копирования memcpy и есть ли в этом смысл.

+13

slivka_83 Dec 9 2022 at 16:23

Введение в библиотеку Transformers и платформу Hugging Face

17 min

99K

Python*Data Mining*Big Data*Machine learning*Artificial Intelligence

Tutorial

Technotext 2022

Библиотека Transformers предоставляет доступ к огромному кол-ву современных предобученных моделей глубокого обучения. В основном основаных на архитектуре трансформеров. Модели решают весьма разнообразный спектр задач: NLP, CV, Audio, Multimodal, Reinforcement Learning, Time Series.

В этой статье пройдемся по основным ее возможностям и попробуем их на практике.

ТК LLM is all you need | ТК Private Sharing | Курс: Алгоритмы Машинного обучения с нуля

+23

krisgrey Jan 12 2024 at 13:41

Обзор решений на основе 3D Gaussian Splatting

Medium

10 min

7.5K

Artificial IntelligenceImage processing*Working with 3D-graphics*

From sandbox

Спустя полгода после выхода публикации 3D Gaussian Splatting лавина препринтов на его основе накрыла область 3D-реконструкции. Какие задачи теперь решаются проще, и как именно Gaussian Splatting помогает в приложениях реального времени?

+11

abbey Sep 17 2019 at 06:57

10 сервисов для создания структуры сайта в 2020 году

12 min

164K

Website development*Interfaces*DesignWeb design*Usability*

Translation

Прототипирование — значимый этап в веб-разработке, который позволяет определить и сформировать ДНК проекта на ранних стадиях. В последние годы количество онлайн-сервисов и инструментов для прототипирования ощутимо возросло. В этом обзоре представлены 10 сервисов для создания визуальных сайтмэпов.

Прежде чем перейти к описанию инструментов не лишним будет разобраться в терминологии.

Сайтмэп — это структура страниц сайта представленная в иерархической модели. Такая схема помогает оценить объем страниц, которые формируют сайт, а также понять логику их взаимосвязи. Иногда это примитивные по организации и структуре схемы. А порой очень сложные с многоуровневой вложенностью карты. Сайтмэпы помогают планировать распределение содержания и механику навигации будущего сайта.

octopus.do visual sitemap

Читать дальше →

+21

2 3 ...

145 146