Статьи / Закладки / Профиль ebt / Хабр

Евгений Блохин @ebt

инженер-предприниматель

Профиль Публикации 2Комментарии 329Закладки 473

ru_vds 4 окт 2023 в 16:00

Извлечение текста из файлов PDF при помощи Python

Средний

15 мин

38K

Python*Алгоритмы*PDFХранение данных*Блог компании RUVDS.com

Туториал

Перевод

▍ Введение

В эпоху больших языковых моделей (Large Language Model, LLM) и постоянно расширяющейся сферы их применений непрерывно растёт и важность текстовых данных.

Существует множество типов документов, содержащих подобные виды неструктурированной информации, от веб-статей и постов в блогах до рукописных писем и стихов. Однако существенная часть этих данных хранится и передаётся в формате PDF. В частности, выяснилось, что за каждый год в Outlook открывают более двух миллиардов PDF, а в Google Drive и электронной почте ежедневно сохраняют 73 миллионов новых файлов PDF (2).

Поэтому разработка более систематического способа обработки этих документов и извлечения из них информации позволит нам автоматизировать процесс и лучше понять этот обширный объём текстовых данных. И в выполнении этой задачи, разумеется, нашим лучшим другом будет Python.

Читать дальше →

+53

olzeykan 26 сен 2023 в 18:56

Топ 10 deepnude нейросетей 2023 года

5 мин

566K

Обработка изображений*Машинное обучение*Искусственный интеллект

Обзор

DeepNude — это технология, использующая нейросети для создания изображений обнаженных тел на основе одетых фотографий или видео. Суть этой технологии заключается в том, чтобы "снять" одежду с изображения человека с помощью искусственного интеллекта и показать, как, предположительно, выглядит тело человека под одеждой.

Итак, в данной статье поговорим о пикантных и для некоторых людей непристойных темах, которые больше всего интересуют наше общество - обнаженное тело. Сделаем обзор таких сервисов как: Deepnude .ai, Deepfake.com, DeepSwap.ai, SoulGen и прочих.

+85

peleccom 29 мар 2023 в 19:59

Как подружить Алису с ChatGPT

Средний

6 мин

63K

Python*

Из песочницы

О ChatGPT сейчас не говорит только ленивый. Давайте попробуем соединить голосовой помощник Алиса и ChatGPT. Таким образом мы сможем взаимодействовать с ChatGPT с помощью голоса. А он с помощью голоса может нам отвечать. Конечно тут будут ограничения о которых я подробно опишу далее. Данная статья не столько о ChatGPT а о том как писать навыки для Алисы.

+34

Marmosh 29 авг 2023 в 15:32

Мы сами себя обманули с Биткоином

Средний

4 мин

88K

Исследования и прогнозы в IT*Финансы в ITКриптовалюты

Мнение

Вы идете в продуктовый магазин, хотите купить бутылку молока. Бутылка стоит 601$, транзакция идет 5 часов, и стоимость бутылки за эти 5 часов прыгает от 500 до 700.

Как вам такое будущее? А ведь именно это и продвигают бешеные криптоманы.

Сразу хочу сказать, я за криптовалюту, я сам работаю в этом секторе.

Я хочу написать о наболевшем:

в мире крипты люди несут какой-то тотальный бред, инвестируют во все попало, блогеры/инфлюенсеры являются большим авторитетом чем технологические гики.

На вершине этого стоит Биткоин, который вообще там, не потому что он самый удобный или правильный, а потому что он просто первый. И ничего более.

Статья будет в более спокойном и сухом формате. Числа и факты.

+146

751

Pavgran 26 июл 2023 в 08:46

Доказана омнипериодичность игры «Жизнь» Конвея

Простой

12 мин

17K

Математика*Научно-популярное

Ретроспектива

Сообщество игры "Жизнь", клеточного автомата, изобретённого Джоном Конвеем, с давних пор стремилось найти осцилляторы — стабильные конфигурации, которые повторяются с определённой периодичностью во времени — для каждого натурального числа. И вот, наконец, 21 июля 2023 года был найден осциллятор для последнего недостающего периода — 41, завершая таким образом доказательство омнипериодичности.

В этой статье я расскажу историю открытия осцилляторов для всех периодов до 42 включительно, а также про семейство осцилляторов, включающее любой период от 43 и выше.

+113

IASIVAn 2 мая 2023 в 15:00

Linux. Делаем Bluetooth колонку из ПК

Средний

3 мин

12K

Настройка Linux*

Из песочницы

Linux. Делаем Bluetooth колонку из ПК

+31

lgyanf 26 июн 2023 в 09:00

Вероятностные структуры данных и где они обитают

Средний

3 мин

10K

Алгоритмы*

Туториал

Под этим термином понимаются такие структуры данных или алгоритмы, результатом которых является не детерминированное «да» или «нет», а вероятностные ответы, например, «точно нет» и «возможно». Как правило, такие структуры позволяют существенно сэкономить вычислительные ресурсы в задачах, где допустимо получить примерный ответ.

В этой статье я сделаю обзор таких структур данных и расскажу, какую пользу они могут принести на практике. К базовым вероятностным структурам данных можно отнести фильтр Блума, HyperLogLog и Count-Min Sketch.

+33

85GB 22 мая 2023 в 22:00

Большое сравнение нейросетей

Средний

11 мин

24K

Графический дизайн*Искусственный интеллект

Из песочницы

Привет, меня зовут Юля, 85GB и я веду свой канал по нейронкам

В этой статье я рассмотрю по различным параметрам графические нейронки: DALL-E 2, Midjourney, Stable Diffusion, Кандинский и Шедеврум. Постараюсь разложить всё максимально чётко и ёмко, дать оценку по каждому блоку от 0 до 5. А потом всё сведу в одну таблицу. Штош, поехали. Содержание (кликабельно):

+46

ziyodulla-baykhanov 8 мая 2023 в 11:32

Mojo может стать крупнейшим достижением в области разработки языков программирования за последние десятилетия

Средний

15 мин

123K

Python*Julia*Машинное обучение*Искусственный интеллект

Мнение

Из песочницы

Перевод

Mojo — это новый язык программирования, основанный на Python, который устраняет имеющиеся у него проблемы производительности и развёртывания.

Об авторе: Джереми Говард (Jeremy Howard) — Data Scientist, исследователь, разработчик, преподаватель и предприниматель. Джереми является одним из основателей исследовательского института fast.ai, занимающегося тем, чтобы сделать глубокое обучение более доступным, а также он является почётным профессором Университета Квинсленда. Ранее Джереми был выдающимся научным сотрудником в Университете Сан‑Франциско, где он был основателем Инициативы Уиклоу «Искусственный интеллект в медицинских исследованиях».

Mojo – это Python++

+43

272

kms82 9 мая 2023 в 08:42

Что нас ждёт после появления сильного ИИ или неотвратимая логика социально-технологического развития

13 мин

15K

Искусственный интеллектБудущее здесь

Из песочницы

Я материалист, и поэтому мне радостно видеть впечатляющие успехи больших языковых моделей как то GPT или PaLM. Тут и осмысленный диалог, и программирование, и сочинение сказок, и написание дипломов, и постановка диагнозов, и попытка jailbreak-а. Bing так вообще угрожает и может демонстрировать влюбленность. Эта радость - она от подтверждения правоты, что мы являемся пусть сложными, но всё таким биологическими машинами, и следовательно мы полностью познаваемы, что трансцендентной души у нас нет, что после смерти ничего не будет, а самосознание является феноменом развитой нервной системы.

Примечательно то, что публичный прорыв с большими языковыми моделями случился внезапно. Не было какой-то долгой разбежки на протяжении десятков лет (сама GPT модель разрабатывалась с середины 2018, что по меркам истории просто мгновение). ChatGPT выпрыгнул как чёрт из табакерки в конце 2022 и явил собой качественно новое явление. Явление, которое подтверждает второй закон диалектики: количество переходит в качество. Просто возьми много-много текстов, заставь нейросеть на трансформер-архитектуре предсказывать очередное слово и вуа-ля - получи на выходе почти мыслящую сущность. Если угодно, то душа, сознание и характер распределятся у неё где-то на миллиардах весов, как и у каждого из нас в мозгу.

Интересный вопрос - а что такого выучила та же GPT, что позволяет ей вести разумный диалог? За счёт чего магия? При этом помним, что модель не является просто сборищем ответов на заранее известные вопросы. То есть она не похожа на Граммофон из “Сумма технологии” С. Лема, на который записано 100 триллионов ответов. Модель умеет генерировать новое, умеет понимать контекст. По мне, так модель выявила внутреннюю логику и закономерности повествования, следуя которым можно получить любой текст. Эта логика представлена в виде внутренней системы понятий и смыслов, которые активируются в зависимости от текущего диалога. И когда мы что-то спрашиваем у модели, то для неё это может выглядеть так: сюжетная линия №3429643, ситуация №93752, роли №122997 и №88223, действующее лицо №33554, стилистика №7622 и т.д. Соединив и перемножив всё это вместе, получаем небольшой репертуар слов, из которого можно выбрать очередное. Так как всевозможных комбинаций этих сущностей просто космическое, то модель в состоянии генерировать новое и постоянно удивлять нас.

126

Dmitrii43 16 мая 2023 в 10:00

Превращаем квартиру от застройщика в умную

Простой

8 мин

24K

Блог компании Wiren BoardУмный домИнтернет вещейDIY или Сделай самИнженерные системы*

Мы много рассказываем об умных домах, но как насчет умной квартиры?

Сказано – сделано! Мы посетили типичную квартиру от известного застройщика, которую интегратор превратил в умную.

Чем такая квартира отличается от обычной? Какие умные функции выбрал хозяин? Все это вы узнаете в нашей новой статье. Ныряйте под кат

+13

ru_vds 3 мая 2023 в 12:30

Синдром информационной усталости: болезнь, которой (пока) нет в МКБ

Простой

15 мин

26K

Блог компании RUVDS.comМозгЗдоровье

Обзор

^{Недуг, которого причину

Давно бы отыскать пора…

/А.С.Пушкин/}

Помните шутки вроде: «Ну откуда столько вирусологов, хорошие же биржевые аналитики были»? В каждой шутке есть доля правды: многие из нас не просто потребляют новости, но и пытаются разобраться в проблеме. Никого не удивляет, когда в кафе сидят филолог, кредитный специалист, капитан полиции и все они вместе спорят до хрипоты, цитируя PubMed, Lancet и обсуждая рекомбинантные вакцины. С другими темами происходит примерно то же самое с поправкой на эмоциональный компонент или личный опыт (как, например, в биржевом деле). Однако за такой осведомлённостью, включённостью и эрудированностью скрывается коварная штука, которую некоторые эксперты называют синдромом информационной усталости. Всё линейно: мы живём в сверхмощном информационном потоке, потребляем колоссальное количество контента и постепенно перегружаем свой центральный процессор. Который, как известно, любит отдыхать и готов буквально принудить нас к передышке. Конечно, не чума XXI века, но та ещё пандемия.

Читать дальше →

+51

ru_vds 19 апр 2023 в 12:00

Уходим с «Яндекс.Почты» на свой почтовый сервер

Простой

5 мин

61K

ХостингOpen source*Серверное администрирование*Блог компании RUVDS.comСофт

17 апреля 2023 года «Яндекс» отключает бесплатную почту для бизнеса и предлагает платить от 249 до 1399₽ за юзера в месяц. Если не оплатить услуги, все аккаунты «Яндекс 360» будут принудительно переведены в режим чтения, то есть читать письма будет можно, а отвечать на них — нет.

Переход на платные тарифы обязателен для всех доменов (включая семейные аккаунты) с количеством пользователей больше трёх.

Конечно, легче всего согласиться на условия и оплатить требуемую сумму. На это и рассчитывает провайдер, что 99% клиентов молча заплатят деньги, ведь у них нет другого выхода… Но на самом деле выход есть.

Если в двух словах, можно взять недорогой VPS, поставить туда один из свободных почтовых серверов и сэкономить пару тысяч рублей. Или сотен тысяч, смотря сколько у вас сотрудников. Финансовая раскладка под катом.

Читать дальше →

+63

187

Maslukhin 3 апр 2023 в 11:02

Мечтали про интерактивные книги, когда читали фантастику? Я знаю человека, который делает их прямо сейчас

Простой

3 мин

12K

Работа с 3D-графикой*Блог компании Timeweb CloudЧитальный залНаучно-популярное

Мнение

Когда я был юн, то завороженно читал об интерактивных книгах. Нет, не тех, что упомянуты в Гарри Поттере, а о настоящих — описанных десятками фантастов. Таких, где иллюстрации можно покрутить, запустить в динамике, поставить на паузу и рассматривать в разных сочетания. Я думаю, вы понимаете о чем я говорю.

Каково же было мое удивление, когда в прошлом году я наткнулся именно на такие пусть и не книги, но довольно подробные статьи. Делает их калифорнийский iOS-разработчик польского происхождения Бартош Цехановский (Bartosz Ciechanowski). И каждая его статья — штучный товар.

Читать дальше →

+45

Mind08 25 мар 2023 в 20:56

Патч от Intel для ускорения алгоритмов библиотеки scikit-learn

Простой

2 мин

3.5K

Машинное обучение*

Уведомление о возможности ускорить работу появляется при установке scikit-learn, поэтому пишу для тех, кто давно не переустанавливал эту библиотеку.

Подробное описание ускорителя – по ссылке https://intel.github.io/scikit-learn-intelex/

Ниже перечислил важные моменты и результаты испытаний по повышению производительности.

Установка

Устанавливать можно с помощью pip или conda. Важный момент: ускоритель пока не работает с версиями python 3.10 и новее, поэтому лучше ставить в окружение с версией 3.9. Например, так:

conda create -n env python=3.9 scikit-learn-intelex

Сама библиотека scikit-learn при этом устанавливается автоматически.

Работа с GPU поддерживается.

Использование

Предусмотрено несколько вариантов применения «заплатки». Например, при запуске своего приложения без изменения его кода:

python -m sklearnex my_application.py

Второй вариант – подключать ускоритель внутри приложения. В этом случае можно применять и отменять заплатку.

Важно загружать запускать ускоритель до загрузки самой библиотеки:

from sklearnex import patch_sklearn

patch_sklearn()

from sklearn import…

Если нужно отменить, то после отмены снова загружаем sklearn:

sklearnex.unpatch_sklearn()

from sklearn import …

Ограничения

У некоторых алгоритмов есть ограничения на используемые гиперпараметры, но, по-моему, это больших проблем создать не должно. например, у RandomForestClassifier в качестве критерия можно использовать только gini.

Полный список ограничений: https://intel.github.io/scikit-learn-intelex/algorithms.html

Тест на скорость

+10

PatientZero 21 мар 2023 в 12:27

Руны и лёд: техническое собеседование по TypeScript

6 мин

14K

Ненормальное программирование*JavaScript*Программирование*TypeScript*

Перевод

Крисс проводит тебя в комнату для совещаний.

Он облачён в худи, не похож ни на какого конкретного зверя, но выглядит знакомо. Однако ты уверен, что вы раньше не встречались. Комната тоже знакома, хотя ты в ней впервые.

«Как дела?», — спрашивает он.

Сложный вопрос для начала беседы, придётся объяснять внутренний механизм, приводящий в движение твои действия. Возможно, он риторический?

«Действительно, как?», — улыбаешься ты.

«… хм, отлично. Ну, приступим?»

Ты утвердительно киваешь.

«Хорошо. Мы займёмся небольшой программной головоломкой, чтобы я понял, как ты умеешь решать задачи. Не волнуйся, если не получится сделать это упражнение, мне главное понять, как ты мыслишь и общаешься».

Волноваться? Ты с трудом вспоминаешь это ощущение. Возможно, оно осталось в твоей юности, когда ты зимовал на Свальбарде* с медведями. Ещё до того, как ты понял сейд.

Читать дальше →

+47

TAU15 20 мар 2023 в 14:00

Может ли chatGPT забронировать столик в ресторане через WhatsApp?

8 мин

5.4K

Мессенджеры*Python*Искусственный интеллект

А почему бы не использовать возможности chatGPT и попросить его делать что-то за нас?

Например, давайте попробуем настроить его так, чтобы он мог забронировать нам столик в наш любимый ресторан.

+11

NewTechAudit 20 мар 2023 в 14:04

Как красиво писать формулы c LaTeX?

Простой

5 мин

31K

LaTeX*Математика*

Туториал

Привет, Хабр!

Меня зовут Шайдурова Арина, я Data Scientist и участник профессионального сообщества NTA. Сегодня я поделюсь с вами своим опытом использования LaTeX для написания математических формул. Всё просто и с примерами, идеально подойдет для новичков синтаксиса LaTeX.

LaTeX является очень популярным инструментом для написания различных материалов: в нём можно написать и книгу, и резюме, и дипломную работу, создать постер и даже календарь. Среди его пользователей он ценится за многие качества, но основную ценность для технических задач представляет его удобное, гибкое и легкое написание всевозможных математических формул!

+18

sterling239 20 фев 2023 в 16:09

Как я сделал синтез своего голоса

Простой

12 мин

30K

Машинное обучение*Искусственный интеллектЗвукГолосовые интерфейсы*Блог компании SberDevices

Кейс

Всем привет! Меня зовут Гриша Стерлинг, я занимаюсь синтезом речи в SberDevices. Недавно прошла конференция AI Journey, где я рассказал, как сделал синтез своего голоса. За 15 минут выступления я не успел рассказать все, поэтому решил написать большой пост с деталями. Он будет интересен датасаентистам, людям из бизнеса и ai‑энтузиастам. Приглашаю всех под кат.

+25

Tugcga 24 фев 2023 в 19:58

Создание модуля WebAssembly с помощью Emscripten, AssemblyScript и Rust

Средний

57 мин

5.5K

Python*C++*Rust*WebAssembly*

Туториал

Из песочницы

В этой небольшой заметке предлагается рассмотреть несколько способов компиляции модуля для WebAssembly, используя три разных подхода. Мы реализуем решение одной и той же задачки на трёх языках и скомпилируем полученный код в модуль WebAssembly. Будем использовать:

Emscripten для компиляции кода, написанного на С++

AssemblyScript для компиляции кода, написанного на, собственно, AssemblyScript

wasm-pack для компиляции кода, написанного на Rust

План такой:

Во введении мы обсудим постановку задачи и немножко поговорим о технологии WebAssembly

В программной части мы реализуем функциональность модуля на трёх языках: c++, AssemblyScript и Rust. Поговорим о том, какие при этом возникают сложности и как их можно обойти

Подведём небольшой итог. Станет видно, какая технология хорошая, а какая не очень

В конце планируется два бонуса. Первый бонус - это пример простого web-приложения, использующего один из скомпилированных нами модулей. Второй бонус - демонстрация того, как этот модуль можно использовать в программе на Python.

+36

1 2

4 5 ...

16 17