Первая система для обработки больших объемов данных появилась в конце 19 века. Американский инженер Герман Холлерит создал ее для того, чтобы обрабатывать результаты переписи населения США. Компания Холлерита — первый ИТ-стартап — нашла частных инвесторов и государственные заказы, создала новую отрасль, и привлекла сотни клиентов. Однако ее монопольное положение на этом рынке было недолгим — вскоре появился конкурент, который смог предложить пользователям более низкие цены и новые технологии.
«Иногда твоя работа выглядит магией»: что делают дата-сайентисты в промышленности и почему так востребованы
Привет, Хабр! Меня зовут Светлана Потапова, я руковожу «Северсталь Диджитал» — подразделением ИТ-функции Северстали, которое занимается разработкой и внедрением решений на основе машинного обучения.
Data Science уже давно вышла за пределы ИТ-компаний, шагнула дальше банков и телекома и пришла в промышленность, в том числе тяжёлую. Все обратили внимание на работу с данными, ведь они справедливо считаются новой нефтью, а их правильное использование даёт компаниям существенные преимущества. Обилие разнообразных задач со своей спецификой привело к появлению отдельного направления — Data Science (DS) в промышленности.
В этой статье расскажу, зачем становиться дата-сайентистом в промышленности, кто это такой и чем занимается и почему повышать цифровизацию производства непросто, но того стоит.
Заменят ли LLM людей в разметке данных для AI?
Привет! Использование ИИ в разметке данных для него же — уже скорее необходимая потребность, нежели что-то удивительно новое. Разного рода экспериментами с авторазметкой данных нейронками мы занимаемся последние полгода и результаты — нравятся.
В данной статье я детально расскажу о нашем самом первом эксперименте с LLM в разметке данных для ИИ и proof-of-concept их годноты использования в реальных задачах, а в процессе попробую ответить на большой вопрос — так заменят ли LLM людей в разметке данных?
Давайте вооружимся GigaChat, chatGPT, Gemini и начнем!
Жажда «цифровой крови»: как Google, OpenAI и Meta переступают черту ради развития ИИ
Технологические гиганты OpenAI, Google и Meta* в погоне за онлайн-данными для обучения своих новейших систем искусственного интеллекта готовы на всё: игнорировать корпоративные политики, менять собственные правила и даже обсуждать возможность обхода законов об авторском праве.
В России разработали кодекс этики использования больших данных
Глава InfoWatch Наталья Касперская: большие данные россиян должны принадлежать государству
Глава компании InfoWatch Наталья Касперская в своей беседе с ТАСС заявила, что по ее мнению большие данные россиян должны быть признаны собственностью государства.
«Мое мнение, что эти данные должны являться собственностью государства, потому что пользователи этими данными не обладают. Пользователь отпустил их в информационное пространство, и утекло все, что он там написал. Значит, это не их принадлежность», — приводит слова Касперской информационное агентство.
Data Integration Customer Summit
Впервые в России МегаФон проводит Международный саммит по лучшим практикам использования интеграционных технологий и управления данными Data Integration Customer Summit.
Программа и регистрация под катом.
Приглашаем на онлайн-конференцию Fine Day
Business Intelligence GlowByte приглашает на онлайн-конференцию “Fine Day online: Истории цифровизаторов”. Это уникальное мероприятие для цифровых инноваторов! Присоединяйтесь к нам, чтобы узнать истории успеха от ведущих цифровизаторов, включая представителей АвтоВАЗа, министра здравоохранения Калининградской области, эксперта в области построения BI и компании ПИК.
Greenplum: как грамотно вакуумировать распределенную СУБД и избежать серьезных проблем
8 февраля в 11:00 по МСК пройдет практический вебинар «Управление базами данных в Greenplum: мониторинг и удаление мусора», на котором эксперты ITSumma поделятся опытом работы с этой популярной СУБД для хранения больших объемов данных.
В программе:
«Все делают это...» — Data People by GlowByte приглашает на весенний митап
Привет! 16 апреля в 18:00 Data People by GlowByte приглашает тебя на пикантный митап про данные!
Наши друзья, занимающие руководящие позиции в Data-подразделениях крупнейших российских ФинТех-компаний, поделятся опытом реализации проектов по миграции платформ данных.
Transcend представила промышленные SSD PCI-e 4.0 объемом до 2 Тбайт
Transcend Information, известный производитель накопителей, представила новые серии твердотельных накопителей (SSD) MTE760T, MTE480T и MTE380T. Эти устройства, соответствующие форматам M.2 2280, M.2 2242 и M.2 2230, оснащены 112-слойными чипами 3D NAND флеш-памяти и подключаются через интерфейс PCIe 4.0 x4, соответствующий спецификации NVMe 1.4.
Эти SSD предназначены для использования в различных сферах, включая встроенные системы, умные устройства в рамках концепции Интернета вещей (AIoT), а также в рамках граничных вычислений (edge-компьютинге).
Приглашаем на X5 Data Quality Meetup
27 сентября проводим онлайн X5 Data Quality Meetup. Расскажем про правила и стратегии для обеспечения точных и надёжных данных.
Госдума и Минцифры РФ подготовили связанные с большими данными поправки в закон об их обезличивании
Министр цифрового развития доложил Президенту РФ о проделанной совместной работе с комитетом Госдумы по информполитике над законопроектом о регулировании больших данных. Подготовлены изменения в закон об обезличивании данных, например, вопросы обеспечения защиты прав граждан при обработке больших данных и применении технологий ИИ.
В МГУ готовится к запуску новый суперкомпьютер производительностью 400 петафлопс
В Московском Государственном Университете (МГУ) им. М. В. Ломоносова 1 сентября 2023 года должны запустить суперкомпьютер производительностью 400 петафлопс. Новый суперкомпьютер будет использоваться в исследованиях, связанных с физикой, химией, биологией, психологией, социологией, геологией, медициной, в разработке новых инструментов на основе искусственного интеллекта (ИИ), например алгоритмов анализа больших данных, и других направлениях науки, а также поиском новых методов защиты систем на основе технологий ИИ.
Летний митап Data People by GlowByte: «Управляя данными. MDM и бизнес-глоссарий»
Привет! 20 июня в 18:00 Data People by GlowByte приглашает тебя на летний митап!
Мы расскажем, что такое управление метаданными и почему эта область является одним из ключевых в Data Management. На практических примерах разберем варианты автоматизации и ценность, которую управление метаданными приносит компании. А также расскажем про синергетический эффект от правильного управления метаданными при решении задачи MDM и таинственный Data Ocean Governance.
OpenAI запустила программу для сбора уникальных данных от сторонних организаций для обучения ИИ
OpenAI запустила партнёрскую программу Data Partnerships по сбору наборов данных от клиентов. Эти датасеты будут использоваться для обучения моделей ИИ компании.
Онлайн-конференция «Эволюция ритейла. XData»
31 августа в 11:00 приглашаем вас на онлайн-конференцию по работе с большими данными X5. Мы давно не говорили о действующих продуктах X5 на основе Big Data, однако в самый последний день лета хотим посвятить несколько часов обсуждению актуальных проблем DS, аналитике и моделям на данных. В программе только спикеры и темы X5 Tech. Будем готовы к открытой дискуссии и ответам на ваши вопросы.
18 июля — Beeline Data Engineering Meetup: Решение бизнес-задач с помощью данных
Привет! Во вторник, 18 июля, мы проведем онлайн-митап для дата-инженеров и всех, кто интересуется тематикой больших данных и решений, принимаемых на их основе.
Регистрация уже открыта.
Вас ждут три технических доклада:
Максим Петров — «ETL Pipelines как микросервисы»
Внедрение микросервисов на ETL-потоках для создания системы со встроенными аналитическими возможностями.
Метавселенные: шестой выпуск подкаста Data Therapy
«Метавселенная — объединение двух миров: материального и цифрового, они оба сейчас важны для жизни». В новом выпуске подкаста обсуждаем метавселенные. Как они появились, зачем они нужны, это просто хайп или люди действительно к ним готовы – ищем ответы на эти и другие вопросы.