Обновить
17.89

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга

Новый модуль Grammarly, AI Grader, использует открытые данные о преподавателе для предсказания оценки

Время на прочтение2 мин
Охват и читатели4.5K

Те времена, когда Grammarly был всего лишь безобидным проверяльщиком орфографии, давно канули в Лету. Теперь у Grammarly есть «агент‑оценщик» AI Grader, который обещает не только давать персонализированные комментарии к студенческим работам, но и предсказывать итоговую оценку. А делает он это, как гордо заявляет компания, в том числе за счёт «сбора общедоступной информации о преподавателе».

Читать далее

Новости

Маск пообещал релиз Grok 3 в опенсорсе через полгода

Время на прочтение2 мин
Охват и читатели6.2K

Илон Маск подтвердил, что Grok 3 — предпоследняя версия генеративного чат‑бота его компании xAI — будет выложена в открытый доступ примерно через шесть месяцев. Несколькими днями ранее xAI сделал открытым исходный код Grok 2.5.

Читать далее

Фреймворк BeyondWeb (Datology AI) перестраивает веб-документы для лучшего обучения моделей

Время на прочтение3 мин
Охват и читатели4.7K

Сегодня бюджеты на обучение больших языковых моделей измеряются уже триллионами токенов, а достойные веб‑данные становятся всё труднее добыть. В Datology AI называют эту «стену данных» одним из главных вызовов и предлагают BeyondWeb как решение. Система заново структурирует уже существующие веб‑документы, делая их более ёмкими по содержанию, придаёт текстам обучающий тон и перестраивает их так, чтобы они лучше подходили для тренировок.

Читать далее

Релиз открытой модели ByteDance: Seed-OSS-36B с контекстом в 512 000 токенов

Время на прочтение5 мин
Охват и читатели5.6K

Исследовательская команда Seed Team (ByteDance) выпустила Seed‑OSS-36B на платформе Hugging Face.

Seed‑OSS-36B — это новая линейка открытых больших языковых моделей (LLM), созданных для сложных рассуждений и удобства работы разработчиков. Главное их отличие — удлинённый контекст, то есть объём информации, который модель способна воспринять и обработать за один сеанс.

Читать далее

Nvidia и Национальный научный фонд США создают открытые ИИ-модели для исследователей

Время на прочтение2 мин
Охват и читатели4.6K

Национальный научный фонд США (ННФ) привлёк значительные инвестиции от государства и частного сектора для реализации проекта Open Multimodal AI Infrastructure (OMAI).

Ведёт его Институт Аллена по искусственному интеллекту (Ai2), а конечная цель — дать в распоряжение американских учёных передовые модели ИИ. Главная особенность OMAI — открытость создаваемых языковых моделей (LLM).

Читать далее

Самообучающаяся DINOv3✶ от Meta✶ обгоняет конкурентов в анализе изображений

Время на прочтение3 мин
Охват и читатели6.4K

Обычно обучение систем искусственного интеллекта для генерации или анализа изображений требует колоссальных объемов данных: фотографии, скажем, котов вручную снабжаются ярлыками — «кот», «идет», «полосатый». Но DINOv3✶ от Meta✶ пошла иным путем: она обучалась на 1,7 млрд изображений без каких‑либо меток и теперь умеет решать множество задач без человеческого вмешательства, нередко опережая специализированные модели.

Читать далее

Датасет Granary от Nvidia: миллион часов речи для обучения нового поколения ИИ

Время на прочтение3 мин
Охват и читатели5.7K

Nvidia представила мощный набор открытых инструментов, который позволит разработчикам создавать высококачественные системы распознавания и синтеза речи для 25 европейских языков. Сердцем этой инициативы стала Granary — гигантская библиотека человеческой речи. В ней около миллиона часов аудиозаписей.

Чтобы извлечь максимум из этих данных, Nvidia предлагает две новые языковые AI‑модели: Canary-1b‑v2 и Parakeet‑tdt-0.6b‑v3.

Читать далее

Компания Proton готова покинуть Швейцарию в связи с возможными поправками в закон о правилах слежки

Время на прочтение2 мин
Охват и читатели5.7K

Генеральный директор Proton выступил против принятия поправок в закон о слежке. Он заявил о планах компании покинуть страну, если VPN-сервисы и приложения для обмена сообщениями будут вынуждены идентифицировать и хранить данные пользователей. Его позицию разделяют и другие участники рынка. 

Читать далее

На вебинаре расскажем про управление данными юрлиц

Время на прочтение2 мин
Охват и читатели106

22 апреля в 18.00 на вебинаре поговорим о системе класса MDM, которая работает с данными юрлиц.

Почему это важно? Бизнес годами пестует корпоративных клиентов, но со временем данные неизбежно портятся — компании переезжают, меняют название, закрываются. Контактные лица увольняются, телефоны не отвечают, а письма не доходят. Из-за этого банки, страховые и телеком-операторы делают нецелевые предложения, упускают клиентов и теряют деньги. А самое главное — не понимают, кого так и не охватили и почему.

Как работает MDM для корпоративного бизнеса? Она уже содержит данные о юрлицах, ИП, связанных с ними физлицах, лицензиях, истории компании, структуре владения. Это сведения из 13 проверенных источников, включая ЕГРЮЛ, Росстат, основные государственные реестры и собственные справочники HFLabs. 

Клиентские данные, которые уже есть в компании, MDM стандартизирует, обогащает и обновляет каждый день. Так система обеспечивает полный набор информации по юрлицам — это особенно важно для продаж, аналитики, комплаенса. 

На вебинаре разберем, как MDM помогает:

— Сегментировать клиентов по сути, а не по ОКВЭД,
— Понимать, куда движется клиент: видеть все его данные и «среднюю температуру» по отрасли или региону,
— Отслеживать изменения в данных юрлиц,
— Разбираться в сложных структурах владения.

Покажем сценарии из практики — как данные из MDM-системы помогают находить прибыльные сегменты, не терять клиентов и просто лучше понимать ваш B2B-рынок.

Кому будет полезно? Тем, кто работает с клиентскими данными в крупных компаниях, B2B-маркетологам, владельцам продуктов, которые ищут сегменты роста, сейлам, работающим с юрлицами, аналитикам, специалистам по комплаенсу и риск-оценке.

Вебинар бесплатный, но для участия нужно зарегистрироваться. Начинаем ровно в 18.00, с рассказом без воды и ответами на вопросы уложимся за час.

Читать далее

Что поменялось в клиентских данных за 20 лет? Смотрите в проекте HFLabs

Время на прочтение1 мин
Охват и читатели147

11 апреля HFLabs отмечает 20 лет. В честь такой даты запустили проект c главными событиями в сфере персональных данных, которые случились за это время.

Вместе с Валерой — это наш маскот и по совместительству внутренний чат-бот —предлагаем вспомнить, как за два десятилетия изменились законодательство, работа с клиентскими данными и технологии.

Что есть на сайте проекта:

• Главные изменения в сфере персональных данных за 20 лет, которые коснулись каждого,

• Важные вехи, которые позволили трансформировать клиентский сервис, 

• Тренды в управлении клиентскими данными в IT, на законодательном уровне и в бизнесе.

Заходите смотреть, вспоминать и ностальгировать;)

Кстати, о том, как и чем живет HFLabs, мы пишем в телеграм-канале «Лабсовая», а о новости в сфере клиентских данных рассказываем вот тут.

Читать далее

На вебинаре расскажем, как страховая компания автоматизировала комплаенс и процессы ПОД/ФТ

Время на прочтение1 мин
Охват и читатели179

6 марта в 18.00 проведем онлайн-разбор кейса и расскажем, как компания «Сбербанк страхование жизни» автоматизировала проверки контрагентов, создание анкет физ- и юрлиц, авторасчет уровней риска, отчетность.

Пройдёмся по шагам:
— С какими вызовами в работе с ПОД/ФТ столкнулась команда одной из крупнейших российских страховых,
— Как выбирали вендора,
— Какие результаты принесло внедрение продукта от отечественного вендора,
— Как подготовиться ко внедрению и избежать типичных ошибок.

Кому будет интересно? Руководителям направлений комплаенса и ПОД/ФТ, CIO, IT-специалистам, аналитикам.

Чтобы принять участие в вебинаре, нужно зарегистрироваться по ссылке. Надоедать напоминаниями не будем, один раз пришлем ссылку на подключение. Вебинар продлится час.

Читать далее

RSHB DA Meetup: Качество данных и Data Vault 2.0 в действии

Время на прочтение2 мин
Охват и читатели249

27 февраля в 18:00 онлайн и офлайн в Москве состоится митап от РСХБ.цифра для дата-аналитиков и инженеров данных RSHB DA Meetup: Качество данных и Data Vault 2.0 в действии. Приглашаем на новый митап всех, кто занимается большими данными и следит за их качеством. Вас ждут три доклада от руководителей дата-направлений в разных компаниях — про песочницу данных, методологию Data Vault 2.0 и качество данных в Self-Service.

Зарегистрироваться на митап

Разработчик представил проект Killed by LLM, где опубликованы бенчмарки, которые были побеждены прогрессом ИИ

Время на прочтение1 мин
Охват и читатели4.2K

Разработчик Роб Копель представил проект Killed by LLM. Это мемориал бенчмаркам, коллекциям задач и наборам данных, которые были побеждены прогрессом ИИ. Исходный код этого решения написан на HTML и TypeScript и опубликован на GitHub под лицензией MIT.

Читать далее

Ближайшие события

Microsoft и OpenAI объявили о поддержке Инициативы по институциональным данным

Время на прочтение2 мин
Охват и читатели552

Microsoft и OpenAI объявили о поддержке Инициативы по институциональным данным (Institutional Data Initiative, IDI), запущенной Библиотекой Гарвардского университета. В рамках исследовательской инициативы американский университет будет работать с библиотеками и музеями, правительственными учреждениями и другими организациями для публикации их коллекций в виде данных.

Читать далее

Anthropic предлагает новый способ подключения данных к чат-ботам с ИИ

Время на прочтение2 мин
Охват и читатели2.4K

Anthropic представила Model Context Protocol (MCP) — новый стандарт, призванный упростить подключение ИИ-ассистентов к различным системам данных. Этот стандарт, открытый для использования, обещает помочь ИИ-моделям предоставлять более точные и релевантные ответы, благодаря доступу к данным из различных источников.

Читать далее

OpenAI, Google и Anthropic столкнулись с проблемами при создании более сложных моделей

Время на прочтение1 мин
Охват и читатели4.1K

По данным Bloomberg, три ведущих разработчика моделей искусственного интеллекта, в том числе OpenAI, Google и Anthropic, пытаются решить проблемы производительности, из-за которых нельзя создавать всё более сложные ИИ-модели.

Читать далее

OSI выпустила официальное определение «открытого» ИИ, и некоторые модели не соответствуют этому определению

Время на прочтение3 мин
Охват и читатели986

Инициатива открытого исходного кода (OSI) выпустила официальное определение «открытого» искусственного интеллекта, что может привести к конфликту с технологическими гигантами, такими как Meta*, чьи модели не соответствуют новым требованиям.

Читать далее

Google представила технологию SynthID Text, которая позволяет добавлять водяные знаки и распознавать текст, созданный ИИ

Время на прочтение2 мин
Охват и читатели899

Google открыла доступ к технологии SynthID Text, которая позволяет добавлять водяные знаки в текст, сгенерированный ИИ, и распознавать его. Инструмент доступен для скачивания на платформе Hugging Face, а также через обновлённый Responsible GenAI Toolkit. Компания объявила, что исходный код SynthID Text теперь открыт для всех разработчиков и компаний, чтобы они могли лучше идентифицировать ИИ-контент.

Читать далее

На восстановление Internet Archive уйдёт несколько дней

Время на прочтение1 мин
Охват и читатели5.6K

На прошлой неделе хакеры взломали сервис Wayback Machine, принадлежащий некоммерческой организации Internet Archive. Он позволяет пользователям просматривать сохранённые страницы веб-сайтов. Сервис до сих пор недоступен.

Читать далее

Злоумышленник украл базу данных аутентификации пользователей Internet Archive с 31 млн уникальных записей

Время на прочтение2 мин
Охват и читатели3K

Internet Archive пострадал от утечки данных — злоумышленник взломал сайт Wayback Machine (archive.org) и украл базу данных аутентификации пользователей, содержащую 31 млн уникальных записей.

Читать далее