<?xml version="1.0" encoding="UTF-8"?>

<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" >

  <channel>
    <title><![CDATA[Комментарии / Профиль datasecrets]]></title>
    <link>https://habr.com/ru/users/datasecrets/comments/</link>
    <description><![CDATA[Хабр: комментарии пользователя datasecrets]]></description>
    <language>ru</language>
    <managingEditor>editor@habr.com</managingEditor>
    <generator>habr.com</generator>
    <pubDate>Thu, 30 Apr 2026 20:33:29 GMT</pubDate>
    
    
      <image>
        <link>https://habr.com/ru/</link>
        <url>https://habrastorage.org/webt/ym/el/wk/ymelwk3zy1gawz4nkejl_-ammtc.png</url>
        <title>Хабр</title>
      </image>
    

    
      

      
        
  
    <item>
      <title>26.03.2025 14:23:48 </title>
      <guid isPermaLink="true">https://habr.com/ru/news/894548/#comment_28092758</guid>
      <link>https://habr.com/ru/news/894548/#comment_28092758</link>
      <description><![CDATA[<p>Да достаточно, конечно, но не дает представления о том, у каких именно пространств есть отображение, а у каких нет. Громов ставил свой вопрос с целью именно это выяснить</p><p></p>]]></description>
      <pubDate>Wed, 26 Mar 2025 14:23:48 GMT</pubDate>
      <dc:creator><![CDATA[]]></dc:creator>
    </item>
  

  
    <item>
      <title>10.12.2024 07:22:29 </title>
      <guid isPermaLink="true">https://habr.com/ru/news/865262/#comment_27656086</guid>
      <link>https://habr.com/ru/news/865262/#comment_27656086</link>
      <description><![CDATA[<p>Добавили в начало публикации. Еще продублируем тут: <a href="https://blog.google/technology/research/google-willow-quantum-chip/" rel="noopener noreferrer nofollow">https://blog.google/technology/research/google-willow-quantum-chip/</a></p><p>Спасибо, что подметили)</p><p></p>]]></description>
      <pubDate>Tue, 10 Dec 2024 07:22:29 GMT</pubDate>
      <dc:creator><![CDATA[]]></dc:creator>
    </item>
  

  
    <item>
      <title>19.11.2024 14:42:49 </title>
      <guid isPermaLink="true">https://habr.com/ru/articles/859478/#comment_27573416</guid>
      <link>https://habr.com/ru/articles/859478/#comment_27573416</link>
      <description><![CDATA[<p>Да, действительно. Хотя вот СEO Anthropic и GTM OpenAI, когда комментировали последние новости, высказывали предположение, что масштабирование продолжится. Просто, возможно, будет не в претрейне, как мы привыкли, а в test-time трейнинге или ризонинге. Так что посмотрим! </p>]]></description>
      <pubDate>Tue, 19 Nov 2024 14:42:49 GMT</pubDate>
      <dc:creator><![CDATA[]]></dc:creator>
    </item>
  

  
    <item>
      <title>19.11.2024 14:37:46 </title>
      <guid isPermaLink="true">https://habr.com/ru/articles/859478/#comment_27573400</guid>
      <link>https://habr.com/ru/articles/859478/#comment_27573400</link>
      <description><![CDATA[<p>В большинстве современных моделей (в частности, об этом можно судить по Stable Diffusion) внутри диффузионки зашит UNet c cross-attention. Кроме того текстовые энкодеры в таких генеративных моделях – это тоже трансформеры. Вот, например, цитата из статьи <strong><em><a href="https://arxiv.org/pdf/2307.01952" rel="noopener noreferrer nofollow">SDXL:&nbsp;</a></em><a href="https://arxiv.org/pdf/2307.01952" rel="noopener noreferrer nofollow">Improving Latent Diffusion Models for High-Resolution Image Synthesis</a>:</strong></p><p>In particular, and in contrast to the original&nbsp;<em>Stable Diffusion&nbsp;</em>architecture, we use a heterogeneous distribution of transformer blocks within the UNet: For efficiency reasons, we omit the transformer block at the highest feature level, use 2 and 10 blocks at the lower levels, and remove the lowest level (8×&nbsp;downsampling) in the UNet altogether — see Tab. 1 for a comparison between the architectures of&nbsp;<em>Stable Diffusion&nbsp;</em>1.x &amp; 2.x and&nbsp;<em>SDXL</em>. We opt for a more powerful pre-trained text encoder that we use for text conditioning. Specifically, we use OpenCLIP ViT-bigG [19] in combination with CLIP ViT-L [34], where we concatenate the penultimate text encoder outputs along the channel-axis [1]. Besides using cross-attention layers to condition the model on the text-input, we follow [30] and additionally condition the model on the pooled text embedding from the OpenCLIP model.</p>]]></description>
      <pubDate>Tue, 19 Nov 2024 14:37:46 GMT</pubDate>
      <dc:creator><![CDATA[]]></dc:creator>
    </item>
  

  
    <item>
      <title>02.10.2024 14:25:59 </title>
      <guid isPermaLink="true">https://habr.com/ru/articles/847462/#comment_27368618</guid>
      <link>https://habr.com/ru/articles/847462/#comment_27368618</link>
      <description><![CDATA[<p>Да, вы правы, конечно. Каждый бустинг ансамбль, но не каждый ансамбль бустинг)) Возможно, автор как-то вручную контролировал выделение метода в другую категорию из-за заслуживающей отдельного внимания популярности именно бустинга как самостоятельного алгоритма, а не как части ансамблей. В оригинальном эссе об этом информации нет</p><p></p>]]></description>
      <pubDate>Wed, 02 Oct 2024 14:25:59 GMT</pubDate>
      <dc:creator><![CDATA[]]></dc:creator>
    </item>
  

  
    <item>
      <title>12.09.2024 18:24:27 </title>
      <guid isPermaLink="true">https://habr.com/ru/news/842928/#comment_27284020</guid>
      <link>https://habr.com/ru/news/842928/#comment_27284020</link>
      <description><![CDATA[<p>Да, вы правы. Исправили в тексте!</p>]]></description>
      <pubDate>Thu, 12 Sep 2024 18:24:27 GMT</pubDate>
      <dc:creator><![CDATA[]]></dc:creator>
    </item>
  

  
    <item>
      <title>14.05.2024 12:43:49 </title>
      <guid isPermaLink="true">https://habr.com/ru/articles/814161/#comment_26823103</guid>
      <link>https://habr.com/ru/articles/814161/#comment_26823103</link>
      <description><![CDATA[<p>Вот тут демо можно посмотреть, их показывали на презентации: <a href="https://x.com/estebandiba/status/1790285228981862720" rel="noopener noreferrer nofollow">https://x.com/estebandiba/status/1790285228981862720</a></p>]]></description>
      <pubDate>Tue, 14 May 2024 12:43:49 GMT</pubDate>
      <dc:creator><![CDATA[]]></dc:creator>
    </item>
  

  
    <item>
      <title>14.05.2024 09:39:35 </title>
      <guid isPermaLink="true">https://habr.com/ru/articles/814161/#comment_26822329</guid>
      <link>https://habr.com/ru/articles/814161/#comment_26822329</link>
      <description><![CDATA[<p>Выдержка из <a href="https://openai.com/index/hello-gpt-4o/" rel="noopener noreferrer nofollow">поста</a>: </p><p>Prior to GPT-4o, you could use&nbsp;<u><a href="https://openai.com/index/chatgpt-can-now-see-hear-and-speak" rel="noopener noreferrer nofollow">Voice Mode</a></u>&nbsp;to talk to ChatGPT with latencies of 2.8 seconds (GPT-3.5) and 5.4 seconds (GPT-4) on average. To achieve this, Voice Mode is a pipeline of three separate models: one simple model transcribes audio to text, GPT-3.5 or GPT-4 takes in text and outputs text, and a third simple model converts that text back to audio. This process means that the main source of intelligence, GPT-4, loses a lot of information—it can’t directly observe tone, multiple speakers, or background noises, and it can’t output laughter, singing, or express emotion.</p><p>With GPT-4o, we trained a single new model end-to-end across text, vision, and audio, meaning that all inputs and outputs are processed by the same neural network. Because GPT-4o is our first model combining all of these modalities, we are still just scratching the surface of exploring what the model can do and its limitations.</p>]]></description>
      <pubDate>Tue, 14 May 2024 09:39:35 GMT</pubDate>
      <dc:creator><![CDATA[]]></dc:creator>
    </item>
  

      

      

    
  </channel>
</rss>
