<?xml version="1.0" encoding="UTF-8"?>

<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" >

  <channel>
    <title><![CDATA[Комментарии / Профиль codex1]]></title>
    <link>https://habr.com/ru/users/codex1/comments/</link>
    <description><![CDATA[Хабр: комментарии пользователя codex1]]></description>
    <language>ru</language>
    <managingEditor>editor@habr.com</managingEditor>
    <generator>habr.com</generator>
    <pubDate>Thu, 30 Apr 2026 04:39:09 GMT</pubDate>
    
    
      <image>
        <link>https://habr.com/ru/</link>
        <url>https://habrastorage.org/webt/ym/el/wk/ymelwk3zy1gawz4nkejl_-ammtc.png</url>
        <title>Хабр</title>
      </image>
    

    
      

      
        
  
    <item>
      <title>06.10.2022 21:39:44 </title>
      <guid isPermaLink="true">https://habr.com/ru/articles/690872/#comment_24795148</guid>
      <link>https://habr.com/ru/articles/690872/#comment_24795148</link>
      <description><![CDATA[<p>Сочетание мозгового штурма, обсуждения рожденных идей и выбора лучших вариантов могут быть в рамках Design Thinking. Это лишь название. "Правильность" выбранных персон будет протестирована по результатам вылавливания историй/требований. </p>]]></description>
      <pubDate>Thu, 06 Oct 2022 21:39:44 GMT</pubDate>
      <dc:creator><![CDATA[]]></dc:creator>
    </item>
  

  
    <item>
      <title>01.10.2022 06:25:02 </title>
      <guid isPermaLink="true">https://habr.com/ru/articles/690872/#comment_24780930</guid>
      <link>https://habr.com/ru/articles/690872/#comment_24780930</link>
      <description><![CDATA[<p>Почему бы и нет, главное результат)</p>]]></description>
      <pubDate>Sat, 01 Oct 2022 06:25:02 GMT</pubDate>
      <dc:creator><![CDATA[]]></dc:creator>
    </item>
  

  
    <item>
      <title>30.09.2022 06:40:08 </title>
      <guid isPermaLink="true">https://habr.com/ru/articles/690872/#comment_24778272</guid>
      <link>https://habr.com/ru/articles/690872/#comment_24778272</link>
      <description><![CDATA[<p>Забыла отметить, что по сути на всё это (кроме описания персон) тратится час-два, а в итоге помогает найти пользователей (и их истории), про которые можно было забыть (а потом оказывается, что это было очень важно).</p>]]></description>
      <pubDate>Fri, 30 Sep 2022 06:40:08 GMT</pubDate>
      <dc:creator><![CDATA[]]></dc:creator>
    </item>
  

  
    <item>
      <title>25.08.2020 16:19:11 </title>
      <guid isPermaLink="true">https://habr.com/ru/articles/514540/#comment_21994498</guid>
      <link>https://habr.com/ru/articles/514540/#comment_21994498</link>
      <description><![CDATA[По поводу словоформ — можно по-разному проводить подготовку текстов. Т.е. заделать какой-то условный механизм лемматизации, который будет глаголы приводить либо к инфинитивам, либо к другой интересной вам форме (т.е. например, с сохранением времени), можно посмотреть, например, тут: <a href="https://pymorphy2.readthedocs.io/en/latest/internals/dict.html">pymorphy2.readthedocs.io/en/latest/internals/dict.html</a>. А можно вообще не лемматизировать. Но это надо поэкспериментировать. В плане эмбеддингов эти два предложения всё равно будут близкими друг к другу (даже при сохранении формы). А вот при подсчете общих слов — могут считаться разными или одинаковыми — в зависимости от подготовки текстов.<br>
<br>
По поводу синонимов — при построении векторов они и так будут рядом относительно. А вот при подходе с выявлением общих слов они будут считаться разными словами. Особого смысла работать со словарем синонимов не вижу, разве что NER как-то выделять (например, упоминания в тексте одного документа с полным и кратким наименованием, аббревиатурой, в этом есть смысл). А вот синонимичность обычных слов часто зависит от контекста, необходимо не просто заменять одно слово другим, а учитывать его значение, для подхода с общими словами это излишне, на мой взгляд, мне такой подход нравится за его простоту :)<br>]]></description>
      <pubDate>Tue, 25 Aug 2020 16:19:11 GMT</pubDate>
      <dc:creator><![CDATA[]]></dc:creator>
    </item>
  

  
    <item>
      <title>24.08.2020 15:42:01 </title>
      <guid isPermaLink="true">https://habr.com/ru/articles/514540/#comment_21990676</guid>
      <link>https://habr.com/ru/articles/514540/#comment_21990676</link>
      <description><![CDATA[Надо понимать, что наши конкретные реализации подходов 1) ориентированы на русский язык 2) оптимизированы для краткой аннотации из нескольких предложений, а не одного заголовка.<br>
Поэтому без особой переделки получилось:<br>
0.148 на основе векторов, <br>
0.15 на основе общих слов, <br>
0.1 кластеризацией.<br>
И это меньше weak baseline)) <br>
Хорошая демонстрация, что под разные задачи конкретная реализация подхода будет разной. <br>]]></description>
      <pubDate>Mon, 24 Aug 2020 15:42:01 GMT</pubDate>
      <dc:creator><![CDATA[]]></dc:creator>
    </item>
  

  
    <item>
      <title>11.08.2020 22:34:56 </title>
      <guid isPermaLink="true">https://habr.com/ru/articles/514540/#comment_21948712</guid>
      <link>https://habr.com/ru/articles/514540/#comment_21948712</link>
      <description><![CDATA[<p>Вообще сама идея суммаризации по центрам кластеров предложений интересна, надо попробовать сделать для русского языка, сравнить</p>]]></description>
      <pubDate>Tue, 11 Aug 2020 22:34:56 GMT</pubDate>
      <dc:creator><![CDATA[]]></dc:creator>
    </item>
  

  
    <item>
      <title>11.08.2020 22:18:16 </title>
      <guid isPermaLink="true">https://habr.com/ru/articles/514540/#comment_21948704</guid>
      <link>https://habr.com/ru/articles/514540/#comment_21948704</link>
      <description><![CDATA[<p>Да, не совсем корректный тег, поставили на автомате, потому что на нём все эти подходы реализовали.</p>]]></description>
      <pubDate>Tue, 11 Aug 2020 22:18:16 GMT</pubDate>
      <dc:creator><![CDATA[]]></dc:creator>
    </item>
  

  
    <item>
      <title>23.05.2020 16:45:25 </title>
      <guid isPermaLink="true">https://habr.com/ru/articles/503420/#comment_21651036</guid>
      <link>https://habr.com/ru/articles/503420/#comment_21651036</link>
      <description><![CDATA[Да, смысл именно в том, что PyMystem3 работает быстрее, чем pymorphy2 на одном тексте, но при каждом вызове поднимает mystem (и ещё делает кучу всего), что как раз и замедляет на куче. Предложенное решение вроде простое, но не всегда очевидное. Может, кому-то тоже поможет, как и нам. <br>
За joblib спасибо, параллельные потоки всегда актуальная тема, хотя не стали сильно в неё углубляться в этом случае: при текущей реализации вышли на приемлемое время подготовки, дальше уже больше внимания на модели]]></description>
      <pubDate>Sat, 23 May 2020 16:45:25 GMT</pubDate>
      <dc:creator><![CDATA[]]></dc:creator>
    </item>
  

  
    <item>
      <title>12.03.2020 19:59:37 </title>
      <guid isPermaLink="true">https://habr.com/ru/articles/491992/#comment_21383756</guid>
      <link>https://habr.com/ru/articles/491992/#comment_21383756</link>
      <description><![CDATA[<p>После публикации статьи в сообществах началось ее обсуждение, совершенно зря в обзор не попало несколько ресурсов, поэтому…<br/>
В дополнение:<br/>
Чаты, каналы сообществ<br/>
Если для работы требуется (чаще так и есть) использование нотации bpmn, то могу посоветовать канал<br/>
<a href="http://t.me/bpmn2ru" rel="nofollow">http://t.me/bpmn2ru</a></p><br/>
<p><a href="http://t.me/a_ekb" rel="nofollow">http://t.me/a_ekb</a> — сообщество аналитиков из Екатеринбурга<br/>
<a href="http://t.me/it_an_perm" rel="nofollow">http://t.me/it_an_perm</a> — сообщество аналитиков из Перми<br/>
<a href="https://www.notion.so/IT-22831ad0a19b4b15b61fdae09dd41924" rel="nofollow">https://www.notion.so/IT-22831ad0a19b4b15b61fdae09dd41924</a> сообщество Новосибирских аналитиков (по отзывам — проводят очень много мероприятий)<br/>
<a href="http://t.me/samba_help" rel="nofollow">http://t.me/samba_help</a> Самарские аналитики, чуть ниже про конференцию</p><br/>
<p>Конференции<br/>
Для аналитиков Поволжья (и не только) весьма актуальна конференция SAM_BA, проводится она в Самаре, под каждую конференцию ссылки разные, но если вы аналитик — вы её без труда найдёте, особенно через чат сообщества</p>]]></description>
      <pubDate>Thu, 12 Mar 2020 19:59:37 GMT</pubDate>
      <dc:creator><![CDATA[]]></dc:creator>
    </item>
  

      

      

    
  </channel>
</rss>
