D[IA]gnosis: векторизация диагностики с помощью встроенных моделей Python и LLM

титульная страница > программирование > d[IA]gnosis: векторизация диагностики с помощью встроенных моделей Python и LLM

d[IA]gnosis: векторизация диагностики с помощью встроенных моделей Python и LLM

Опубликовано 2 сентября 2024 г.

Просматривать:493

В предыдущей статье мы представили приложение d[IA]gnosis, разработанное для поддержки кодирования диагнозов в МКБ-10. В этой статье мы увидим, как InterSystems IRIS for Health предоставляет нам необходимые инструменты для генерации векторов из списка кодов МКБ-10 с использованием предварительно обученной языковой модели, ее хранения и последующего поиска сходств по всем этим сгенерированным векторам. .

d[IA]gnosis: Vectorizing Diagnostics with Embedded Python and LLM Models

Введение

Одной из основных функций, появившихся при разработке моделей искусственного интеллекта, является то, что мы знаем как RAG (извлекательно-дополненная генерация), которая позволяет нам улучшать результаты моделей LLM за счет включения контекста в модель. Что ж, в нашем примере контекст задается набором диагнозов МКБ-10, и чтобы их использовать, мы должны сначала их векторизовать.

Как векторизовать наш список диагнозов?

Преобразователи предложений и встроенный Python

Для генерации векторов мы использовали библиотеку Python SentenceTransformers, которая значительно облегчает векторизацию свободных текстов из предварительно обученных моделей. С их собственного сайта:

Sentence Transformers (также известный как SBERT) — это универсальный модуль Python для доступа, использования и обучения современным моделям встраивания текста и изображений. Его можно использовать для вычисления вложений с помощью моделей Sentence Transformer (быстрое начало) или для расчета показателей сходства с помощью моделей Cross-Encoder (быстрое начало). Это открывает широкий спектр приложений, включая семантический поиск, семантическое сходство текстов и анализ перефразирования.

Среди всех моделей, разработанных сообществом SentenceTransformers, мы нашли BioLORD-2023-M, предварительно обученную модель, которая будет генерировать 786-мерные векторы.

Эта модель была обучена с использованием BioLORD, новой стратегии предварительного обучения для создания осмысленных представлений клинических предложений и биомедицинских концепций.

Современные методологии работают за счет максимизации сходства в представлении имен, относящихся к одной и той же концепции, и предотвращения коллапса за счет контрастного обучения. Однако, поскольку биомедицинские названия не всегда говорят сами за себя, это иногда приводит к несемантическим представлениям.

BioLORD решает эту проблему, обосновывая свои концептуальные представления с помощью определений, а также кратких описаний, полученных из многореляционного графа знаний, состоящего из биомедицинских онтологий. Благодаря этому обоснованию наша модель создает больше семантических представлений концепций, которые более точно соответствуют иерархической структуре онтологий. BioLORD-2023 устанавливает новый уровень сходства текстов как клинических предложений (MedSTS), так и биомедицинских концепций (EHR-Rel-B).

Как видно из определения, эта модель предварительно обучена медицинским концепциям, которые будут полезны при векторизации как наших кодов МКБ-10, так и произвольного текста.

Для нашего проекта мы загрузим эту модель, чтобы ускорить создание векторов:

if not os.path.isdir('/shared/model/'):
    model = sentence_transformers.SentenceTransformer('FremyCompany/BioLORD-2023-M')            
    model.save('/shared/model/')

Попав в нашу команду, мы можем вводить тексты для векторизации в списки, чтобы ускорить процесс, давайте посмотрим, как мы векторизуем коды МКБ-10, которые мы ранее записали в наши ENCODER.Object.Codes сорт.

st = iris.sql.prepare("SELECT TOP 50 CodeId, Description FROM ENCODER_Object.Codes WHERE VectorDescription is null ORDER BY ID ASC ")
resultSet = st.execute()
df = resultSet.dataframe()

if (df.size > 0):
    model = sentence_transformers.SentenceTransformer("/shared/model/")
    embeddings = model.encode(df['description'].tolist(), normalize_embeddings=True)

    df['vectordescription'] = embeddings.tolist()

    stmt = iris.sql.prepare("UPDATE ENCODER_Object.Codes SET VectorDescription = TO_VECTOR(?,DECIMAL) WHERE CodeId = ?")
    for index, row in df.iterrows():
        rs = stmt.execute(str(row['vectordescription']), row['codeid'])
else:
    flagLoop = False

Как видите, сначала мы извлекаем коды, хранящиеся в нашей кодовой таблице МКБ-10, которые мы еще не векторизовали, но которые мы записали на предыдущем шаге после извлечения их из файла CSV, затем извлекаем список описания для векторизации и с помощью библиотеки Python sentence_transformers мы восстановим нашу модель и сгенерируем соответствующие внедрения.

Наконец, мы обновим код МКБ-10 векторизованным описанием, выполнив команду UPDATE. Как видите, команда векторизации результата, возвращаемого моделью, — это команда SQL TO_VECTOR в IRIS.

Использование в IRIS

Хорошо, у нас есть код Python, поэтому нам просто нужно обернуть его в класс, который расширяет Ens.BusinessProcess и включить его в нашу рабочую среду, а затем подключить его к Business Service, отвечающему за извлечение CSV-файл и все!

Давайте посмотрим, как этот код будет выглядеть в нашей продакшене:

d[IA]gnosis: Vectorizing Diagnostics with Embedded Python and LLM Models

Как видите, у нас есть бизнес-сервис с адаптером EnsLib.File.InboundAdapter, который позволит нам собрать файл кода и перенаправить его в наш бизнес-процесс, в котором мы выполним все операции векторизации и хранения, что дает нам набор записей вроде следующего:

d[IA]gnosis: Vectorizing Diagnostics with Embedded Python and LLM Models

Теперь наше приложение готово начать поиск возможных совпадений с текстами, которые мы ему отправляем!

В следующей статье...

В следующей статье мы покажем, как интерфейс приложения, разработанный в Angular 17, интегрируется с нашим производством в IRIS for Health и как IRIS получает тексты для анализа, векторизует их и ищет сходства в МКБ-10. кодовая таблица.

Не пропустите!

Заявление о выпуске Эта статья воспроизведена по адресу: https://dev.to/intersystems/diagnosis-vectorizing-diagnostics-with-embedded-python-and-llm-models-3n8a?1. В случае нарушения прав обращайтесь по адресу [email protected]. удалить его

Последний учебник Более>

Как эффективно получить последнюю строку для каждого уникального идентификатора в PostgreSQL?
postgresql: извлечение последней строки для каждого уникального идентификатора В Postgresql вы можете столкнуться с ситуациями, где вам необхо...

программирование Опубликовано в 2025-07-21
Как сортировать ключи от Javascript объекта в алфавитном порядке?
Как сортировать объекты javascript по Key Если у вас есть объект JavaScript, вы можете реорганизовать его свойства алфавитно для улучшенных це...

программирование Опубликовано в 2025-07-21
Могут ли CSS найти HTML -элементы на основе какого -либо значения атрибута?
] нацеливание html -элементов с любым значением атрибута в CSS в CSS, можно нацелить элементы на основе конкретных атрибутов, как показано в пр...

программирование Опубликовано в 2025-07-21
Каковы были ограничения на использование current_timestamp с столбцами TimeStamp в MySQL до версии 5.6.5?
в столбцах TimeStamp с current_timestAmp в разделе по умолчанию или в обновлениях в версиях MySQL до 5.6.5 ] это ограничение, связанное с пробле...

программирование Опубликовано в 2025-07-21
Почему `body {margin: 0; } `Всегда удалять верхний край в CSS?
адресация поля тела в CSS для начинающих веб -разработчиков, удаление поля элемента тела может быть запутанной задачей. Часто предоставляемый ...

программирование Опубликовано в 2025-07-21
Как я могу синхронно повторять и печатать значения из двух массивов одинакового размера в PHP?
синхронно итерационные и печатные значения из двух массивов одного и того же размера при создании Selectbox с использованием двух массивов одина...

программирование Опубликовано в 2025-07-21
Множество
методы являются FNS, которые можно вызвать на Objects ] Массивы являются объектами, следовательно, они также имеют методы в JS. ] ] Срез (...

программирование Опубликовано в 2025-07-21
Советы по поиску позиции элемента в массиве Java
Получение позиции элемента в массивах Java в классе массивов Java, не существует прямого «Indexof», чтобы определить позицию определенного эле...

программирование Опубликовано в 2025-07-21
Как я могу безопасно объединить текст и значения при построении запросов SQL в Go?
incatenating text и values в go sql Queries при конструкции текста SQL -запроса в Go существуют определенные правила синтаксиса, при которых с...

программирование Опубликовано в 2025-07-21
Почему я получаю ошибку «не удалось найти внедрение ошибки с шаблоном запроса» в моем запросе Silverlight Linq?
] Запрос. Отсутствие реализации: разрешение «не удалось найти« Ошибки в приложении Silverlight, попытка установить соединение базы данных с исп...

программирование Опубликовано в 2025-07-21
Можно ли сложить несколько липких элементов друг на друга в чистых CSS?
возможно ли иметь несколько липких элементов, сложенных друг на друга в чистом CSS? Здесь: https://webthemez.com/demo/sticky-multi-heand-scroll/...

программирование Опубликовано в 2025-07-21
Как реализовать универсальную хэш -функцию для кортежей в неупорядоченных коллекциях?
generic hash function для кортежей в неупорядоченных коллекциях . Чтобы исправить это, один подход - это вручную определить функцию HASH для к...

программирование Опубликовано в 2025-07-21
В чем разница между вложенными функциями и закрытием в Python
] вложенные функции против закрытия в Python , в то время как вложенные функции в Python поверхностно напоминают закрытия, они в основном отлича...

программирование Опубликовано в 2025-07-21
Почему PHP DateTime :: Modify ('+1 месяц') дает неожиданные результаты?
изменение месяцев с PHP DateTime: раскрыть предполагаемое поведение при работе с классом DateTime PHP, добавление или вычитание месяцев не все...

программирование Опубликовано в 2025-07-21
Как захватить и транслировать Stdout в режиме реального времени для выполнения команды Chatbot?
захватывание Stdout в режиме реального времени из выполнения команды В сфере разработки чат -ботов, способных выполнять команды, является общи...

программирование Опубликовано в 2025-07-21