D[IA]gnosis: 埋め込み Python および LLM モデルを使用した診断のベクトル化

表紙 > プログラミング > d[IA]gnosis: 埋め込み Python および LLM モデルを使用した診断のベクトル化

d[IA]gnosis: 埋め込み Python および LLM モデルを使用した診断のベクトル化

2024 年 9 月 2 日に公開

ブラウズ：351

前の記事では、ICD-10 での診断のコーディングをサポートするために開発された診断アプリケーションを紹介しました。この記事では、InterSystems IRIS for Health が、事前トレーニングされた言語モデルを使用した ICD-10 コードリストからのベクトルの生成、その保存、およびその後の生成されたすべてのベクトルの類似性の検索に必要なツールをどのように提供するかを説明します。 .

d[IA]gnosis: Vectorizing Diagnostics with Embedded Python and LLM Models

導入

AI モデルの開発で登場した主な機能の 1 つは、RAG (検索拡張生成) として知られる機能で、モデルにコンテキストを組み込むことで LLM モデルの結果を向上させることができます。この例では、コンテキストは ICD-10 診断のセットによって与えられており、それらを使用するには、まずそれらをベクトル化する必要があります。

診断リストをベクトル化するにはどうすればよいですか?

SentenceTransformers と埋め込み Python

ベクトルの生成には、事前トレーニングされたモデルからのフリーテキストのベクトル化を大幅に容易にする Python ライブラリ SentenceTransformers を使用しました。自身のウェブサイトより:

Sentence Transformers (別名 SBERT) は、最先端のテキストおよび画像埋め込みモデルにアクセス、使用、トレーニングするための頼りになる Python モジュールです。これは、Sentence Transformer モデル (クイックスタート) を使用してエンベディングを計算したり、Cross-Encoder モデル (クイックスタート) を使用して類似性スコアを計算したりするために使用できます。これにより、意味検索、意味テキストの類似性、言い換えマイニングなど、幅広いアプリケーションが可能になります。

SentenceTransformers コミュニティによって開発されたすべてのモデルの中で、786 次元のベクトルを生成する事前トレーニング済みモデルである BioLORD-2023-M を発見しました。

このモデルは、臨床文章や生物医学的概念の意味のある表現を生成するための新しい事前トレーニング戦略である BioLORD を使用してトレーニングされました。

最先端の方法論は、同じ概念を参照する名前の表現における類似性を最大化し、対照学習を通じて崩壊を防ぐことによって機能します。ただし、生物医学的な名前は常に自明であるとは限らないため、意味論的でない表現が生じる場合があります。

BioLORD は、定義を使用した概念表現と、生物医学オントロジーで構成されるマルチリレーショナルナレッジグラフから得られる短い説明を基礎にすることで、この問題を克服します。この基礎のおかげで、私たちのモデルは、オントロジーの階層構造により密接に一致する、より意味論的な概念表現を生成します。 BioLORD-2023 は、臨床文章 (MedSTS) と生物医学概念 (EHR-Rel-B) の両方におけるテキストの類似性に関する新しい最先端技術を確立します。

その定義でわかるように、このモデルは、ICD-10 コードとフリーテキストの両方をベクトル化するときに役立つ医療概念で事前トレーニングされています。

私たちのプロジェクトでは、ベクターの作成を高速化するためにこのモデルをダウンロードします:

if not os.path.isdir('/shared/model/'):
    model = sentence_transformers.SentenceTransformer('FremyCompany/BioLORD-2023-M')            
    model.save('/shared/model/')

チームに入ったら、ベクトル化するテキストをリストに入力してプロセスを高速化します。以前に ENCODER.Object.Codes に記録した ICD-10 コードをどのようにベクトル化するかを見てみましょう。 ] クラス。

st = iris.sql.prepare("SELECT TOP 50 CodeId, Description FROM ENCODER_Object.Codes WHERE VectorDescription is null ORDER BY ID ASC ")
resultSet = st.execute()
df = resultSet.dataframe()

if (df.size > 0):
    model = sentence_transformers.SentenceTransformer("/shared/model/")
    embeddings = model.encode(df['description'].tolist(), normalize_embeddings=True)

    df['vectordescription'] = embeddings.tolist()

    stmt = iris.sql.prepare("UPDATE ENCODER_Object.Codes SET VectorDescription = TO_VECTOR(?,DECIMAL) WHERE CodeId = ?")
    for index, row in df.iterrows():
        rs = stmt.execute(str(row['vectordescription']), row['codeid'])
else:
    flagLoop = False

ご覧のとおり、最初に ICD-10 コードテーブルに格納されているコードのうち、まだベクトル化されていないものの、前のステップで CSV ファイルから抽出した後に記録したコードを抽出します。説明をベクトル化し、Python sentence_transformers ライブラリを使用してモデルを復元し、関連する埋め込みを生成します。

最後に、UPDATE を実行して、ベクトル化された記述で ICD-10 コードを更新します。ご覧のとおり、モデルによって返された結果をベクトル化するコマンドは、IRIS. の SQL コマンド TO_VECTOR

です。

IRIS での使用

OK、Python コードはできたので、Ens.BusinessProcess を拡張するクラスでそれをラップし、本番環境に含めて、取得を担当するビジネスサービスに接続するだけです。 CSV ファイルを作成するだけです!

このコードが本番環境でどのように見えるかを見てみましょう:

d[IA]gnosis: Vectorizing Diagnostics with Embedded Python and LLM Models

ご覧のとおり、EnsLib.File.InboundAdapter アダプターを備えたビジネスサービスがあり、これによりコードファイルを収集し、すべての処理を実行するビジネスプロセスにリダイレクトできます。ベクトル化とストレージ操作により、次のようなレコードのセットが得られます:

d[IA]gnosis: Vectorizing Diagnostics with Embedded Python and LLM Models

これで、アプリケーションは、送信したテキストと一致する可能性のあるものを探し始める準備が整いました!

次の記事では…

次の記事では、Angular 17 で開発されたアプリケーションフロントエンドが IRIS for Health の製品とどのように統合されるか、また IRIS が分析対象のテキストをどのように受信し、ベクトル化し、ICD-10 で類似点を検索するかを説明します。コードテーブル。

お見逃しなく！

リリースステートメントこの記事は次の場所に転載されています: https://dev.to/intersystems/diagnosis-vectorizing-diagnostics-with-embedded-python-and-llm-models-3n8a?1 侵害がある場合は、[email protected] までご連絡ください。それを削除するには

最新のチュートリアルもっと>

formdata（）で複数のファイルアップロードを処理するにはどうすればよいですか？
formdata（）を使用して複数のファイルアップロードを処理すると、複数のファイルアップロードを処理する必要があることがよくあります。 fd.append("fileToUpload[]", files[x]);メソッドはこの目的に使用でき、単一のリクエストで複数...

プログラミング 2025-07-20に投稿
Pythonの文字列から絵文字を削除する方法：一般的なエラーを修正するための初心者のガイド？
emojisをpython emojisコードを除去する絵文字誤差が含まれているため失敗します。 Unicode文字列は、Python 2のU ''プレフィックスを使用して指定する必要があります。さらに、Re.Unicodeフラグは正規表現に渡す必要があり、入力デー...

プログラミング 2025-07-20に投稿
JavaScriptオブジェクトにキーを動的に設定する方法は？
JavaScriptオブジェクト変数の動的キーを作成する方法この構文jsObj['key' i] = 'example' 1; はjavascriptで、アレイは特殊なタイプのオブジェクトです。この特別な動作は標準のオブジェクトによって模倣されていませんが、四角いブラケット演算子は...

プログラミング 2025-07-20に投稿
ChatBotコマンドの実行のためにリアルタイムでstdoutをキャプチャしてストリーミングする方法は？
コマンド実行からリアルタイムでstdoutをキャプチャする再起動のライン（コマンド）： print（line）このコードでは、subprocess.popen（）関数を使用して指定されたコマンドを実行します。 stdoutパラメーターは、subprocess....

プログラミング 2025-07-20に投稿
データ挿入時の「一般エラー: 2006 MySQL サーバーが消えました」を修正するにはどうすればよいですか?
レコードの挿入中に「一般エラー: 2006 MySQL サーバーが消えました」を解決する方法はじめに:MySQL データベースにデータを挿入すると、「一般エラー: 2006 MySQL サーバーが消えました。」というエラーが発生することがあります。このエラーは、通常、MySQL 構成内の 2 つの変...

プログラミング 2025-07-20に投稿
なぜ `body {margin：0; } `常にCSSの上限を削除しますか？
css の扱います。多くの場合、「ボディ{マージン：0;}」などの提供されたコードは、目的の結果を生成しません。これは、コンテンツの親要素が正のパディング値を持っている場合に発生する可能性があります。特定のマージンの問題に対処することをお勧めします。親要素にパディングがある場合、それを...

プログラミング 2025-07-20に投稿
Node-MYSQLを使用して単一のクエリで複数のSQLステートメントを実行するにはどうすればよいですか？
node-mysql in node.jsでのマルチステートメントクエリサポート、ノード-Mysqlパッケージを使用してnode-mysqlを使用してnode-mysqlを使用して、1つのクエリを使用してnode-mysqlの記録を使用して、1つのクエリで複数のsqlステートメントを...

プログラミング 2025-07-20に投稿
一定の列を追加するためのSpark DataFrameのヒント
スパークデータフレームに一定の列を作成するすべての行に適用される任意の値で一定の列をスパークデータフレームに追加することができます。この目的を目的としたwithcolumnメソッドは、2番目の引数として直接的な値を提供しようとするときにエラーを引き起こす可能性があります。点灯 df.wi...

プログラミング 2025-07-20に投稿
フォームリフレッシュ後に重複した提出を防ぐ方法は？
を更新することで重複した提出を防ぐ Web開発で、フォームの提出後にページが更新された場合に重複した提出の問題に遭遇することが一般的です。これに対処するには、次のアプローチを検討してください。 if（isset（$ _ post ['name']））{ ...

プログラミング 2025-07-20に投稿
PHPの2つの等しいサイズの配列から値を同期して反復して印刷するにはどうすればよいですか？
同じサイズの2つの配列の2つの配列から値を同期して反復して印刷する場合、同サイズの2つの配列を使用してselectboxを作成する場合、1つは対応する名前を含む1つを使用して、困難が不適切なsyntaxに起因する可能性があります。アレイ： foreach（$ codes as $ code、...

プログラミング 2025-07-20に投稿
Pythonで動的変数を作成する方法は？
python の動的変数作成は、特に複雑なデータ構造またはアルゴリズムを操作する場合、動的に変数を作成する能力が強力なツールになります。 Pythonは、これを達成するためのいくつかの創造的な方法を提供します。辞書を使用すると、キーを動的に作成し、対応する値を割り当てることができます。...

プログラミング 2025-07-20に投稿
PHP Future：適応と革新
PHPの将来は、新しいテクノロジーの傾向に適応し、革新的な機能を導入することで達成されます。1）クラウドコンピューティング、コンテナ化、マイクロサービスアーキテクチャに適応し、DockerとKubernetesをサポートします。 2）パフォーマンスとデータ処理の効率を改善するために、JITコンパイ...

プログラミング 2025-07-20に投稿
UTF8 MySQLテーブルでLATIN1文字をUTF8に正しく変換する方法
latin1文字をUTF8テーブル内のutf8に変換する diaCriticsのキャラクターが遭遇した問題に遭遇しました（ "Jáuòiñe"）がUTF8テーブルで存在していないために、utf8テーブルが不足しているために存在していませんでした。「mysql_se...

プログラミング 2025-07-20に投稿
マウスクリック時にDiv内のすべてのテキストをプログラム的に選択するにはどうすればよいですか？
マウスクリックでDivテキストをプログラム的に選択する question 実装この機能を実装するには： function selectText(containerid) { if (document.selection) { // IE var range =...

プログラミング 2025-07-20に投稿
Javaのオブザーバーパターンを使用してカスタムイベントを実装する方法は？
Javaでカスタムイベントを作成するカスタムイベントは、多くのプログラミングシナリオで不可欠であり、特定のトリガーに基づいてコンポーネントが相互に通信できるようにします。この記事は、以下に対処することを目的としています。オブザーバーパターンの概要を次に示します。サンプル実装次の...

プログラミング 2025-07-20に投稿