文字列のマッチングはデータ処理の基本的なタスクですが、困難になる場合がありますApache Spark で大規模なデータセットを扱う場合。この記事では、Spark での文字列マッチングの効率的なアルゴリズムを検討し、文字の置換、スペースの欠落、絵文字の抽出などの一般的な問題に対処します。
一方で、Apache Spark は理想的なプラットフォームではない可能性があります。
Spark でこれらの手法を使用して文字列を照合するには:
import org.apache.spark.ml.feature.{RegexTokenizer, NGram, Vectorizer, MinHashLSH}
import org.apache.spark.ml.Pipeline
val pipeline = new Pipeline().setStages(Array(
new RegexTokenizer(),
new NGram(),
new Vectorizer(),
new MinHashLSH()
))
val model = pipeline.fit(db)
val dbHashed = model.transform(db)
val queryHashed = model.transform(query)
model.stages.last.asInstanceOf[MinHashLSHModel].approxSimilarityJoin(dbHashed, queryHashed).show
免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。
Copyright© 2022 湘ICP备2022001581号-3