匹配字符串是資料處理中的基本任務,但它可能會變得具有挑戰性在Apache Spark 中處理大型資料集時。本文探討了 Spark 中字串匹配的有效演算法,解決了字元替換、空格缺失和表情符號提取等常見問題。
雖然Apache Spark 可能不是理想的平台字串匹配,它提供了幾種執行此任務的技術:
要在Spark 中使用這些技術來匹配字串:
import org.apache.spark.ml.feature.{RegexTokenizer, NGram, Vectorizer, MinHashLSH}
import org.apache.spark.ml.Pipeline
val pipeline = new Pipeline().setStages(Array(
new RegexTokenizer(),
new NGram(),
new Vectorizer(),
new MinHashLSH()
))
val model = pipeline.fit(db)
val dbHashed = model.transform(db)
val queryHashed = model.transform(query)
model.stages.last.asInstanceOf[MinHashLSHModel].approxSimilarityJoin(dbHashed, queryHashed).show
免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。
Copyright© 2022 湘ICP备2022001581号-3