匹配字符串是数据处理中的一项基本任务,但它可能会变得具有挑战性在 Apache Spark 中处理大型数据集时。本文探讨了 Spark 中字符串匹配的有效算法,解决了字符替换、空格缺失和表情符号提取等常见问题。
虽然 Apache Spark 可能不是理想的平台字符串匹配,它提供了几种执行此任务的技术:
要在 Spark 中使用这些技术来匹配字符串:
import org.apache.spark.ml.feature.{RegexTokenizer, NGram, Vectorizer, MinHashLSH}
import org.apache.spark.ml.Pipeline
val pipeline = new Pipeline().setStages(Array(
new RegexTokenizer(),
new NGram(),
new Vectorizer(),
new MinHashLSH()
))
val model = pipeline.fit(db)
val dbHashed = model.transform(db)
val queryHashed = model.transform(query)
model.stages.last.asInstanceOf[MinHashLSHModel].approxSimilarityJoin(dbHashed, queryHashed).show
免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。
Copyright© 2022 湘ICP备2022001581号-3