문자열 일치는 데이터 처리의 기본 작업이지만 어려울 수 있습니다. Apache Spark에서 대규모 데이터 세트를 처리할 때. 이 문서에서는 Spark의 문자열 일치를 위한 효율적인 알고리즘을 살펴보고 문자 대체, 공백 누락, 이모티콘 추출과 같은 일반적인 문제를 해결합니다.
Apache Spark는 문자열 일치에 이상적인 플랫폼이 아닐 수 있습니다. 문자열 일치를 통해 이 작업을 수행하기 위한 여러 기술을 제공합니다:
Spark에서 이러한 기술을 사용하여 문자열을 일치시키려면:
import org.apache.spark.ml.feature.{RegexTokenizer, NGram, Vectorizer, MinHashLSH}
import org.apache.spark.ml.Pipeline
val pipeline = new Pipeline().setStages(Array(
new RegexTokenizer(),
new NGram(),
new Vectorizer(),
new MinHashLSH()
))
val model = pipeline.fit(db)
val dbHashed = model.transform(db)
val queryHashed = model.transform(query)
model.stages.last.asInstanceOf[MinHashLSHModel].approxSimilarityJoin(dbHashed, queryHashed).show
부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.
Copyright© 2022 湘ICP备2022001581号-3