”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 编程 > ETL:从文本中提取人名

ETL:从文本中提取人名

发布于2024-11-07
浏览:580

假设我们想要抓取chicagomusiccompass.com

如您所见,它有几张卡片,每张卡片代表一个事件。现在,让我们看看下一篇:

ETL: Extracting a Person

注意事件名称是:


jazmin bean: the traumatic livelihood tour


所以现在的问题是:我们如何从文本中提取艺术家的名字?

作为一个人,我可以“轻松地”看出 jazmin bean 是艺术家——只需查看他们的 wiki 页面即可。但是编写代码来提取该名称可能会很棘手。

我们可以想,“嘿,: 之前的任何内容都应该是艺术家的名字”,这看起来很聪明,对吧?它适用于这种情况,但是这个怎么样:


happy hour on the patio: kathryn & chris


这里,顺序颠倒了。我们可以不断添加逻辑来处理不同的情况,但很快我们就会得到大量脆弱的规则,并且可能无法涵盖所有​​内容。

这就是命名实体识别(NER)模型派上用场的地方。它们是开源的,可以帮助我们从文本中提取名称。它不会捕获所有案例,但大多数时候,他们会给我们提供我们需要的信息。

通过这种方法,提取变得更加容易。我选择 Python 是因为 Python 机器学习社区是无与伦比的。


from gliner import GLiNER

model = GLiNER.from_pretrained("urchade/gliner_base")

text = "jazmin bean: the traumatic livelihood tour"
labels = ["person", "bands", "projects"]
entities = model.predict_entities(text, labels)

for entity in entities:
    print(entity["text"], "=>", entity["label"])


生成输出:


jazmin bean => person


现在,让我们看一下另一种情况:


happy hour on the patio: kathryn & chris


输出:


kathryn => person
chris => person


来源-GLiNER

太棒了,对吧?不再需要繁琐的逻辑来提取名称,只需使用模型即可。当然,它不会涵盖所有可能的情况,但对于我的项目来说,这种灵活性就很好了。如果您需要更高的准确性,您可以随时:

  • 尝试不同的模型
  • 对现有模型做出贡献
  • 分叉项目并调整它以满足您的需求

结论

作为软件开发人员,强烈建议随时更新机器学习领域的工具。并非所有问题都可以通过简单的编程和逻辑来解决 - 使用模型和统计数据可以更好地解决一些挑战。

版本声明 本文转载于:https://dev.to/garciadiazjaime/etl-extracting-a-persons-name-from-text-ahl?1如有侵犯,请联系[email protected]删除
最新教程 更多>

免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3