ETL：从文本中提取人名

首页 > 编程 > ETL：从文本中提取人名

ETL：从文本中提取人名

发布于2024-11-07

假设我们想要抓取chicagomusiccompass.com。

如您所见，它有几张卡片，每张卡片代表一个事件。现在，让我们看看下一篇：

ETL: Extracting a Person

注意事件名称是：


jazmin bean: the traumatic livelihood tour

所以现在的问题是：我们如何从文本中提取艺术家的名字？

作为一个人，我可以“轻松地”看出 jazmin bean 是艺术家——只需查看他们的 wiki 页面即可。但是编写代码来提取该名称可能会很棘手。

我们可以想，“嘿，: 之前的任何内容都应该是艺术家的名字”，这看起来很聪明，对吧？它适用于这种情况，但是这个怎么样：


happy hour on the patio: kathryn & chris

这里，顺序颠倒了。我们可以不断添加逻辑来处理不同的情况，但很快我们就会得到大量脆弱的规则，并且可能无法涵盖所有内容。

这就是命名实体识别（NER）模型派上用场的地方。它们是开源的，可以帮助我们从文本中提取名称。它不会捕获所有案例，但大多数时候，他们会给我们提供我们需要的信息。

通过这种方法，提取变得更加容易。我选择 Python 是因为 Python 机器学习社区是无与伦比的。


from gliner import GLiNER

model = GLiNER.from_pretrained("urchade/gliner_base")

text = "jazmin bean: the traumatic livelihood tour"
labels = ["person", "bands", "projects"]
entities = model.predict_entities(text, labels)

for entity in entities:
    print(entity["text"], "=>", entity["label"])

生成输出：


jazmin bean => person

现在，让我们看一下另一种情况：


happy hour on the patio: kathryn & chris

输出：


kathryn => person
chris => person

来源-GLiNER

太棒了，对吧？不再需要繁琐的逻辑来提取名称，只需使用模型即可。当然，它不会涵盖所有可能的情况，但对于我的项目来说，这种灵活性就很好了。如果您需要更高的准确性，您可以随时：

尝试不同的模型
对现有模型做出贡献
分叉项目并调整它以满足您的需求

结论

作为软件开发人员，强烈建议随时更新机器学习领域的工具。并非所有问题都可以通过简单的编程和逻辑来解决 - 使用模型和统计数据可以更好地解决一些挑战。

版本声明本文转载于：https://dev.to/garciadiazjaime/etl-extracting-a-persons-name-from-text-ahl?1如有侵犯，请联系[email protected]删除

最新教程更多>

为什么HTML无法打印页码及解决方案
无法在html页面上打印页码？ @page规则在@Media内部和外部都无济于事。 HTML:Customization:@page { margin: 10%; @top-center { font-family: sans-serif; font-weight: bo...

编程发布于2025-07-13
Go语言垃圾回收如何处理切片内存？
Garbage Collection in Go Slices: A Detailed AnalysisIn Go, a slice is a dynamic array that references an underlying array.使用切片时，了解垃圾收集行为至关重要，以避免潜在的内存泄...

编程发布于2025-07-13
如何在鼠标单击时编程选择DIV中的所有文本？
在鼠标上选择div文本单击带有文本内容，用户如何使用单个鼠标单击单击div中的整个文本？这允许用户轻松拖放所选的文本或直接复制它。在单个鼠标上单击的div元素中选择文本，您可以使用以下Javascript函数： function selecttext（canduterid）{ if（do...

编程发布于2025-07-13
Java中Lambda表达式为何需要“final”或“有效final”变量？
Lambda Expressions Require "Final" or "Effectively Final" VariablesThe error message "Variable used in lambda expression shou...

编程发布于2025-07-13
为什么尽管有效代码，为什么在PHP中捕获输入？
在php ;?>" method="post">The intention is to capture the input from the text box and display it when the submit button is clicked.但是，输出...

编程发布于2025-07-13
Python环境变量的访问与管理方法
Accessing Environment Variables in PythonTo access environment variables in Python, utilize the os.environ object, which represents a mapping of envir...

编程发布于2025-07-13
如何使用Python有效地以相反顺序读取大型文件？
在python 中，如果您使用一个大文件，并且需要从最后一行读取其内容，则在第一行到第一行，Python的内置功能可能不合适。这是解决此任务的有效解决方案：反向行读取器生成器 == ord（'\ n'）：缓冲区=缓冲区[：-1] ...

编程发布于2025-07-13
Java字符串非空且非null的有效检查方法
检查字符串是否不是null而不是空的 if（str！= null && str.isementy（））二手： if（str！= null && str.length（）== 0） option 3：trim（）。isement（Isement（） trim whitespace whitesp...

编程发布于2025-07-13
使用jQuery如何有效修改":after"伪元素的CSS属性？
在jquery中了解伪元素的限制：访问“ selector 尝试修改“：”选择器的CSS属性时，您可能会遇到困难。 This is because pseudo-elements are not part of the DOM (Document Object Model) and are th...

编程发布于2025-07-13
CSS可以根据任何属性值来定位HTML元素吗？
靶向html元素，在CSS 中使用任何属性值，在CSS中，可以基于特定属性（如下所示）基于特定属性的基于特定属性的emants目标元素：字体家庭：康斯拉斯（Consolas）； } 但是，出现一个常见的问题：元素可以根据任何属性值而定位吗？本文探讨了此主题。的目标元素有任何任何属性值，属...

编程发布于2025-07-13
如何将MySQL数据库添加到Visual Studio 2012中的数据源对话框中？
在Visual Studio 2012 尽管已安装了MySQL Connector v.6.5.4，但无法将MySQL数据库添加到实体框架的“ DataSource对话框”中。为了解决这一问题，至关重要的是要了解MySQL连接器v.6.5.5及以后的6.6.x版本将提供MySQL的官方Visual...

编程发布于2025-07-13
为什么不````''{margin：0; }`始终删除CSS中的最高边距？
在CSS 问题：不正确的代码：全球范围将所有余量重置为零，如提供的代码所建议的，可能会导致意外的副作用。解决特定的保证金问题是更建议的。例如，在提供的示例中，将以下代码添加到CSS中，将解决余量问题： body H1 { 保证金顶：-40px; } 此方法更精确，避免了由全局保证金重置引...

编程发布于2025-07-13
图片在Chrome中为何仍有边框？`border: none;`无效解决方案
在chrome 在使用Chrome and IE9中的图像时遇到的一个频繁的问题是围绕图像的持续薄薄边框，尽管指定了图像，尽管指定了;和“边境：无；”在CSS中。要解决此问题，请考虑以下方法： Chrome具有忽略“ border：none; none;”的已知错误，风格。要解决此问题，请使用以下...

编程发布于2025-07-13
$\“（1）vs.（;;）：编译器优化是否消除了性能差异？\”$
\“（1）vs.（;;）：编译器优化是否消除了性能差异？\”
答案：在大多数现代编译器中，while（1）和（1）和（;;）之间没有性能差异。编译器： perl： 1 输入 - > 2 2 NextState（Main 2 -E：1）V-> 3 9 Leaveloop VK/2-> A 3 toterloop（next-> 8 last-> 9 ...

编程发布于2025-07-13
$解决MySQL插入Emoji时出现的\\"字符串值错误\\"异常$
解决MySQL插入Emoji时出现的\\"字符串值错误\\"异常
Resolving Incorrect String Value Exception When Inserting EmojiWhen attempting to insert a string containing emoji characters into a MySQL database us...

编程发布于2025-07-13