”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 编程 > 如何使用正则表达式捕获多行文本块?

如何使用正则表达式捕获多行文本块?

发布于2024-11-03
浏览:141

How to Capture Multiline Text Blocks with Regular Expressions?

匹配多行文本块的正则表达式

匹配跨多行的文本可能会给正则表达式构造带来挑战。考虑以下示例文本:

some Varying TEXT

DSJFKDAFJKDAFJDSAKFJADSFLKDLAFKDSAF
[more of the above, ending with a newline]
[yep, there is a variable number of lines here]

(repeat the above a few hundred times)

目标是捕获两个组成部分:“some Varying TEXT”部分和所有后续大写文本行,不包括空行。

不正确的方法:

解决此问题的一些不正确的方法包括:

  • 使用^ 和 $ 锚点来匹配换行符。在多行模式下,^ 匹配换行符后面的位置,$ 匹配换行符之前的位置。
  • 使用 DOTALL 修饰符匹配所有内容,这是不必要的,因为点 (.) 匹配除换行符之外的所有内容。

解决方案:

下面的正则表达式正确捕获了所需的组件:

^(. )\n((?:\n. ) )

这是其组件的详细信息:

  • ^ 匹配该行。
  • (. ) 将“some Varying TEXT”部分捕获到组 1 中。
  • \n 匹配 a换行符。
  • ((?:\n. ) ) 将大写文本的所有后续行捕获到组 2 中。 ?: 非捕获组构造可防止这些行被捕获为单独的组。
  • 重复运算符确保至少一行大写文本present.

用法:

要在Python中使用这个正则表达式,可以使用下面的代码:

import re

pattern = re.compile(r"^(. )\n((?:\n. ) )", re.MULTILINE)

然后您可以使用 match() 方法在字符串中查找匹配项:

match = pattern.match(text)
if match:
    text1 = match.group(1)
    text2 = match.group(2)
最新教程 更多>

免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3