Como lidar com pares substitutos em Unicodes Python
Em Python, pares substitutos são usados para representar caracteres Unicode além do plano multilíngue básico (BMP ). Esses pares consistem em dois pontos de código substitutos que são usados para codificar um único caractere Unicode.
Ao trabalhar com strings unicode Python que contêm pares substitutos, você pode encontrar erros relacionados à codificação substituta. Esses erros ocorrem porque o Python lida com pares substitutos de maneira diferente dependendo do contexto.
Tratando pares substitutos
Para converter um par substituto em uma string normal, você tem várias opções:
Use o módulo json:
Codifique e decodifique com o método encode():
Exemplo:
emoji = "This is \ud83d\ude4f, an emoji."
encoded = emoji.encode("utf-16")
decoded = encoded.decode("utf-16")
print(decoded) # Output: "This is ?, an emoji."
Use o manipulador de erros surrogatepass:
Exemplo:
encoded = emoji.encode("utf-16", "surrogatepass")
decoded = encoded.decode("utf-16")
print(decoded) # Output: "?"
Observe que a abordagem escolhida dependerá do contexto específico e do formato de saída desejado.
Isenção de responsabilidade: Todos os recursos fornecidos são parcialmente provenientes da Internet. Se houver qualquer violação de seus direitos autorais ou outros direitos e interesses, explique os motivos detalhados e forneça prova de direitos autorais ou direitos e interesses e envie-a para o e-mail: [email protected]. Nós cuidaremos disso para você o mais rápido possível.
Copyright© 2022 湘ICP备2022001581号-3