Символы Юникода необходимы для кодирования текста на различных языках и алфавитах, что позволяет представлять различные системы письменности.

Однако в некоторых случаях нам может потребоваться удалить символы Юникода из строки в Python, например, при работе с данными, требующими кодировки ASCII, или при очистке текста для анализа.

Содержание

Метод str.encode()

Чтобы удалить символы Юникода из строки Python, нам необходимо закодировать строку с помощью метода str.encode() для удаления символов Юникода из строки.

Метод encode() используется для кодирования строки в последовательность байтов, обычно представляющую кодировку Unicode символов в строке.

Вот пример:

string_unicode = " Python is easy \u200c to learn. "
string_encode = string_unicode.encode("ascii", "ignore")
string_decode = string_encode.decode()
print(string_decode)

Как только вы напечатаете «string_decode», вывод будет выглядеть как «Python легко изучить».

Метод str.encode()

Метод replace()

Чтобы удалить символ Unicode «u» из строки, мы можем использовать метод replace().

Метод replace() в Python — это строковый метод, используемый для создания новой строки путем замены всех вхождений указанной подстроки другой подстрокой.

Рассмотрим следующий пример:

string = "u\'Python is easy'"
string_unicode = string.replace("u'", "'")
print(string_unicode)

После написания приведенного выше кода(Python удаляет Unicode «u» из строки), как только мы напечатаем «string_unicode», вывод будет выглядеть как «Python — это просто».

На снимке экрана ниже показано удаление символа Unicode «u» из строки Python.

Метод replace()

Мы также можем использовать Python для удаления символа Юникода «u» из строки с помощью метода encode(), и здесь «u» — это Юникод, который удаляется с чем-то другим.

Вот простой пример:

string = u'hello world!'
string_encode = string.encode('ascii')
print(string_encode)

После написания приведенного выше кода(Python удаляет символ Unicode «u» из строки), вы напечатаете «string_encode», тогда вывод будет выглядеть как «b’hello world!». Python удаляет символ Юникода «u» из строки чем-то другим.

На снимке экрана ниже показано удаление символа Юникода «u» из строки python.

Как удалить символы

Метод isalnum()

Для удаления специальных символов в строке Python мы используем метод isalnum() для удаления специальных символов из строки. Специальными символами могут быть пробелы, знаки препинания или косая черта.

Метод isalnum() в Python проверяет, все ли символы являются буквенно-цифровыми, например буквы алфавита(az) и цифры(0–9).

Давайте посмотрим пример:

my_string = "sgr /k !? 100002"
string = ""
for character in my_string:
if character.isalnum():
string = string + character
print(string)

После написания приведенного выше кода(удаление специальных символов в строке Python). Как только мы напечатаем «строку», результат будет выглядеть как «sgrk100002».

Python удаляет специальный символ из строки и возвращает строку с буквами и цифрами, а цикл будет перебирать каждый символ.

На снимке экрана ниже показано удаление специальных символов в строке Python.

Метод isalnum()

Метод tring.encode() с кодировкой ASCII

Чтобы удалить символы, отличные от ASCII, из строки в Python, нам нужно использовать string.encode() с кодировкой ASCII и ошибкой как игнорировать. Чтобы вернуть строку без символов ASCII, используйте string.decode().

Например:

string_nonASCII = " àa fuünny charactersß. "
string_encode = string_nonASCII.encode("ascii", "ignore")
string_decode = string_encode.decode()
print(string_decode)

После написания приведенного выше кода(удаления символов, отличных от ASCII в Python), как только мы напечатаем «string_decode», выходные данные будут выглядеть как «забавные символы».

Функция encode() используется для удаления из строки символов, отличных от ASCII, а функция decode() кодирует строку в Python.

Вы можете обратиться к снимку экрана ниже для удаления символов, отличных от ASCII, в Python.

Метод tring.encode() с кодировкой ASCII

Добавить комментарий