Символы Юникода необходимы для кодирования текста на различных языках и алфавитах, что позволяет представлять различные системы письменности.
Однако в некоторых случаях нам может потребоваться удалить символы Юникода из строки в Python, например, при работе с данными, требующими кодировки ASCII, или при очистке текста для анализа.
Метод str.encode()
Чтобы удалить символы Юникода из строки Python, нам необходимо закодировать строку с помощью метода str.encode() для удаления символов Юникода из строки.
Метод encode() используется для кодирования строки в последовательность байтов, обычно представляющую кодировку Unicode символов в строке.
Вот пример:
string_unicode = " Python is easy \u200c to learn. " string_encode = string_unicode.encode("ascii", "ignore") string_decode = string_encode.decode() print(string_decode)
Как только вы напечатаете «string_decode», вывод будет выглядеть как «Python легко изучить».
Метод replace()
Чтобы удалить символ Unicode «u» из строки, мы можем использовать метод replace().
Метод replace() в Python — это строковый метод, используемый для создания новой строки путем замены всех вхождений указанной подстроки другой подстрокой.
Рассмотрим следующий пример:
string = "u\'Python is easy'" string_unicode = string.replace("u'", "'") print(string_unicode)
После написания приведенного выше кода(Python удаляет Unicode «u» из строки), как только мы напечатаем «string_unicode», вывод будет выглядеть как «Python — это просто».
На снимке экрана ниже показано удаление символа Unicode «u» из строки Python.
Мы также можем использовать Python для удаления символа Юникода «u» из строки с помощью метода encode(), и здесь «u» — это Юникод, который удаляется с чем-то другим.
Вот простой пример:
string = u'hello world!' string_encode = string.encode('ascii') print(string_encode)
После написания приведенного выше кода(Python удаляет символ Unicode «u» из строки), вы напечатаете «string_encode», тогда вывод будет выглядеть как «b’hello world!». Python удаляет символ Юникода «u» из строки чем-то другим.
На снимке экрана ниже показано удаление символа Юникода «u» из строки python.
Метод isalnum()
Для удаления специальных символов в строке Python мы используем метод isalnum() для удаления специальных символов из строки. Специальными символами могут быть пробелы, знаки препинания или косая черта.
Метод isalnum() в Python проверяет, все ли символы являются буквенно-цифровыми, например буквы алфавита(az) и цифры(0–9).
Давайте посмотрим пример:
my_string = "sgr /k !? 100002" string = "" for character in my_string: if character.isalnum(): string = string + character print(string)
После написания приведенного выше кода(удаление специальных символов в строке Python). Как только мы напечатаем «строку», результат будет выглядеть как «sgrk100002».
Python удаляет специальный символ из строки и возвращает строку с буквами и цифрами, а цикл будет перебирать каждый символ.
На снимке экрана ниже показано удаление специальных символов в строке Python.
Метод tring.encode() с кодировкой ASCII
Чтобы удалить символы, отличные от ASCII, из строки в Python, нам нужно использовать string.encode() с кодировкой ASCII и ошибкой как игнорировать. Чтобы вернуть строку без символов ASCII, используйте string.decode().
Например:
string_nonASCII = " àa fuünny charactersß. " string_encode = string_nonASCII.encode("ascii", "ignore") string_decode = string_encode.decode() print(string_decode)
После написания приведенного выше кода(удаления символов, отличных от ASCII в Python), как только мы напечатаем «string_decode», выходные данные будут выглядеть как «забавные символы».
Функция encode() используется для удаления из строки символов, отличных от ASCII, а функция decode() кодирует строку в Python.
Вы можете обратиться к снимку экрана ниже для удаления символов, отличных от ASCII, в Python.