Подсчет слов может относиться к двум вещам: подсчету всех слов в текстовом файле и подсчету только определенных слов или частоты слов в файле.
Программа для подсчета слов в текстовом файле
Чтобы подсчитать слова в файле, необходимо выполнить три действия, как показано ниже.
- Сначала вы откроете файл в своей среде Python в режиме чтения, что означает, что вы можете читать или распечатывать данные файла, но не можете выполнять запись или добавление.
- Во-вторых, вы разделите содержимое файла на слова на основе пробела, подобного разделителю.
- В-третьих, чтобы узнать количество слов, вам нужно узнать длину с помощью функции Python.
Например, у меня есть файл data.txt, содержащий некоторую информацию или предложения, как показано ниже.
Как видите, файл data.txt содержит несколько строк в абзаце.
Теперь откройте файл в режиме чтения, используя функцию Python open(), как показано в коде ниже.
file = open("/content/data.txt","r")
После открытия прочитайте содержимое файла с помощью функции read() в новую переменную с именем file_content, как показано ниже.
file_content = file.read()
После чтения содержимого файла в отдельную переменную разделите содержимое на слова, используя метод Split() для переменной, содержащей содержимое файла, как показано ниже.
words = file_content.split()
Приведенный выше код разбивает предложение или абзац на слова на основе разделителя.
Затем вычислите длину слов в переменной с именем «words», передав ее в функцию Python len(), как показано ниже.
num_of_words = len(words)
Функция len() в приведенном выше коде принимает переменную слова, вычисляет длину, а затем сохраняет длину в переменную num_of_words, которую вы можете увидеть в коде ниже.
print("Number of words in file", num_of_words)
Посмотрите на результат. Он возвращает количество слов как 149, что означает, что количество слов в файле data.txt равно 149.
Точно так же вы можете подсчитать слова в любом файле, открыв файл в режиме чтения, затем прочитав данные открытого файла с помощью read(), разбив его содержимое на слова с помощью функции Split() и, наконец, вычислив длину с помощью функции Flax().
Для подсчета частоты слов в файле
Чтобы подсчитать частоту слов в файле, вам необходимо выполнить определенные действия:
- Первый шаг — открыть файл в режиме чтения, второй — взять каждую строку файла, преобразовать ее в нижний регистр, затем разбить каждую строку на слова, предварительно удалив из слов знаки препинания, и, наконец, проверить вхождение нужных слов. считать.
Например, возьмите файл data.text, который вы видели в разделе выше.
- Откройте файл в режиме чтения с помощью функции open() с режимом, равным «r», как показано в коде ниже.
file = open("/content/data.txt","r")
- После этого определите слово, которое хотите посчитать. Например, вы хотите посчитать слово «the» в файле.
word_to_count = ["the"]
- Создайте словарь, который будет считать слова именем и значением.
word_counts = {word:0 for word in word_to_count}
- Затем запустите цикл for и возьмите каждую строку файла, удалите знаки препинания, преобразуйте ее в нижний регистр и, наконец, разделите на слова. Затем проверьте, существует ли слово, сколько раз вы хотите посчитать, и добавьте его в словарь, используя приведенный ниже код.
for line in file: words = line.strip().lower().split() for word in words: if word in word_counts: word_counts[word]+=1
- Наконец, закройте файл и распечатайте слова и их количество из словаря «word_counts», как показано в коде ниже.
file.close() print(word_counts)
- Посмотрите на результат. Слово «the» встречается в файле 14 раз или встречается 14 раз в текстовом файле «data.txt».
- Давайте разберемся в частях кода. «для строки в файле:» означает доступ к каждой строке файла «data.txt» одну за другой.
- Следующий код: ‘words = line.strip(). low().split()’ означает, что в каждой строке вызывается функция Strip() для удаления любых пробелов из начала и конца строки, вызывается функция low() для преобразования ее в нижний регистр и, наконец, , функция Split() вызывается для разделения строки на слова.
- После этого запускается новый цикл «для слова в словах:», который берет каждое слово из переменной «слова», затем проверяет каждое слово, существует ли оно в словаре, с помощью «если слово в слове_counts:», а затем увеличивает его на один с использованием «word_counts[слово]+=1».
- Наконец, открытый файл закрывается путем вызова функции close() для файлового объекта с использованием file.close(), а затем печатает слово и его количество с помощью функции print(word_counts).
- В результате количество конкретного слова «the» равно 14.