Подсчет слов может относиться к двум вещам: подсчету всех слов в текстовом файле и подсчету только определенных слов или частоты слов в файле.

Программа для подсчета слов в текстовом файле

Чтобы подсчитать слова в файле, необходимо выполнить три действия, как показано ниже.

  1. Сначала вы откроете файл в своей среде Python в режиме чтения, что означает, что вы можете читать или распечатывать данные файла, но не можете выполнять запись или добавление.
  2. Во-вторых, вы разделите содержимое файла на слова на основе пробела, подобного разделителю.
  3. В-третьих, чтобы узнать количество слов, вам нужно узнать длину с помощью функции Python.

Например, у меня есть файл data.txt, содержащий некоторую информацию или предложения, как показано ниже.

Просмотр данных файла перед написанием программы Python для подсчета слов в текстовом файле

Как видите, файл data.txt содержит несколько строк в абзаце.

Теперь откройте файл в режиме чтения, используя функцию Python open(), как показано в коде ниже.

file = open("/content/data.txt","r")

После открытия прочитайте содержимое файла с помощью функции read() в новую переменную с именем file_content, как показано ниже.

file_content = file.read()

После чтения содержимого файла в отдельную переменную разделите содержимое на слова, используя метод Split() для переменной, содержащей содержимое файла, как показано ниже.

words = file_content.split()

Приведенный выше код разбивает предложение или абзац на слова на основе разделителя.

Затем вычислите длину слов в переменной с именем «words», передав ее в функцию Python len(), как показано ниже.

num_of_words = len(words)

Функция len() в приведенном выше коде принимает переменную слова, вычисляет длину, а затем сохраняет длину в переменную num_of_words, которую вы можете увидеть в коде ниже.

print("Number of words in file", num_of_words)

Программа Python для подсчета слов в текстовом файле

Посмотрите на результат. Он возвращает количество слов как 149, что означает, что количество слов в файле data.txt равно 149.

Точно так же вы можете подсчитать слова в любом файле, открыв файл в режиме чтения, затем прочитав данные открытого файла с помощью read(), разбив его содержимое на слова с помощью функции Split() и, наконец, вычислив длину с помощью функции Flax().

Для подсчета частоты слов в файле

Чтобы подсчитать частоту слов в файле, вам необходимо выполнить определенные действия:

  • Первый шаг — открыть файл в режиме чтения, второй — взять каждую строку файла, преобразовать ее в нижний регистр, затем разбить каждую строку на слова, предварительно удалив из слов знаки препинания, и, наконец, проверить вхождение нужных слов. считать.

Например, возьмите файл data.text, который вы видели в разделе выше.

  • Откройте файл в режиме чтения с помощью функции open() с режимом, равным «r», как показано в коде ниже.
file = open("/content/data.txt","r")
  • После этого определите слово, которое хотите посчитать. Например, вы хотите посчитать слово «the» в файле.
word_to_count = ["the"]
  • Создайте словарь, который будет считать слова именем и значением.
word_counts = {word:0 for word in word_to_count}
  • Затем запустите цикл for и возьмите каждую строку файла, удалите знаки препинания, преобразуйте ее в нижний регистр и, наконец, разделите на слова. Затем проверьте, существует ли слово, сколько раз вы хотите посчитать, и добавьте его в словарь, используя приведенный ниже код.
for line in file:
  words = line.strip().lower().split()
  for word in words:
    if word in word_counts:
      word_counts[word]+=1
  • Наконец, закройте файл и распечатайте слова и их количество из словаря «word_counts», как показано в коде ниже.
file.close()
print(word_counts)

Для подсчета частоты слов в файле

  • Посмотрите на результат. Слово «the» встречается в файле 14 раз или встречается 14 раз в текстовом файле «data.txt».
  • Давайте разберемся в частях кода. «для строки в файле:» означает доступ к каждой строке файла «data.txt» одну за другой.
  • Следующий код: ‘words = line.strip(). low().split()’ означает, что в каждой строке вызывается функция Strip() для удаления любых пробелов из начала и конца строки, вызывается функция low() для преобразования ее в нижний регистр и, наконец, , функция Split() вызывается для разделения строки на слова.
  • После этого запускается новый цикл «для слова в словах:», который берет каждое слово из переменной «слова», затем проверяет каждое слово, существует ли оно в словаре, с помощью «если слово в слове_counts:», а затем увеличивает его на один с использованием «word_counts[слово]+=1».
  • Наконец, открытый файл закрывается путем вызова функции close() для файлового объекта с использованием file.close(), а затем печатает слово и его количество с помощью функции print(word_counts).
  • В результате количество конкретного слова «the» равно 14.
Добавить комментарий