Hướng dẫn how do you count a string in a column in python? - làm thế nào để bạn đếm một chuỗi trong một cột trong python?

CẬP NHẬT: Câu trả lời ban đầu đếm những hàng có chứa chuỗi con.

Để đếm tất cả các lần xuất hiện của một chuỗi con, bạn có thể sử dụng

Definition: df.words.str.contains(self, pat, case=True, flags=0, na=nan)
Docstring:
Check whether given pattern is contained in each string in the array

Parameters
----------
pat : string
    Character sequence or regular expression
case : boolean, default True
    If True, case sensitive
flags : int, default 0 (no flags)
    re module flags, e.g. re.IGNORECASE
na : default NaN, fill value for missing values.
7:

In [21]: df = pd.DataFrame(['hello', 'world', 'hehe'], columns=['words'])

In [22]: df.words.str.count("he|wo")
Out[22]:
0    1
1    1
2    2
Name: words, dtype: int64

In [23]: df.words.str.count("he|wo").sum()
Out[23]: 4

Phương pháp

Definition: df.words.str.contains(self, pat, case=True, flags=0, na=nan)
Docstring:
Check whether given pattern is contained in each string in the array

Parameters
----------
pat : string
    Character sequence or regular expression
case : boolean, default True
    If True, case sensitive
flags : int, default 0 (no flags)
    re module flags, e.g. re.IGNORECASE
na : default NaN, fill value for missing values.
8 chấp nhận biểu thức chính quy:

Definition: df.words.str.contains(self, pat, case=True, flags=0, na=nan)
Docstring:
Check whether given pattern is contained in each string in the array

Parameters
----------
pat : string
    Character sequence or regular expression
case : boolean, default True
    If True, case sensitive
flags : int, default 0 (no flags)
    re module flags, e.g. re.IGNORECASE
na : default NaN, fill value for missing values.

Ví dụ:

In [11]: df = pd.DataFrame(['hello', 'world'], columns=['words'])

In [12]: df
Out[12]:
   words
0  hello
1  world

In [13]: df.words.str.contains(r'[hw]')
Out[13]:
0    True
1    True
Name: words, dtype: bool

In [14]: df.words.str.contains(r'he|wo')
Out[14]:
0    True
1    True
Name: words, dtype: bool

Để đếm những sự xuất hiện, bạn chỉ có thể tổng hợp chuỗi Boolean này:

In [15]: df.words.str.contains(r'he|wo').sum()
Out[15]: 2

In [16]: df.words.str.contains(r'he').sum()
Out[16]: 1

Series.str.count (pat, flags = 0) [nguồn]#count(pat, flags=0)[source]#

Số lần xuất hiện của mẫu trong mỗi chuỗi của chuỗi/chỉ mục.

Hàm này được sử dụng để đếm số lần một mẫu Regex cụ thể được lặp lại trong mỗi phần tử chuỗi của

Definition: df.words.str.contains(self, pat, case=True, flags=0, na=nan)
Docstring:
Check whether given pattern is contained in each string in the array

Parameters
----------
pat : string
    Character sequence or regular expression
case : boolean, default True
    If True, case sensitive
flags : int, default 0 (no flags)
    re module flags, e.g. re.IGNORECASE
na : default NaN, fill value for missing values.
9.

Tham sốPatstrpatstr

Biểu thức chính quy hợp lệ.

FlagsInt, mặc định 0, có nghĩa là không có cờint, default 0, meaning no flags

Cờ cho mô -đun RE. Để biết danh sách đầy đủ, xem ở đây.

**kwargs

Để tương thích với các phương thức chuỗi khác. Không được sử dụng.

ReturnSseries hoặc index

Cùng loại với đối tượng gọi chứa số nguyên.

Xem thêm

In [11]: df = pd.DataFrame(['hello', 'world'], columns=['words'])

In [12]: df
Out[12]:
   words
0  hello
1  world

In [13]: df.words.str.contains(r'[hw]')
Out[13]:
0    True
1    True
Name: words, dtype: bool

In [14]: df.words.str.contains(r'he|wo')
Out[14]:
0    True
1    True
Name: words, dtype: bool
0

Mô -đun thư viện tiêu chuẩn cho các biểu thức thông thường.

In [11]: df = pd.DataFrame(['hello', 'world'], columns=['words'])

In [12]: df
Out[12]:
   words
0  hello
1  world

In [13]: df.words.str.contains(r'[hw]')
Out[13]:
0    True
1    True
Name: words, dtype: bool

In [14]: df.words.str.contains(r'he|wo')
Out[14]:
0    True
1    True
Name: words, dtype: bool
1

Phiên bản thư viện tiêu chuẩn, không có hỗ trợ biểu thức chính quy.

Ghi chú

Một số nhân vật cần phải được trốn thoát khi đi qua Pat. ví dụ.

In [11]: df = pd.DataFrame(['hello', 'world'], columns=['words'])

In [12]: df
Out[12]:
   words
0  hello
1  world

In [13]: df.words.str.contains(r'[hw]')
Out[13]:
0    True
1    True
Name: words, dtype: bool

In [14]: df.words.str.contains(r'he|wo')
Out[14]:
0    True
1    True
Name: words, dtype: bool
2 có một ý nghĩa đặc biệt trong regex và phải được thoát ra khi tìm thấy nhân vật theo nghĩa đen này.

Ví dụ

>>> s = pd.Series(['A', 'B', 'Aaba', 'Baca', np.nan, 'CABA', 'cat'])
>>> s.str.count('a')
0    0.0
1    0.0
2    2.0
3    2.0
4    NaN
5    0.0
6    1.0
dtype: float64

Thoát

In [11]: df = pd.DataFrame(['hello', 'world'], columns=['words'])

In [12]: df
Out[12]:
   words
0  hello
1  world

In [13]: df.words.str.contains(r'[hw]')
Out[13]:
0    True
1    True
Name: words, dtype: bool

In [14]: df.words.str.contains(r'he|wo')
Out[14]:
0    True
1    True
Name: words, dtype: bool
2 để tìm dấu hiệu đô la theo nghĩa đen.

>>> s = pd.Series(['$', 'B', 'Aab$', '$$ca', 'C$B$', 'cat'])
>>> s.str.count('\\$')
0    1
1    0
2    1
3    2
4    2
5    0
dtype: int64

Cái này cũng có sẵn trên chỉ mục

>>> pd.Index(['A', 'A', 'Aaba', 'cat']).str.count('a')
Int64Index([0, 0, 2, 1], dtype='int64')

Trong hướng dẫn Pandas này, bạn sẽ học cách đếm các lần xuất hiện trong một cột. Có những dịp trong khoa học dữ liệu khi bạn cần biết có bao nhiêu lần một giá trị nhất định xảy ra. Điều này có thể xảy ra khi bạn, ví dụ, có một tập hợp hạn chế các giá trị có thể mà bạn muốn so sánh. Một ví dụ khác có thể là nếu bạn muốn đếm số lượng giá trị trùng lặp trong một cột. Hơn nữa, chúng tôi có thể muốn đếm số lượng quan sát có trong một yếu tố hoặc chúng tôi cần biết có bao nhiêu nam hoặc nữ trong bộ dữ liệu, ví dụ & nbsp;

  • Đề cương
  • Làm thế nào để bạn đếm số lần xuất hiện trong khung dữ liệu?
  • Nhập các gói và dữ liệu
  • Cách đếm xảy ra trong một cột có pandas value_counts ()
  • Pandas đếm các giá trị duy nhất và các giá trị bị thiếu trong một cột
  • Nhận tần số tương đối của các giá trị duy nhất
  • Tạo thùng khi đếm các giá trị riêng biệt & nbsp;
  • Đếm tần số xuất hiện trên nhiều cột
  • Đếm các sự xuất hiện của một giá trị cụ thể trong Pandas DataFrame
  • Đếm tần số của các lần xuất hiện trong một cột bằng phương pháp Groupby của Pandas
  • Kết luận: Số lượng gấu trúc xảy ra trong cột

Đề cương

Làm thế nào để bạn đếm số lần xuất hiện trong khung dữ liệu?

Hướng dẫn how do you count a string in a column in python? - làm thế nào để bạn đếm một chuỗi trong một cột trong python?

Làm thế nào để bạn đếm số lần xuất hiện trong khung dữ liệu?

Nhập các gói và dữ liệu

Cách đếm xảy ra trong một cột có pandas value_counts ()

Nhập các gói và dữ liệu

Cách đếm xảy ra trong một cột có pandas value_counts ()

import pandas as pd # URL to .csv file data_url = 'https://vincentarelbundock.github.io/Rdatasets/csv/carData/Arrests.csv' # Reading the data df = pd.read_csv(data_url, index_col=0)

Code language: Python (python)

Pandas đếm các giá trị duy nhất và các giá trị bị thiếu trong một cột

  • Nhận tần số tương đối của các giá trị duy nhất
  • Tạo thùng khi đếm các giá trị riêng biệt & nbsp;
  • Đếm tần số xuất hiện trên nhiều cột
  • Nhận tần số tương đối của các giá trị duy nhất

Tạo thùng khi đếm các giá trị riêng biệt & nbsp;

Hướng dẫn how do you count a string in a column in python? - làm thế nào để bạn đếm một chuỗi trong một cột trong python?

Đếm tần số xuất hiện trên nhiều cột

Đếm các sự xuất hiện của một giá trị cụ thể trong Pandas DataFrame

Of course, in most cases, you would count occurrences in your own data set but now we have data to practice counting unique values with. In fact, we will now jump right into counting distinct values in the column “sex”. That said, we are ready to use Pandas to count occurrences in a column, in our dataset.

Hướng dẫn how do you count a string in a column in python? - làm thế nào để bạn đếm một chuỗi trong một cột trong python?

How to Count Occurences in a Column with Pandas value_counts()

Here’s how to count occurrences (unique values) in a column in Pandas dataframe:

# pandas count distinct values in column df['sex'].value_counts()

Code language: Python (python)

As you can see, we selected the column “sex” using brackets (i.e.

In [15]: df.words.str.contains(r'he|wo').sum()
Out[15]: 2

In [16]: df.words.str.contains(r'he').sum()
Out[16]: 1
2), and then we just used the
In [11]: df = pd.DataFrame(['hello', 'world'], columns=['words'])

In [12]: df
Out[12]:
   words
0  hello
1  world

In [13]: df.words.str.contains(r'[hw]')
Out[13]:
0    True
1    True
Name: words, dtype: bool

In [14]: df.words.str.contains(r'he|wo')
Out[14]:
0    True
1    True
Name: words, dtype: bool
4 method. Note, if we want to store the counted values as a variable we can create a new variable. For example,
In [15]: df.words.str.contains(r'he|wo').sum()
Out[15]: 2

In [16]: df.words.str.contains(r'he').sum()
Out[16]: 1
4 would enable us to fetch the number of men in the dataset by its index (0, in this case).

Hướng dẫn how do you count a string in a column in python? - làm thế nào để bạn đếm một chuỗi trong một cột trong python?

As you can see, the method returns the count of all unique values in the given column in descending order, without any null values. By glancing at the above output we can, furthermore, see that there are more men than women in the dataset. In fact, the results show us that the vast majority are men.

Now, as with many Pandas methods, value_counts() has a couple of parameters that we may find useful at times. For example, if we want the reorder the output such as that the counted values (male and female, in this case) are shown in alphabetical order we can use the ascending parameter and set it to True:

# pandas count unique values ascending: df['sex'].value_counts(ascending=True)
Code language: Python (python)
Hướng dẫn how do you count a string in a column in python? - làm thế nào để bạn đếm một chuỗi trong một cột trong python?
  • Save

Note, both of the examples above will drop missing values. That is, they will not be counted at all. There are cases, however, when we may want to know how many missing values there are in a column as well. In the next section, we will therefore have a look at another parameter that we can use (i.e., dropna). First, however, we need to add a couple of missing values to the dataset:

import numpy as np # Copying the dataframe df_na = df # Adding 10 missing values to the dataset df_na.iloc[[1, 6, 7, 8, 33, 44, 99, 103, 109, 201], 4] = np.NaN
Code language: Python (python)

In the code above, we used Pandas iloc method to select rows and NumPy’s nan to add the missing values to these rows that we selected. In the next section, we will count the occurrences including the 10 missing values we added, above.

Pandas Count Unique Values and Missing Values in a Column

Đối với mỗi thùng, phạm vi của các giá trị tuổi (tính theo năm, tự nhiên) là như nhau. Một người chứa độ tuổi từ 11,45 đến 22,80, là khoảng 10,855. Mặt khác, thùng tiếp theo chứa độ tuổi từ 22,80 đến 33,60, là phạm vi 11,8. Trong ví dụ này, bạn có thể thấy rằng tất cả các phạm vi ở đây gần giống nhau (tất nhiên là ngoại trừ lần đầu tiên). Tuy nhiên, mỗi phạm vi giá trị tuổi có thể chứa một số lượng khác nhau của số người trong độ tuổi này. Chúng ta có thể thấy rằng hầu hết mọi người, bị bắt giữ dưới 22,8, tiếp theo là dưới 33,6. Nó có ý nghĩa, trong trường hợp này, phải không? Trong phần tiếp theo, chúng ta sẽ xem xét cách chúng ta có thể sử dụng đếm các giá trị duy nhất trong tất cả các cột trong một khung dữ liệu.

Đếm tần số xuất hiện trên nhiều cột

Đương nhiên, cũng có thể đếm các lần xuất hiện trong nhiều cột bằng phương pháp

In [11]: df = pd.DataFrame(['hello', 'world'], columns=['words'])

In [12]: df
Out[12]:
   words
0  hello
1  world

In [13]: df.words.str.contains(r'[hw]')
Out[13]:
0    True
1    True
Name: words, dtype: bool

In [14]: df.words.str.contains(r'he|wo')
Out[14]:
0    True
1    True
Name: words, dtype: bool
4. Bây giờ, chúng tôi sẽ bắt đầu bằng cách tạo một khung dữ liệu từ một từ điển:

Definition: df.words.str.contains(self, pat, case=True, flags=0, na=nan)
Docstring:
Check whether given pattern is contained in each string in the array

Parameters
----------
pat : string
    Character sequence or regular expression
case : boolean, default True
    If True, case sensitive
flags : int, default 0 (no flags)
    re module flags, e.g. re.IGNORECASE
na : default NaN, fill value for missing values.
2

Hướng dẫn how do you count a string in a column in python? - làm thế nào để bạn đếm một chuỗi trong một cột trong python?

Như bạn có thể thấy trong đầu ra, ở trên, chúng tôi có một tập dữ liệu nhỏ hơn giúp dễ dàng hiển thị cách đếm tần số của các giá trị duy nhất trong tất cả các cột. Nếu bạn cần, bạn cũng có thể chuyển đổi một mảng numpy thành một khung dữ liệu gấu trúc. Điều đó nói rằng, ở đây, cách sử dụng phương thức Ứng dụng ():

Definition: df.words.str.contains(self, pat, case=True, flags=0, na=nan)
Docstring:
Check whether given pattern is contained in each string in the array

Parameters
----------
pat : string
    Character sequence or regular expression
case : boolean, default True
    If True, case sensitive
flags : int, default 0 (no flags)
    re module flags, e.g. re.IGNORECASE
na : default NaN, fill value for missing values.
3

Những gì chúng tôi đã làm, trong ví dụ mã ở trên, là sử dụng phương thức với phương thức value_counts làm tham số duy nhất. Điều này sẽ áp dụng phương pháp này cho tất cả các cột trong Pandas DataFrame. Tuy nhiên, đây thực sự không phải là một cách tiếp cận khả thi nếu chúng ta có bộ dữ liệu lớn hơn. Trên thực tế, số lượng duy nhất mà chúng tôi nhận được cho bộ dữ liệu khá nhỏ này không thể đọc được:

Hướng dẫn how do you count a string in a column in python? - làm thế nào để bạn đếm một chuỗi trong một cột trong python?

Đếm các sự xuất hiện của một giá trị cụ thể trong Pandas DataFrame

Tất nhiên, đó cũng có thể nhận được số lần một giá trị nhất định xuất hiện trong một cột. Ở đây, cách sử dụng gấu trúc

In [11]: df = pd.DataFrame(['hello', 'world'], columns=['words'])

In [12]: df
Out[12]:
   words
0  hello
1  world

In [13]: df.words.str.contains(r'[hw]')
Out[13]:
0    True
1    True
Name: words, dtype: bool

In [14]: df.words.str.contains(r'he|wo')
Out[14]:
0    True
1    True
Name: words, dtype: bool
4, một lần nữa, để đếm các sự xuất hiện của một giá trị cụ thể trong một cột:

Definition: df.words.str.contains(self, pat, case=True, flags=0, na=nan)
Docstring:
Check whether given pattern is contained in each string in the array

Parameters
----------
pat : string
    Character sequence or regular expression
case : boolean, default True
    If True, case sensitive
flags : int, default 0 (no flags)
    re module flags, e.g. re.IGNORECASE
na : default NaN, fill value for missing values.
4

Hướng dẫn how do you count a string in a column in python? - làm thế nào để bạn đếm một chuỗi trong một cột trong python?

Pandas đếm giá trị cụ thể trong cột

Trong ví dụ trên, chúng tôi đã sử dụng bộ dữ liệu mà chúng tôi đã nhập trong đoạn mã đầu tiên (tức là, bắt giữ.csv). Hơn nữa, chúng tôi đã chọn cột chứa giới tính và sử dụng phương thức value_counts (). Bởi vì chúng tôi muốn đếm các sự xuất hiện của một giá trị nhất định, sau đó chúng tôi đã chọn nam. Đầu ra cho chúng ta thấy rằng có 4783 lần xuất hiện của giá trị nhất định này trong cột.

Như thường lệ, khi làm việc với các ngôn ngữ lập trình, có nhiều cách tiếp cận hơn một để giải quyết vấn đề. Do đó, trong ví dụ tiếp theo, chúng ta sẽ xem xét một số phương pháp thay thế liên quan đến việc nhóm dữ liệu theo danh mục bằng phương thức g phải groupBy (). & NBSP;

Đếm tần số của các lần xuất hiện trong một cột bằng phương pháp Groupby của Pandas

Trong phần này, chúng ta sẽ học cách đếm tần suất xuất hiện giữa các nhóm khác nhau. Ví dụ: chúng ta có thể sử dụng

In [11]: df = pd.DataFrame(['hello', 'world'], columns=['words'])

In [12]: df
Out[12]:
   words
0  hello
1  world

In [13]: df.words.str.contains(r'[hw]')
Out[13]:
0    True
1    True
Name: words, dtype: bool

In [14]: df.words.str.contains(r'he|wo')
Out[14]:
0    True
1    True
Name: words, dtype: bool
5 để đếm số lần xuất hiện trong một cột:

Definition: df.words.str.contains(self, pat, case=True, flags=0, na=nan)
Docstring:
Check whether given pattern is contained in each string in the array

Parameters
----------
pat : string
    Character sequence or regular expression
case : boolean, default True
    If True, case sensitive
flags : int, default 0 (no flags)
    re module flags, e.g. re.IGNORECASE
na : default NaN, fill value for missing values.
5

Một phương pháp khác để có được tần số chúng ta có thể sử dụng là phương thức

In [11]: df = pd.DataFrame(['hello', 'world'], columns=['words'])

In [12]: df
Out[12]:
   words
0  hello
1  world

In [13]: df.words.str.contains(r'[hw]')
Out[13]:
0    True
1    True
Name: words, dtype: bool

In [14]: df.words.str.contains(r'he|wo')
Out[14]:
0    True
1    True
Name: words, dtype: bool
6:

Definition: df.words.str.contains(self, pat, case=True, flags=0, na=nan)
Docstring:
Check whether given pattern is contained in each string in the array

Parameters
----------
pat : string
    Character sequence or regular expression
case : boolean, default True
    If True, case sensitive
flags : int, default 0 (no flags)
    re module flags, e.g. re.IGNORECASE
na : default NaN, fill value for missing values.
6

Bây giờ, trong cả hai ví dụ ở trên, chúng tôi đã sử dụng dấu ngoặc để chọn cột chúng tôi muốn áp dụng phương thức trên. Giống như trong các ví dụ

In [11]: df = pd.DataFrame(['hello', 'world'], columns=['words'])

In [12]: df
Out[12]:
   words
0  hello
1  world

In [13]: df.words.str.contains(r'[hw]')
Out[13]:
0    True
1    True
Name: words, dtype: bool

In [14]: df.words.str.contains(r'he|wo')
Out[14]:
0    True
1    True
Name: words, dtype: bool
4 mà chúng ta đã thấy trước đó. Lưu ý rằng điều này tạo ra đầu ra chính xác giống như sử dụng phương thức trước đó và để giữ cho mã của bạn sạch, tôi khuyên bạn nên sử dụng ____ 24. & nbsp; Cuối cùng, cũng đáng nói rằng sử dụng phương thức
In [11]: df = pd.DataFrame(['hello', 'world'], columns=['words'])

In [12]: df
Out[12]:
   words
0  hello
1  world

In [13]: df.words.str.contains(r'[hw]')
Out[13]:
0    True
1    True
Name: words, dtype: bool

In [14]: df.words.str.contains(r'he|wo')
Out[14]:
0    True
1    True
Name: words, dtype: bool
6 sẽ tạo ra số lượng duy nhất, được nhóm lại cho mỗi cột . Đây rõ ràng là thông tin dư thừa:

Hướng dẫn how do you count a string in a column in python? - làm thế nào để bạn đếm một chuỗi trong một cột trong python?

Kết luận: Số lượng gấu trúc xảy ra trong cột

Trong hướng dẫn của gấu trúc này, bạn đã học được cách đếm các lần xuất hiện trong một cột bằng cách sử dụng 1)

In [11]: df = pd.DataFrame(['hello', 'world'], columns=['words'])

In [12]: df
Out[12]:
   words
0  hello
1  world

In [13]: df.words.str.contains(r'[hw]')
Out[13]:
0    True
1    True
Name: words, dtype: bool

In [14]: df.words.str.contains(r'he|wo')
Out[14]:
0    True
1    True
Name: words, dtype: bool
4 và 2)
>>> s = pd.Series(['A', 'B', 'Aaba', 'Baca', np.nan, 'CABA', 'cat'])
>>> s.str.count('a')
0    0.0
1    0.0
2    2.0
3    2.0
4    NaN
5    0.0
6    1.0
dtype: float64
6 cùng với
In [11]: df = pd.DataFrame(['hello', 'world'], columns=['words'])

In [12]: df
Out[12]:
   words
0  hello
1  world

In [13]: df.words.str.contains(r'[hw]')
Out[13]:
0    True
1    True
Name: words, dtype: bool

In [14]: df.words.str.contains(r'he|wo')
Out[14]:
0    True
1    True
Name: words, dtype: bool
5 và
In [11]: df = pd.DataFrame(['hello', 'world'], columns=['words'])

In [12]: df
Out[12]:
   words
0  hello
1  world

In [13]: df.words.str.contains(r'[hw]')
Out[13]:
0    True
1    True
Name: words, dtype: bool

In [14]: df.words.str.contains(r'he|wo')
Out[14]:
0    True
1    True
Name: words, dtype: bool
6. Cụ thể, bạn đã học được cách có được tần suất xuất hiện theo thứ tự tăng dần và giảm dần, bao gồm các giá trị bị thiếu, tính toán các tần số tương đối và đánh giá các giá trị được tính. & NBSP;

Làm thế nào để bạn đếm các giá trị trong một cột trong Python?

Chúng ta có thể đếm bằng cách sử dụng phương thức value_counts ().Hàm này được sử dụng để đếm các giá trị có trong toàn bộ khung dữ liệu và cũng đếm các giá trị trong một cột cụ thể.value_counts() method. This function is used to count the values present in the entire dataframe and also count values in a particular column.

Làm thế nào để bạn đếm các chuỗi cụ thể trong Python?

Một trong những cách tích hợp trong đó bạn có thể sử dụng Python để đếm số lần xuất hiện trong một chuỗi là sử dụng phương thức chuỗi tích hợp .Count ().Phương thức lấy một đối số, một ký tự hoặc một chuỗi con và trả về số lần ký tự tồn tại trong chuỗi được liên kết với phương thức.using the built-in string . count() method. The method takes one argument, either a character or a substring, and returns the number of times that character exists in the string associated with the method.

STR Count () làm gì?

Phương thức đếm () trả về số lần một giá trị được chỉ định xuất hiện trong chuỗi.returns the number of times a specified value appears in the string.

Làm cách nào để đếm số lượng chuỗi trong một khung dữ liệu trong Python?

Gấu trúc str.Phương thức đếm () được sử dụng để đếm sự xuất hiện của một chuỗi hoặc mẫu regex trong mỗi chuỗi của một chuỗi.