Cách nhập tập dữ liệu trong sổ ghi chép Python Jupyter

Ở đây, chúng ta sẽ đề cập đến hai phương pháp khác nhau để bắt đầu làm việc với Jupyter Notebook. Trong phương pháp đầu tiên, chúng tôi sẽ sử dụng API Kaggle để tải xuống tập dữ liệu của mình và sau đó, chúng tôi sẵn sàng sử dụng tập dữ liệu của mình. Theo một phương pháp khác, chúng tôi tải xuống thủ công từ trang web Kaggle và sử dụng tập dữ liệu của chúng tôi cho dữ liệu sản xuất hoặc phân tích của chúng tôi

Phương pháp 1. Tải xuống Bộ dữ liệu Kaggle trong Jupyter Notebook

Bước 1. Tải xuống và cài đặt các gói cần thiết.  

!pip install opendatasets
pip install pandas

Bước 2. Truy cập www. kaggle. com. Truy cập hồ sơ của bạn và nhấp vào tài khoản.  

 

Bước 3. Trên trang tiếp theo, bạn sẽ thấy phần API, nơi bạn sẽ tìm thấy “Tạo mã thông báo API mới”, nhấp vào phần đó và phần này sẽ tải xuống một kaggle. json mà bạn sẽ nhận được tên người dùng và khóa của mình. chúng tôi sẽ sử dụng tên người dùng và khóa trong bước tiếp theo của chúng tôi

 

Bước 4. Mở Sổ ghi chép Jupyter của bạn, Nhập thư viện bộ dữ liệu mở và tải xuống bộ dữ liệu Kaggle của bạn bằng cách dán liên kết vào đó

Python3




import

df = pd.read_csv["file_name.csv"]
0

import

df = pd.read_csv["file_name.csv"]
2

 

df = pd.read_csv["file_name.csv"]
3

df = pd.read_csv["file_name.csv"]
4
df = pd.read_csv["file_name.csv"]
5_______16
df = pd.read_csv["file_name.csv"]
6import0
df = pd.read_csv["file_name.csv"]
6import2
df = pd.read_csv["file_name.csv"]
6import4
df = pd.read_csv["file_name.csv"]
6import6

Hãy nói về Python để phân tích dữ liệu. Trong hướng dẫn này, bạn sẽ tìm hiểu một số quy trình phân tích dữ liệu đơn giản trong khi khám phá tập dữ liệu với Python và Pandas

Trước khi chúng tôi bắt đầu, hãy đảm bảo bạn đã thiết lập môi trường cho thực hành này. Vui lòng cài đặt Python 3. 6, Pandas và matplotlib. Ngoài ra, chúng tôi sẽ sử dụng Jupyter Notebook trong hướng dẫn này. Nếu bạn chưa từng nghe về công cụ tổ chức, tập này của Linear Digressions sẽ giải thích chúng rất tốt.  

Tôi sẽ sử dụng Anaconda, một nền tảng để chạy Python bao gồm một bộ công cụ phân tích dữ liệu. Hướng dẫn này sẽ được chia thành ba phần. đặt câu hỏi, tranh luận và khám phá

*Tải xuống Jupyter Notebook cho hướng dẫn này tại đây

Quyết định về tập dữ liệu và câu hỏi của bạn

Phân tích dữ liệu luôn bắt đầu bằng câu hỏi. Đến lượt chúng, chúng sẽ xác định loại dữ liệu bạn thu thập. Trong hướng dẫn này, chúng ta sẽ khám phá bộ dữ liệu gồm 10.000 bài báo do NewsWhip thu thập từ tháng 11 năm 2016 đến tháng 5 năm 2017 được đăng lên Facebook bởi 500 nhà xuất bản tin tức hàng đầu. Chúng tôi có thể muốn hỏi tổ chức tin tức nào xuất bản nhiều bài báo nhất trong tập hợp và từ khóa hàng đầu nào xuyên suốt tất cả các tiêu đề.  

 

Nhập tập dữ liệu vào Jupyter Notebook

Hãy nhập tập dữ liệu của chúng ta, sau đó nhập và mở tập dữ liệu đó trong Jupyter Notebook. Máy tính xách tay Jupyter sẽ bắt đầu ngay lập tức sau khi bạn nhập sổ ghi chép jupyter vào Terminal

 

 

Tiếp theo, bạn sẽ nhận được một trang như thế này

 

 

Tiếp theo, nhấp vào nút tải lên để tải lên tập dữ liệu của bạn. Sau đó nhấp vào menu thả xuống “Mới” và chọn Python [conda root]

 

Vui lòng theo dõi tôi để nhập tất cả các gói chúng tôi cần cho hướng dẫn này

 

Sau đó, hãy nhập tập dữ liệu của chúng tôi bằng cách nhập

df = pd.read_csv["file_name.csv"]

Bằng cách nhập df. head[10], bạn có thể xem lại 10 hàng đầu tiên trong tập dữ liệu này

 

 

tranh cãi

Khi chúng tôi đã nhập tập dữ liệu, chúng tôi cần sắp xếp lại dữ liệu để giúp trả lời các câu hỏi mà chúng tôi đã đề cập trước đây. Không có tập dữ liệu nào là hoàn hảo và đó là lý do chúng tôi cần kiểm tra các sự cố trong tập dữ liệu này và khắc phục chúng

Hãy kiểm tra xem có bao nhiêu cột và hàng trong tập dữ liệu này bằng cách nhập df. hình dạng

 

 

Điều này có nghĩa là chúng tôi có 10.000 hàng và 12 cột. Tiếp theo, kiểm tra kiểu dữ liệu cho từng cột bằng cách nhập df. dtypes

 

 

Lưu ý cách Nhà xuất bản, Tiêu đề, Liên kết và Ngày đều được liệt kê dưới dạng đối tượng. Lạ nhỉ. Điều tra thêm cho thấy rằng trên thực tế chúng là các chuỗi mà tôi đã tiết lộ bằng cách nhập.  

type[df['column name'][0]]

 

Chuyển đổi cột ngày từ đối tượng thành datetime

Hãy thay đổi kiểu dữ liệu của Date từ object thành datetime

Loại. df[‘Ngày’] = pd. to_datetime[df[‘Ngày’]]

Sau khi bạn hoàn thành việc đó, vui lòng nhập df. dtypes để đảm bảo nó hoạt động

 

 

Đập tay. Kiểu dữ liệu của Ngày hiện là datetime64[ns]. Tiếp theo, hãy kiểm tra xem chúng ta có thiếu giá trị nào trong tập dữ liệu này không. Chúng tôi sẽ làm như vậy bằng cách gõ

df.info[]

 

 

Lưu ý trong Từ khóa rằng trong số 10.000 hàng, chỉ có 7.528 hàng chứa các đối tượng trong cột Từ khóa. Điều đó có nghĩa là khoảng 2.500 giá trị bị thiếu. Điều đó có nghĩa là những bài viết đó không có từ khóa. Hãy nhớ điều này, bởi vì đó là một lưu ý mà chúng ta sẽ cần đưa vào khi thảo luận về phân tích dữ liệu của mình

Tiếp theo, hãy kiểm tra xem chúng tôi có bất kỳ dữ liệu trùng lặp nào không bằng cách nhập df. trùng lặp[]

Nhìn có vẻ tốt. Chúng tôi không cần bỏ bất kỳ dữ liệu trùng lặp nào

 

Khám phá và trực quan hóa dữ liệu

Bây giờ bạn đã làm sạch dữ liệu của mình, bạn có thể tiết lộ các mẫu trong dữ liệu của chúng tôi bằng cách sử dụng một số phép toán, chẳng hạn như tính tổng và đếm. Bằng cách sử dụng hàm value_counts, chúng ta có thể đếm các giá trị duy nhất trong một cột. Sau đó, chúng ta có thể gọi hàm vẽ trên kết quả để tạo biểu đồ thanh

Hãy thử đếm xem nhà xuất bản nào đã xuất bản nhiều bài báo nhất. Loại

 df['column name’].value_counts[]

 

Chúng tôi tiết lộ rằng BuzzFeed đã xuất bản nhiều bài báo nhất trong bộ dữ liệu. Để hình dung điều này, chúng ta có thể tạo biểu đồ thanh bằng matplotlib. Một điều hữu ích khi tạo trực quan hóa trong Jupyter Notebooks là câu lệnh nội tuyến matplot, cho phép bạn xem biểu đồ của mình trong sổ ghi chép

Chúng ta có thể sử dụng df[‘Publisher’]. value_counts[]. plot[kind = ‘bar’] để vẽ biểu đồ thanh đơn giản. Sử dụng figsize để thay đổi kích thước của ô

 

Ái chà. Biểu đồ này hơi lộn xộn. Hãy lọc xuống 10 nhà xuất bản hàng đầu theo thứ tự giảm dần

Chúng tôi có thể làm điều đó bằng cách thiết lập tăng dần = false, sau đó lọc ra top 10 bằng cách chỉ định top10[. 10] vào biến top10

top10 = df["Publisher"].value_counts[]
top10.sort_values[ascending=False]
top10 = top10[:10]
top10.plot[kind="bar"]

Sau đó, vẽ biểu đồ biến top10 đó bằng cách nhập.  

top10.plot[kind="bar"]

 

 

Đập tay. Chúng tôi có biểu đồ thanh đầu tiên

 

Vẽ sơ đồ 20 từ khóa hàng đầu

Tiếp theo, hãy thử tạo biểu đồ thanh để hiển thị 20 từ khóa hàng đầu từ cột Từ khóa

Điều này hơi phức tạp vì các từ khóa không phải là các từ đơn lẻ mà là các chuỗi từ được phân tách bằng dấu phẩy. Nếu không làm điều đó, đây là những gì chúng ta hình dung

 

 

Để có được số lượng từ khóa chính xác, chúng ta cần chia cột thành các từ đơn lẻ và đặt chúng vào các mảng – trong Pandas được gọi là chuỗi

Hãy chia cột thành các từ đơn lẻ và đặt chúng thành một chuỗi. Sau đó, lặp lại từng từ trong chuỗi này, chúng tôi có thể nhận được số lượng từ khóa chính xác

 

keyword_count = pd.Series[np.concatenate[[str[x].lower[].strip[].replace[' ', ''].split[',']
                                          for x in df.Keywords]]].value_counts[]
keyword_count = keyword_count[keyword_count != 2472]
keyword_count = keyword_count[keyword_count != 910]
result = keyword_count.nlargest[20]
result.plot[kind='bar',figsize=[12,8]]
print [keyword_count]

 

Hãy để tôi giải thích mã tôi đã viết. Dòng đầu tiên là đếm tổng số từ khóa bị Null, sau đó loại bỏ chúng khỏi Series. Hàng thứ hai đang đếm tổng số từ khóa trống, sau đó xóa chúng khỏi Chuỗi

Chúng ta có thể tạo một biểu đồ hình tròn cho kết quả này

 

 

Hãy mở rộng biểu đồ hình tròn này để so sánh tốt hơn. Nó trông rất mát mẻ

________số 8

 

Để vẽ biểu đồ hình tròn bùng nổ này, chúng tôi cần thêm một số tính năng. Nhãn là 10 từ khóa hàng đầu mà chúng tôi đã lọc ra;

Chủ Đề