Hướng dẫn cluster sentences by similarity python - cụm câu bởi tương tự python

Những bài báo khoa học dữ liệu nào có được sự hấp dẫn hơn từ độc giả [Phần 2]

Ảnh của Hanson Lu trên unplash

Trong loạt bài viết này, chúng tôi đang phân tích tài liệu lưu trữ lịch sử của các ấn phẩm khoa học dữ liệu để hiểu những chủ đề nào phổ biến hơn với độc giả. Trước đây chúng tôi đề cập đến cách lấy dữ liệu sẽ được sử dụng để phân tích thêm.

Chúng tôi sẽ đề cập đến cách làm sạch dữ liệu văn bản mà chúng tôi đã thu thập trước đó, nhóm các chủ đề tương tự bằng cách sử dụng các biểu đồ mạng và thiết lập các mẫu trong các cụm này trong bài viết này.

Tóm tắt dữ liệu

Hãy để nhắc nhở bản thân chúng ta như thế nào các dữ liệu trông như thế nào. Đó là sự kết hợp của các bài viết thu được từ ba nguồn dữ liệu [Trường: ‘Nguồn] - Phân tích Vidhya [‘ AVD], TDS [‘TDS,] và hướng tới AI [‘ Tai,].

Chúng tôi đã thu thập các tiêu đề, phụ đề, vỗ tay và phản hồi từ các bài viết riêng lẻ trong tài liệu lưu trữ của các ấn phẩm.

import pandas as pd# Reading the data obtained using code here.
avd = pd.read_csv['analytics_vidhya_data.csv']
tds = pd.read_csv['medium_articles.csv']
tai = pd.read_csv['towards_ai_data.csv']
avd['source'] = 'avd'
tds['source'] = 'tds'
tai['source'] = 'tai'
# Create single data set, join title and subtitle
single_matrix = pd.concat[[avd, tds, tai]]
single_matrix['title_subtitle'] = [' '.join[[str[i],str[j]]] for i, j in zip[single_matrix['Title'].fillna[''], single_matrix['Subtitle'].fillna['']]]
Articles tập dữ liệu

Chúng tôi đã thêm một cột bổ sung trong bộ dữ liệu có tên ‘Title_SubTitle, đó là sự tham gia của các cột‘ Tiêu đề và SUBTITLE, chúng tôi sẽ chủ yếu sử dụng cột này để có cái nhìn tốt hơn về chủ đề mà bài viết thuộc về. Khá thú vị 39% các bài báo không có phụ đề và tỷ lệ rất nhỏ [0,13%] don lồng có tiêu đề.

Hãy để nhanh chóng nhìn vào các phân phối và phản hồi cho mọi nguồn dữ liệu. Chúng tôi bắt đầu với các lô hộp, chúng tôi sử dụng thư viện Seaborn trong Python để tạo ra âm mưu của chúng tôi.

# We will use seaborn to create all plots
import seaborn as sns
import matplotlib.pyplot as plt
fig, axes = plt.subplots[1, 2, figsize=[8, 5]]
# Claps
sns.boxplot[ax=axes[0], x="source", y="Claps", data=single_matrix]
# Responses
sns.boxplot[ax=axes[1], x="source", y="Responses", data=single_matrix]

Chúng ta có thể thấy rằng đối với khoa học dữ liệu không chỉ có nhiều hoạt động hơn, mà còn khá nhiều ngoại lệ với các bài báo riêng lẻ đạt được rất nhiều sức hấp dẫn từ độc giả. Tất nhiên, hoạt động cho mỗi nguồn phụ thuộc vào quy mô xuất bản, đối với các ấn phẩm lớn hơn mà chúng tôi quan sát nhiều nhà văn và độc giả.

Khi nói đến các phản ứng, chúng tôi quan sát thấy ít hoạt động hơn so với vỗ tay trên tất cả các nguồn, mặc dù hành vi đó không phải là rất bất ngờ.

Các ô hộp cho vỗ tay và phản hồi được chia theo nguồn

Tiếp theo, chúng tôi loại bỏ các ngoại lệ và trực quan hóa các phân phối của các trường để có một bức tranh rõ ràng hơn.

# Code to create distribution subplots
fig, axes = plt.subplots[2, 1, figsize=[8, 8]]
# Claps
sns.distplot[avd['Claps'][avd['Claps']

Bài Viết Liên Quan

Chủ Đề