Bạn có thể sử dụng Python để nghiên cứu không?

Các học giả và các nhà nghiên cứu khác phải lựa chọn từ nhiều kỹ năng nghiên cứu khác nhau. Hầu hết các nhà khoa học xã hội không thêm lập trình máy tính vào bộ kỹ năng của họ. Là một người ủng hộ mạnh mẽ giá trị của việc học một ngôn ngữ lập trình, tôi sẽ trình bày cách điều này đã chứng minh là hữu ích đối với tôi. Một lập trình viên vừa chớm nở có thể chọn từ một số tùy chọn tốt — bao gồm perl, C ++, Java, PHP hoặc các tùy chọn khác — nhưng Python nổi tiếng là một trong những tùy chọn dễ tiếp cận và trực quan nhất. Tôi rõ ràng thích nó

Bất kể bạn chọn ngôn ngữ nào, có nhiều cách học lập trình sẽ hữu ích cho các nhà khoa học xã hội và các nhà khoa học dữ liệu khác. Các lĩnh vực quan trọng nhất là thu thập dữ liệu, thao tác dữ liệu và trực quan hóa dữ liệu và phân tích

Thu thập dữ liệu

Khi tôi bắt đầu học Python bốn năm trước, tôi đã giữ một danh mục các tập lệnh khác nhau mà tôi đã viết. Xem qua các tập lệnh này, cá nhân tôi đã viết mã Python để thu thập dữ liệu sau

  • Tải xuống thông tin người cho vay và người vay cho hàng nghìn giao dịch quyên góp trên kiva. tổ chức
  • Tải xuống các tweet từ danh sách 100 tổ chức phi lợi nhuận lớn
  • Tải xuống thông tin hồ sơ Twitter từ 150 tổ chức phi lợi nhuận ủng hộ
  • Cạo 'Bức tường' từ tài khoản Facebook của 65 tổ chức
  • Tải xuống @messages được gửi tới 38 tổ chức cộng đồng
  • Tra cứu và tải xuống các tệp html cho hàng nghìn trang web trên trang web của các công ty kế toán lớn
  • Cạo dữ liệu từ 1.000 hồ sơ tổ chức trên trang xếp hạng từ thiện
  • Thu thập dữ liệu từ hàng nghìn tổ chức đang huy động vốn trên trang web gây quỹ cộng đồng  Indiegogo.
  • Tải xuống hàng trăm video YouTube được sử dụng trong các chiến dịch gây quỹ Indiegogo
  • Thu thập dữ liệu có sẵn thông qua API InfoChimps
  • Thu thập dữ liệu ghim và ghim lại từ tài khoản Pinterest của các tổ chức chăm sóc sức khỏe
  • Nhấn vào Facebook Graph API để tải xuống các cập nhật trạng thái và số lượt thích, bình luận và chia sẻ cho 100 tổ chức từ thiện

đây chỉ là một mẫu. Vấn đề là bạn có thể sử dụng một ngôn ngữ lập trình như Python để lấy bất kỳ dữ liệu nào từ Web. Khi trang web hoặc nền tảng truyền thông xã hội cung cấp API (giao diện lập trình ứng dụng), việc truy cập dữ liệu rất dễ dàng. Twitter thật tuyệt vời vì lý do này. Trong các trường hợp khác — bao gồm hầu hết các trang web — bạn sẽ phải thu thập dữ liệu thông qua việc sử dụng lập trình một cách sáng tạo. Dù bằng cách nào, bạn có thể có quyền truy cập vào dữ liệu có giá trị

Không cần phải là một chuyên gia để có được những lợi ích trong thế giới thực từ việc lập trình. Tôi bắt đầu học Python cách đây bốn năm (hiện tại tôi coi mình là một lập trình viên trình độ trung cấp) và đã đạt được những lợi ích đáng kể ngay từ đầu

Thao tác dữ liệu

Các nhà nghiên cứu vừa chớm nở dường như thường đánh giá thấp lượng thời gian họ sẽ dành cho việc thao tác, định hình lại và xử lý dữ liệu của họ. Python vượt trội trong việc trộn dữ liệu. Gần đây tôi đã sử dụng mã Python để

  • Lặp lại hàng trăm nghìn tweet và sửa đổi ký tự, chuyển đổi định dạng ngày, v.v.
  • Xác định và xóa các mục trùng lặp trong cơ sở dữ liệu SQL
  • Lặp lại danh sách bạn bè theo dõi trên Twitter của 74 tổ chức phi lợi nhuận để tạo mạng lưới tình bạn 74 x 74
  • Đọc và viết dữ liệu văn bản và CSV
  • Vô số chức năng nhóm, hợp nhất và tổng hợp
  • Tự động đếm số từ “tiêu cực” trong hàng nghìn lời kêu gọi quyên góp trực tuyến
  • Lặp lại hàng trăm nghìn tweet để tạo danh sách cạnh cho mạng tweet lại
  • Tính toán số lượng từ cho một ma trận tài liệu từ từ hàng nghìn lời kêu gọi huy động vốn từ cộng đồng
  • Tạo các tệp văn bản kết hợp tất cả các tweet của tổ chức để sử dụng trong việc tạo các đám mây từ
  • Tải xuống hình ảnh có trong một tập hợp các tweet
  • Hợp nhất các tệp văn bản
  • Đếm số trạng thái Facebook trên mỗi tổ chức
  • Lặp lại hàng trăm nghìn hàng tweet trong cơ sở dữ liệu SQLite và tạo các biến bổ sung để phân tích trong tương lai
  • Xử lý dữ liệu bị thiếu
  • Tạo biến giả
  • Tìm mục cũ nhất cho mỗi tổ chức trong cơ sở dữ liệu Twitter
  • Sử dụng pandas (Thư viện phân tích dữ liệu Python) để tổng hợp dữ liệu Twitter ở cấp độ hàng ngày, hàng tuần và hàng tháng
  • Tạo một tệp văn bản chứa tất cả các thẻ bắt đầu bằng # trong cơ sở dữ liệu Twitter

Phân tích và trực quan hóa dữ liệu

Với sự phổ biến của các mô-đun máy tính khoa học như gấu trúc và mô hình thống kê và scikit-learning, khả năng phân tích dữ liệu của Python đã trở nên mạnh mẽ hơn nhiều trong vài năm qua. Với những công cụ như vậy Python giờ đây có thể cạnh tranh trong nhiều lĩnh vực với các chương trình thống kê chuyên dụng như R hoặc Stata, mà tôi thường sử dụng cho hầu hết các phân tích và trực quan hóa dữ liệu của mình. Gần đây, tôi ngày càng làm nhiều công việc này trực tiếp bằng Python. Dưới đây là một số phân tích tôi đã chạy gần đây bằng Python

  • Triển khai  trình phân loại Bayesian ngây thơ để phân loại cảm xúc trong hàng trăm nghìn lượt tweet.
  • Phân tích ngôn ngữ của các lời kêu gọi và tweet quyên góp bằng cách sử dụng Bộ công cụ ngôn ngữ tự nhiên của Python
  • Tạo các lô số lượng tweet, tin nhắn lại và tin nhắn trả lời công khai mỗi ngày, tuần và tháng
  • Chạy thống kê mô tả và hồi quy bội

Bản tóm tắt

Học một ngôn ngữ lập trình là một thách thức. Về điều đó có chút nghi ngờ. Tuy nhiên, phần thưởng trong năng suất được cải thiện một mình có thể là đáng kể. Thêm vào đó là khả năng phân tích và trực quan hóa dữ liệu mạnh mẽ mở ra cho nhà nghiên cứu có kỹ năng về ngôn ngữ lập trình. Cuối cùng, bỏ qua từ thông dụng “Dữ liệu lớn”, lập trình mở ra một thế giới dữ liệu mới được tìm thấy trên các trang web, nền tảng truyền thông xã hội và kho lưu trữ dữ liệu trực tuyến. Do đó, tôi muốn đi xa hơn khi nói rằng bất kỳ nhà nghiên cứu nào quan tâm đến truyền thông xã hội đều đang tự làm hại mình bằng cách không học một số chương trình. Vì lý do này, một trong những mục tiêu của tôi trên trang web này là cung cấp hướng dẫn cho những ai quan tâm đến việc thiết lập và chạy Python để tiến hành nghiên cứu học thuật và truyền thông xã hội

NASA có đang sử dụng Python không?

Đây là cách nó hoạt động. Dữ liệu từ Mạng không gian sâu của NASA cung cấp cho các hệ thống xử lý của Viện Khoa học Kính viễn vọng Không gian bằng Python . “Và đó là nơi mã của tôi xuất hiện,” Mike Swam, trưởng nhóm xử lý dữ liệu từng làm việc trên JWST, cho biết trong một tập của podcast Nói chuyện với Python vào tháng 3 năm 2022.

Tại sao Python tốt cho nghiên cứu?

Python tiết kiệm rất nhiều thời gian vì nó cho phép mọi người dành thời gian nghiên cứu thực tế thay vì phải liên tục đọc qua tài liệu trước khi đi đến mục tiêu thực tế. In other words, you can focus on your main goal, not the tool you use.

Bạn không nên sử dụng Python để làm gì?

Không phù hợp với Phát triển trò chơi và thiết bị di động . Nó không được coi là lý tưởng để phát triển ứng dụng di động và phát triển trò chơi do tiêu tốn nhiều bộ nhớ hơn và tốc độ xử lý chậm so với các ngôn ngữ lập trình khác.

Python có được các nhà khoa học sử dụng không?

Python đã trở thành một yếu tố chính trong khoa học dữ liệu , cho phép các nhà phân tích dữ liệu và các chuyên gia khác sử dụng ngôn ngữ này để tiến hành các phép tính thống kê phức tạp, tạo trực quan hóa dữ liệu, xây dựng các thuật toán học máy, thao tác và .