Bởi Bernd Klein. Sửa đổi lần cuối: 01 tháng 2 năm 2022.Bernd Klein. Last modified: 01 Feb 2022.
Định nghĩa lập trình số
Thuật ngữ "Điện toán số" - a.k.a. Điện toán số hoặc điện toán khoa học - có thể gây hiểu lầm. Người ta có thể nghĩ về nó là "phải làm với các con số" trái ngược với các thuật toán xử lý các văn bản chẳng hạn. Nếu bạn nghĩ về Google và cách nó cung cấp các liên kết đến các trang web cho các yêu cầu tìm kiếm của bạn, bạn có thể nghĩ về thuật toán cơ bản như một văn bản dựa trên văn bản. Tuy nhiên, cốt lõi của công cụ tìm kiếm Google là số. Để thực hiện thuật toán PageRank, Google thực hiện tính toán ma trận lớn nhất thế giới.
Điện toán số xác định một lĩnh vực của khoa học máy tính và toán học liên quan đến các thuật toán về xấp xỉ số của các vấn đề từ phân tích toán học hoặc số, nói cách khác: các thuật toán giải quyết các vấn đề liên quan đến các biến liên tục. Phân tích số được sử dụng để giải quyết các vấn đề khoa học và kỹ thuật.
Khoa học dữ liệu và phân tích dữ liệu
Hướng dẫn này có thể được sử dụng như một khóa học trực tuyến trên Python số vì các nhà khoa học dữ liệu và các nhà phân tích dữ liệu là cần thiết.
Khoa học dữ liệu là một chủ đề liên ngành bao gồm ví dụ thống kê và khoa học máy tính, đặc biệt là các kỹ năng lập trình và giải quyết vấn đề. Khoa học dữ liệu bao gồm tất cả mọi thứ cần thiết để tạo và chuẩn bị dữ liệu, để thao tác, lọc và dữ liệu và để phân tích dữ liệu. Dữ liệu có thể được cấu trúc và không cấu trúc. Chúng tôi cũng có thể nói khoa học dữ liệu bao gồm tất cả các kỹ thuật cần thiết để trích xuất và thu thập thông tin và hiểu biết sâu sắc từ dữ liệu.
Khoa học dữ liệu là một thuật ngữ UMPBRella kết hợp phân tích dữ liệu, thống kê, học máy và các lĩnh vực khoa học liên quan khác để hiểu và phân tích dữ liệu.
Một thuật ngữ khác xảy ra khá thường xuyên trong bối cảnh này là "dữ liệu lớn". Dữ liệu lớn chắc chắn là một trong những từ thông dụng thường được sử dụng nhất trong thế giới tiếp thị liên quan đến phần mềm. Các nhà quản lý tiếp thị đã phát hiện ra rằng việc sử dụng thuật ngữ này có thể tăng doanh số bán sản phẩm của họ, bất kể thực tế là họ có thực sự xử lý dữ liệu lớn hay không. Thuật ngữ này thường được sử dụng theo những cách mờ nhạt.
Dữ liệu lớn là dữ liệu quá lớn và phức tạp, do đó, rất khó cho phần mềm ứng dụng xử lý dữ liệu để đối phó với chúng. Các vấn đề bao gồm thu thập và thu thập dữ liệu, lưu trữ dữ liệu, tìm kiếm dữ liệu, trực quan hóa dữ liệu, truy vấn, v.v.
Các khái niệm sau đây được liên kết với dữ liệu lớn:
- Khối lượng: Số lượng dữ liệu tuyệt đối, cho dù đó sẽ là giga-, tera-, peta- hoặc exabyte
the sheer amount of data, whether it will be giga-, tera-, peta- or exabytes - Vận tốc: Tốc độ đến và xử lý dữ liệu
the speed of arrival and processing of data - Tính xác thực: Sự không chắc chắn hoặc không chính xác của dữ liệu
uncertainty or imprecision of data - Variety: Nhiều nguồn và loại dữ liệu cả có cấu trúc và không cấu trúc
the many sources and types of data both structured and unstructured
Câu hỏi lớn là Python hữu ích như thế nào cho các mục đích này. Nếu chúng ta chỉ sử dụng Python mà không có bất kỳ mô -đun đặc biệt nào, ngôn ngữ này chỉ có thể thực hiện kém trên các nhiệm vụ được đề cập trước đó. Chúng tôi sẽ mô tả các công cụ cần thiết trong chương sau.
Kết nối giữa Python, Numpy, Matplotlib, Scipy và Pandas
Python là một ngôn ngữ có mục đích chung và do đó nó có thể và nó được các quản trị viên hệ thống sử dụng rộng rãi để quản trị hệ điều hành, bởi các trình phát triển web như một công cụ để tạo ra các trang web động và bởi các nhà ngôn ngữ học cho các nhiệm vụ xử lý ngôn ngữ tự nhiên. Là một ngôn ngữ có mục đích chung, tất nhiên Python - mà không sử dụng bất kỳ mô -đun số đặc biệt nào - cũng được sử dụng để giải quyết các vấn đề về số. Cho đến nay rất tốt, nhưng mấu chốt của vấn đề là tốc độ thực hiện.
Python thuần túy mà không có bất kỳ mô -đun số nào không thể được sử dụng cho các tác vụ số MATLAB, R và các ngôn ngữ khác được thiết kế cho. Nếu nói đến việc giải quyết vấn đề tính toán, điều quan trọng nhất là xem xét hiệu suất của các thuật toán, cả về tốc độ và sử dụng dữ liệu. Nếu chúng ta sử dụng python kết hợp với các mô -đun của nó Numpy, Scipy, Matplotlib và Pandas, thì nó thuộc về các ngôn ngữ lập trình số hàng đầu. Nó hiệu quả - nếu không hiệu quả hơn - hơn Matlab hoặc R.
Numpy là một mô-đun cung cấp các cấu trúc dữ liệu cơ bản, thực hiện các mảng và ma trận đa chiều. Bên cạnh đó, mô -đun cung cấp các chức năng cần thiết để tạo và thao tác các cấu trúc dữ liệu này. is a module which provides the basic data structures, implementing multi-dimensional arrays and matrices. Besides that the module supplies the necessary functionalities to create and manipulate these data structures.
Scipy dựa trên đỉnh của Numpy, tức là nó sử dụng các cấu trúc dữ liệu do Numpy cung cấp. Nó mở rộng khả năng của Numpy với các chức năng hữu ích hơn nữa để giảm thiểu, hồi quy, biến đổi Fourier và nhiều chức năng khác. is based on top of Numpy, i.e. it uses the data structures provided by NumPy. It extends the capabilities of NumPy with further useful functions for minimization, regression, Fourier-transformation and many others.
Matplotlib là một thư viện âm mưu cho ngôn ngữ lập trình Python và các mô -đun định hướng bằng số như Numpy và Scipy. Đứa trẻ nhỏ nhất trong gia đình mô -đun này là gấu trúc. is a plotting library for the Python programming language and the numerically oriented modules like NumPy and SciPy. The youngest child in this family of modules is Pandas.
Pandas đang sử dụng tất cả các mô -đun được đề cập trước đó. Nó được xây dựng trên đầu chúng để cung cấp một mô -đun cho ngôn ngữ Python, cũng có khả năng thao tác và phân tích dữ liệu. Trọng tâm đặc biệt của gấu trúc bao gồm cung cấp các cấu trúc và hoạt động dữ liệu để thao tác các bảng số và chuỗi thời gian. Tên được lấy từ thuật ngữ "dữ liệu bảng". Pandas rất phù hợp để làm việc với dữ liệu bảng như được biết đến từ chương trình trải rộng như Excel. is using all of the previously mentioned modules. It's build on top of them to provide a module for the Python language, which is also capable of data manipulation and analysis. The special focus of Pandas consists in offering data structures and operations for manipulating numerical tables and time series. The name is derived from the term "panel data". Pandas is well suited for working with tabular data as it is known from spread sheet programming like Excel.
Đào tạo Python sống
Các khóa học trực tuyến sắp tới
Ghi danh ở đây
Python, một giải pháp thay thế cho MATLAB
Python ngày càng trở thành ngôn ngữ lập trình chính cho các nhà khoa học dữ liệu. Tuy nhiên, vẫn còn nhiều nhà khoa học và kỹ sư trong thế giới khoa học và kỹ thuật sử dụng R và MATLAB để giải quyết các vấn đề phân tích dữ liệu và khoa học dữ liệu của họ. Đó là một câu hỏi gây rắc rối cho rất nhiều người, họ nên chọn ngôn ngữ nào:
Chức năng của R được phát triển với các nhà thống kê trong tâm trí, trong khi Python là một ngôn ngữ đa năng. Tuy nhiên, Python cũng - kết hợp với các mô -đun chuyên dụng của nó, như Numpy, Scipy, Matplotlib, Pandas và SO, - một ngôn ngữ lập trình lý tưởng để giải quyết các vấn đề về số. Hơn nữa, cộng đồng Python lớn hơn rất nhiều và phát triển nhanh hơn so với thế giới từ R.
Nhược điểm chính của MATLAB chống lại Python là các chi phí. Python với Numpy, Scipy, Matplotlib và Pandas hoàn toàn miễn phí, trong khi Matlab có thể rất đắt tiền. "Miễn phí" có nghĩa là cả "miễn phí" như trong "bia miễn phí" và "miễn phí" như trong "tự do"!
Mặc dù Matlab có một số lượng lớn các hộp công cụ bổ sung có sẵn, Python có lợi thế rằng đó là ngôn ngữ lập trình hiện đại và đầy đủ hơn. Python liên tục trở nên mạnh mẽ hơn bởi số lượng mô -đun chuyên dụng đang phát triển nhanh chóng.
Python kết hợp với Numpy, Scipy, Matplotlib và Pandas có thể được sử dụng để thay thế hoàn toàn cho MATLAB.
Đào tạo Python sống
Các khóa học trực tuyến sắp tới
Ghi danh ở đây
Python, một giải pháp thay thế cho MATLAB
Nhược điểm chính của MATLAB chống lại Python là các chi phí. Python với Numpy, Scipy, Matplotlib và Pandas hoàn toàn miễn phí, trong khi Matlab có thể rất đắt tiền. "Miễn phí" có nghĩa là cả "miễn phí" như trong "bia miễn phí" và "miễn phí" như trong "tự do"! | Mặc dù Matlab có một số lượng lớn các hộp công cụ bổ sung có sẵn, Python có lợi thế rằng đó là ngôn ngữ lập trình hiện đại và đầy đủ hơn. Python liên tục trở nên mạnh mẽ hơn bởi số lượng mô -đun chuyên dụng đang phát triển nhanh chóng. |
Python kết hợp với Numpy, Scipy, Matplotlib và Pandas có thể được sử dụng để thay thế hoàn toàn cho MATLAB. | Trong chương này |
Trang | Sự mô tả |
1. Giới thiệu về Numpy | Hướng dẫn Numpy: Numpy được sử dụng để điện toán khoa học với Python. Đây là một giới thiệu cho người mới bắt đầu với các ví dụ. |
2. Tạo mảng numpy | Hướng dẫn Numpy: Tạo các cấu trúc mảng cơ bản và thao tác các mảng. Giới thiệu hình dạng, kích thước và cắt lát. Mảng một chiều và đa chiều. |
3. Các đối tượng dữ liệu vô cùng, DTYPE | Hướng dẫn và giới thiệu về các loại dữ liệu và DTYPE trong Numpy |
4. Hoạt động số trên các mảng Numpy | Sử dụng các toán tử trong Numpy và áp dụng chúng trên các mảng Numpy, so với việc sử dụng các toán tử trong Python 'thuần khiết' |
5. Mảng Numpy: Concatenating, làm phẳng và thêm kích thước | Numpy: Thay đổi kích thước của các mảng với các chức năng newaxis, định hình lại và ravel. Các mảng kết nối |
6. Python, số ngẫu nhiên và xác suất | Python, Numpy và các cách để đối phó với xác suất và tính ngẫu nhiên. Hướng dẫn giới thiệu. |
7. Xác suất có trọng số | Hướng dẫn Python về lựa chọn ngẫu nhiên và mẫu có trọng số. Số liệu bán hàng được tạo ra tổng hợp. Bài tập với các giải pháp. |
8. Dữ liệu kiểm tra tổng hợp với Python | Tạo bài kiểm tra tổng hợp và tìm hiểu các bộ bằng cách sử dụng các chức năng ngẫu nhiên của Python và Numpy |
9. Numpy: Boolean Indexing | Numpy: Boolean mặt nạ mảng |
10. ARITHAGICS MATRIX dưới Numpy và Python | Giới thiệu với các ví dụ về các chế độ ma trận với mô-đun Numpy |
11. Đọc và ghi tệp dữ liệu: Ndarrays | Hướng dẫn về cách đọc và viết từ và vào các tập tin. |
12. Tổng quan về matplotlib | Giới thiệu về matplotlib cho người mới bắt đầu như một phần của hướng dẫn Python hoàn chỉnh. |
13. Định dạng một lô trong matplotlib | Giới thiệu vào matplotlib cho người mới bắt đầu như một phần của hướng dẫn Python hoàn chỉnh. |
14. Phân cấp đối tượng Matplotlib | Giới thiệu trong hệ thống phân cấp của đối tượng Matplotlib. |
15. gai và ve trong matplotlib | Hướng dẫn Matplotlib: Tùy chỉnh các gai và ve |
16. Thêm truyền thuyết và chú thích trong matplotlib | Hướng dẫn Matplotlib: Thêm truyền thuyết và chú thích cho các lô. |
17. Tạo các ô phụ trong matplotlib | Hướng dẫn Matplotlib: Subplots và sáng tạo của họ. |
18. Gridspec trong matplotlib | Hướng dẫn Matplotlib: Giới thiệu về GridSpec và ví dụ |
19. Biểu đồ với matplotlib | Python-Course: Tạo biểu đồ với Python và Matplotlib. |
23. Giới thiệu về gấu trúc | Hướng dẫn với các ví dụ về gấu trúc ở Python |
24. GANDAS DATAFRAME | Hướng dẫn về DataFrame Dữ liệu của gấu trúc |
25. Truy cập và thay đổi giá trị của DataFrames | Hướng dẫn Matplotlib: Thay thế, AT, LỘC để thay đổi giá trị. |
26. Pandas Pivot | Giới thiệu trong chức năng trục pandas |
27. Pandas: Groupby | Hướng dẫn Pandas: Tách, áp dụng và kết hợp với Groupby. |
28. Đọc và ghi dữ liệu bằng gấu trúc | Hướng dẫn với các ví dụ về đọc và ghi dữ liệu bằng gấu trúc |
29. Đối phó với Nan | Đối phó với các giá trị NAN [không phải số] trong Python và Numpy |
30. Binning trong Python và Pandas | Dữ liệu của Binning với các chức năng Python và bằng cách sử dụng các khả năng của Pandas Binning |
31. Lập chỉ mục đa cấp trong gấu trúc | Tiếp tục hướng dẫn của gấu trúc. Giới thiệu chi tiết về lập chỉ mục, đặc biệt là lập chỉ mục đa cấp |
32. Trực quan hóa dữ liệu với gấu trúc | Trực quan với Gandas và Python |
33. Ngày và giờ Python | Python, thời gian và ngày |
34. Chuỗi thời gian ở Pandas và Python | Python, gấu trúc và chuỗi thời gian |
35. Chi phí và thu nhập ví dụ với Gandas và Python | Chi phí, thu nhập và thuế ví dụ với Gandas và Python |
36. Phương pháp thu nhập ròng Ví dụ với Numpy, Matplotlib và Scipy | Ví dụ rộng rãi với Panadas: Tính toán thuế thu nhập ròng |
37. Ước tính các trường hợp corona với Python và Pandas | Ước tính số lượng người bị nhiễm bệnh, số thực, tức là đã biết và chưa biết ở Đức |
38. Kết hợp tuyến tính trong Python | Tính toán các kết hợp tuyến tính cho các tập hợp các thuật ngữ và hằng số hữu hạn trong Python |