Bạn có thể trở thành nhà phân tích dữ liệu với Python không?

Chào mừng. Nếu bạn quan tâm đến thế giới thú vị của khoa học dữ liệu, nhưng không biết bắt đầu từ đâu, Data School sẵn sàng trợ giúp

  • Bước 0. Tìm ra những gì bạn cần học
  • Bước 1. Làm quen với Python
  • Bước 2. Tìm hiểu phân tích dữ liệu, thao tác và trực quan hóa với gấu trúc
  • Bước 3. Học máy học với scikit-learning
  • Bước 4. Hiểu sâu hơn về máy học
  • Bước 5. Không ngừng học tập và rèn luyện
  • Thưởng. Tham gia Data School [miễn phí. ]

Bước 0. Tìm ra những gì bạn cần học

Khoa học dữ liệu có thể là một lĩnh vực áp đảo. Nhiều người sẽ nói với bạn rằng bạn không thể trở thành nhà khoa học dữ liệu cho đến khi bạn nắm vững những điều sau. thống kê, đại số tuyến tính, giải tích, lập trình, cơ sở dữ liệu, điện toán phân tán, học máy, trực quan hóa, thiết kế thử nghiệm, phân cụm, học sâu, xử lý ngôn ngữ tự nhiên, v.v. Điều đó đơn giản là không đúng sự thật

Vì vậy, chính xác khoa học dữ liệu là gì? . Nói chung, quy trình làm việc khoa học dữ liệu trông như thế này

  • Đặt một câu hỏi
  • Thu thập dữ liệu có thể giúp bạn trả lời câu hỏi đó
  • Làm sạch dữ liệu
  • Khám phá, phân tích và trực quan hóa dữ liệu
  • Xây dựng và đánh giá mô hình học máy
  • Thông báo kết quả

Quy trình công việc này không nhất thiết yêu cầu toán học nâng cao, thành thạo deep learning hoặc nhiều kỹ năng khác được liệt kê ở trên. Nhưng nó đòi hỏi kiến ​​thức về ngôn ngữ lập trình và khả năng làm việc với dữ liệu bằng ngôn ngữ đó. Và mặc dù bạn cần thông thạo toán học để trở nên thực sự giỏi về khoa học dữ liệu, nhưng bạn chỉ cần hiểu biết cơ bản về toán học để bắt đầu

Đúng là một ngày nào đó các kỹ năng chuyên môn khác được liệt kê ở trên có thể giúp bạn giải quyết các vấn đề về khoa học dữ liệu. Tuy nhiên, bạn không cần phải thành thạo tất cả những kỹ năng đó để bắt đầu sự nghiệp của mình trong lĩnh vực khoa học dữ liệu. Bạn có thể bắt đầu ngay hôm nay và tôi ở đây để giúp bạn

Bước 1. Làm quen với Python

Python và R đều là những lựa chọn tuyệt vời làm ngôn ngữ lập trình cho khoa học dữ liệu. R có xu hướng phổ biến hơn trong giới học thuật và Python có xu hướng phổ biến hơn trong công nghiệp, nhưng cả hai ngôn ngữ đều có vô số gói hỗ trợ quy trình khoa học dữ liệu. Tôi đã dạy khoa học dữ liệu bằng cả hai ngôn ngữ và thường thích Python hơn. [Đây là lý do tại sao. ]

Bạn không cần phải học cả Python và R để bắt đầu. Thay vào đó, bạn nên tập trung vào việc học một ngôn ngữ và hệ sinh thái các gói khoa học dữ liệu của ngôn ngữ đó. Nếu bạn đã chọn Python [khuyến nghị của tôi], bạn có thể cân nhắc cài đặt bản phân phối Anaconda vì nó đơn giản hóa quy trình cài đặt và quản lý gói trên Windows, OSX và Linux

Bạn cũng không cần phải trở thành chuyên gia Python để chuyển sang bước 2. Thay vào đó, bạn nên tập trung vào việc nắm vững những điều sau. kiểu dữ liệu, cấu trúc dữ liệu, nhập, hàm, câu điều kiện, so sánh, vòng lặp và hiểu. Mọi thứ khác có thể đợi đến sau

Nếu bạn không chắc liệu mình có biết "đủ" Python hay không, hãy xem qua Tài liệu tham khảo nhanh về Python của tôi. Nếu phần lớn tài liệu đó quen thuộc với bạn, bạn có thể chuyển sang bước 2

Nếu bạn đang tìm kiếm một khóa học để giúp bạn học Python, đây là một số gợi ý

  • Python Essentials dành cho nhà khoa học dữ liệu là khóa học thân thiện với người mới bắt đầu mà tôi đã tạo để giúp bạn xây dựng nền tảng vững chắc về Python mà không bị choáng ngợp. Nó bao gồm các bài tập, câu đố và chứng chỉ hoàn thành
  • DataCamp cung cấp một khóa học tương tác ngắn về Python bắt đầu
  • Giới thiệu về Python là một khóa học quan trọng hơn khi bắt đầu học Python giống như một cuốn sách giáo khoa tương tác
  • Lớp học Python của Google là tốt nhất cho những người có một số kinh nghiệm lập trình và bao gồm các video bài giảng và bài tập có thể tải xuống
  • Python dành cho người mới bắt đầu tuyệt đối là một khóa học tập trung vào ứng dụng do Michael Kennedy [người dẫn chương trình podcast "Talk Python To Me"] giảng dạy.

Bước 2. Tìm hiểu phân tích dữ liệu, thao tác và trực quan hóa với gấu trúc

Để làm việc với dữ liệu trong Python, bạn nên học cách sử dụng thư viện pandas

gấu trúc cung cấp cấu trúc dữ liệu hiệu suất cao [được gọi là "Khung dữ liệu"] phù hợp với dữ liệu dạng bảng với các cột thuộc các loại khác nhau, tương tự như bảng tính Excel hoặc bảng SQL. Nó bao gồm các công cụ để đọc và ghi dữ liệu, xử lý dữ liệu bị thiếu, lọc dữ liệu, dọn dẹp dữ liệu lộn xộn, hợp nhất bộ dữ liệu, trực quan hóa dữ liệu, v.v. Tóm lại, học pandas sẽ tăng đáng kể hiệu quả của bạn khi làm việc với dữ liệu

Tuy nhiên, gấu trúc bao gồm một lượng lớn chức năng và [được cho là] ​​cung cấp quá nhiều cách để hoàn thành cùng một nhiệm vụ. Những đặc điểm đó có thể khiến việc tìm hiểu gấu trúc và khám phá các phương pháp hay nhất trở nên khó khăn

Đó là lý do tại sao tôi tạo một loạt video về gấu trúc [36 video] hướng dẫn thư viện gấu trúc từ đầu. Mỗi video trả lời một câu hỏi bằng bộ dữ liệu thực và bộ dữ liệu được đăng trực tuyến để bạn có thể theo dõi tại nhà. [Tôi cũng đã tạo một sổ ghi chép Jupyter được nhận xét tốt bao gồm mã từ mọi video. ]

"Video của bạn cực kỳ hữu ích. Tôi thích việc bạn sử dụng các tập dữ liệu thực tế và thử rất nhiều ứng dụng khác nhau của khái niệm đang được thảo luận thay vì chỉ là những ví dụ quá đơn giản. Nội dung của bạn đã giúp tôi rất nhiều. " - Sean Montague

Nếu bạn đã là người dùng gấu trúc trung cấp, bạn có thể muốn tìm hiểu 25 thủ thuật hàng đầu về gấu trúc của tôi, tìm hiểu về các phương pháp hay nhất với gấu trúc hoặc tham gia khóa học trực tuyến về gấu trúc của tôi

Nếu bạn thích một tài nguyên không phải video để học về gấu trúc, thì đây là những tài nguyên được đề xuất của tôi

Bước 3. Học máy học với scikit-learning

Đối với machine learning trong Python, bạn nên học cách sử dụng thư viện scikit-learn

Xây dựng "mô hình học máy" để dự đoán tương lai hoặc tự động trích xuất thông tin chi tiết từ dữ liệu là một phần hấp dẫn của khoa học dữ liệu. scikit-learning là thư viện phổ biến nhất dành cho máy học bằng Python và vì lý do chính đáng

  • Nó cung cấp một giao diện rõ ràng và nhất quán cho rất nhiều mô hình khác nhau
  • Nó cung cấp nhiều tham số điều chỉnh cho từng kiểu máy, nhưng cũng chọn các giá trị mặc định hợp lý
  • Tài liệu của nó rất đặc biệt và nó giúp bạn hiểu các mô hình cũng như cách sử dụng chúng đúng cách

Tuy nhiên, học máy vẫn là một lĩnh vực rất phức tạp và phát triển nhanh chóng, và scikit-learning có đường cong học tập dốc. Đó là lý do tại sao tôi tạo ra một khóa học scikit-learning miễn phí [4 giờ], khóa học này sẽ giúp bạn nắm bắt thấu đáo cả nguyên tắc cơ bản về máy học và quy trình làm việc với scikit-learning. Bộ truyện không có bất kỳ sự quen thuộc nào với học máy hoặc toán học nâng cao. [Bạn có thể tìm thấy tất cả mã từ khóa học trên GitHub. ]

"Video của bạn hoàn toàn không thể tin được. Tôi vừa hoàn thành khóa học về Machine Learning với Python và tôi có thể nói rằng tôi hiểu mọi thứ nhờ phong cách và kỹ năng giảng dạy tuyệt vời của bạn. " - Guillaume B

Khi bạn đã hoàn thành khóa học, bạn nên cân nhắc đăng ký khóa học tiếp theo của tôi, Xây dựng quy trình làm việc học máy hiệu quả với scikit-learning

Nếu bạn muốn sử dụng tài nguyên không phải video để học scikit-learning, tôi khuyên bạn nên sử dụng Python Machine Learning [Amazon / GitHub] hoặc Giới thiệu về Machine Learning với Python [Amazon / GitHub]

Bước 4. Hiểu sâu hơn về máy học

Học máy là một lĩnh vực phức tạp. Mặc dù scikit-learning cung cấp các công cụ bạn cần để học máy hiệu quả, nhưng nó không trả lời trực tiếp nhiều câu hỏi quan trọng

  • Làm cách nào để biết mô hình máy học nào sẽ hoạt động "tốt nhất" với tập dữ liệu của tôi?
  • Làm cách nào để giải thích kết quả của mô hình của tôi?
  • Làm cách nào để đánh giá liệu mô hình của tôi có thể khái quát hóa thành dữ liệu trong tương lai hay không?
  • Làm cách nào để chọn các tính năng sẽ được đưa vào mô hình của tôi?
  • Và như thế

Nếu bạn muốn trở nên giỏi về học máy, bạn cần có khả năng trả lời những câu hỏi đó, điều này đòi hỏi cả kinh nghiệm và nghiên cứu sâu hơn. Dưới đây là một số tài nguyên để giúp bạn trên con đường đó

  • Khuyến nghị hàng đầu của tôi là đọc Giới thiệu về Học tập Thống kê [PDF / Amazon]. Nó sẽ giúp bạn đạt được cả sự hiểu biết lý thuyết và thực tế về nhiều phương pháp quan trọng để hồi quy và phân loại mà không yêu cầu nền tảng về toán học cao cấp. Các tác giả cũng đã phát hành 15 giờ video chất lượng cao để bổ sung cho cuốn sách
  • Nếu bạn cần xem lại xác suất hoặc thống kê, tôi khuyên bạn nên đọc OpenIntro Statistics [PDF/Amazon]
  • Tôi đã tạo một số hướng dẫn ngắn để giúp bạn về kỹ thuật tính năng và lựa chọn tính năng
  • Tôi đã tạo các bài học để giúp bạn tìm hiểu hồi quy tuyến tính và hồi quy logistic, hai trong số các mô hình máy học phổ biến nhất
  • Mặc dù không gì có thể thay thế sự hiểu biết sâu sắc về nhiều mô hình khác nhau, nhưng tôi đã tạo một biểu đồ so sánh các mô hình học tập có giám sát để có thể dùng làm hướng dẫn tham khảo hữu ích
  • Tôi đã tạo một số hướng dẫn để giúp bạn đánh giá chất lượng mô hình của mình. Hướng dẫn đơn giản về thuật ngữ ma trận nhầm lẫn, đường cong ROC và AUC được giải thích và So sánh các quy trình và số liệu đánh giá

Bước 5. Không ngừng học tập và rèn luyện

Đây là lời khuyên tốt nhất của tôi để cải thiện kỹ năng khoa học dữ liệu của bạn. Tìm "điều" thúc đẩy bạn thực hành những gì bạn đã học và học hỏi thêm, sau đó thực hiện điều đó. Đó có thể là các dự án khoa học dữ liệu cá nhân, các cuộc thi Kaggle, các khóa học trực tuyến, đọc sách, đọc blog, tham dự các buổi họp mặt hoặc hội nghị hoặc điều gì khác

  • Các cuộc thi kaggle là một cách tuyệt vời để thực hành khoa học dữ liệu mà không cần tự mình giải quyết vấn đề. Đừng lo lắng về thứ hạng của bạn, chỉ cần tập trung vào việc học điều gì đó mới với mọi cuộc thi. [Hãy nhớ rằng bạn sẽ không thực hành các phần quan trọng của quy trình khoa học dữ liệu. đặt câu hỏi, thu thập dữ liệu và truyền đạt kết quả. ]
  • Đóng góp cho các dự án nguồn mở sẽ giúp bạn thực hành cộng tác với những người khác. Hướng dẫn từng bước của tôi để đóng góp trên GitHub sẽ hướng dẫn bạn thực hiện quy trình này. [Nếu bạn chưa quen với Git, tôi có một loạt video ngắn sẽ giúp bạn nắm vững những kiến ​​thức cơ bản. ]
  • Nếu bạn tạo các dự án khoa học dữ liệu của riêng mình, bạn nên chia sẻ chúng trên GitHub và bao gồm các bài viết. Điều đó sẽ giúp cho những người khác thấy rằng bạn biết cách thực hiện khoa học dữ liệu có thể tái tạo
  • Nếu bạn thích bản tin email, mục yêu thích của tôi là Data Elixir, Data Science Weekly, Python Weekly và PyCoder's Weekly
  • Nếu bạn muốn thực sự trải nghiệm cộng đồng Python, tôi thực sự khuyên bạn nên tham dự PyCon US. [Ngoài ra còn có các hội nghị PyCon nhỏ hơn ở nơi khác. ] Là một nhà khoa học dữ liệu, bạn cũng nên cân nhắc tham dự hội nghị PyData gần nhất
  • Tôi cũng có một số mẹo khác để luôn cập nhật với tư cách là nhà khoa học dữ liệu

Hành trình khoa học dữ liệu của bạn chỉ mới bắt đầu. Có quá nhiều thứ để học trong lĩnh vực khoa học dữ liệu mà bạn sẽ mất hơn cả đời để thành thạo. chỉ cần nhớ. Bạn không cần phải thành thạo tất cả để bắt đầu sự nghiệp khoa học dữ liệu của mình, bạn chỉ cần bắt đầu

Tham gia Data School [miễn phí. ]

Tên tôi là Kevin Markham và tôi là người sáng lập Trường dữ liệu. Tôi rất vinh dự nếu bạn tham gia cộng đồng Trường dữ liệu bằng cách đăng ký nhận bản tin email

Với tư cách là người đăng ký, bạn sẽ nhận được quyền truy cập ưu tiên vào các khóa học trực tuyến và webcast trực tiếp của tôi, đồng thời bạn sẽ nhận được thông báo về các video và hướng dẫn mới của Data School

Trình độ Python nào là cần thiết cho nhà phân tích dữ liệu?

Tính khả dụng của các gói như NumPy, Pandas, Matplotlib, SciPy, v.v. khiến bất kỳ ai có nền tảng lập trình cơ bản đều đủ điều kiện để xây dựng mô hình máy học. Bây giờ, chúng tôi có thể nói rằng để tạo dựng sự nghiệp trong lĩnh vực khoa học dữ liệu, bạn nên làm quen với các nguyên tắc cơ bản của Python và các thư viện tiêu chuẩn

Python nào là tốt nhất cho nhà phân tích dữ liệu?

Pandas [Phân tích dữ liệu Python] là điều bắt buộc trong vòng đời của khoa học dữ liệu. Đây là thư viện Python phổ biến và được sử dụng rộng rãi nhất cho khoa học dữ liệu, cùng với NumPy trong matplotlib.

Chủ Đề