Phân tích dữ liệu với các dự án Python

Các dự án phân tích dữ liệu giới thiệu quy trình phân tích, từ tìm nguồn dữ liệu đến làm sạch và xử lý dữ liệu. Nếu bạn đang tìm kiếm công việc phân tích dữ liệu đầu tiên của mình, các dự án sẽ cho phép bạn tích lũy kinh nghiệm bằng cách sử dụng các công cụ và kỹ thuật phân tích dữ liệu khác nhau. Các dự án tốt nhất trả lời các câu hỏi bất ngờ và khám phá các mối quan hệ không trực quan ngay lập tức. Trong bài đăng này, chúng tôi sẽ cho bạn biết cách tạo các dự án phân tích dữ liệu giúp bạn được tuyển dụng ngay lập tức.  

Điểm của một dự án phân tích dữ liệu là gì?

Thực hiện các dự án phân tích dữ liệu là rất quan trọng để tìm được việc làm, vì chúng cho người quản lý tuyển dụng thấy rằng bạn có các kỹ năng cho vai trò này. Các chuyên gia trong lĩnh vực này phải thành thạo vô số kỹ năng, từ làm sạch dữ liệu và trực quan hóa dữ liệu, cũng như các ngôn ngữ lập trình như SQL, R và Python. Một dự án phân tích dữ liệu có thể chứng minh năng khiếu của bạn với tất cả các kỹ năng này. Hơn nữa, các dự án cá nhân là một cách tuyệt vời để thực hành nhiều kỹ thuật phân tích dữ liệu, đặc biệt nếu bạn thiếu kinh nghiệm thực tế

Dự án phân tích dữ liệu cho người mới bắt đầu

Dự án là một cách tuyệt vời để tích lũy kinh nghiệm với quy trình phân tích dữ liệu từ đầu đến cuối, đặc biệt nếu bạn là người mới trong lĩnh vực phân tích dữ liệu. Dưới đây là một số ý tưởng dự án tuyệt vời cho người mới bắt đầu

Rút trích nội dung trang web

Quét web là trích xuất dữ liệu — chẳng hạn như hình ảnh, đánh giá của người dùng hoặc mô tả sản phẩm — từ các trang web. Thông tin này trước tiên được thu thập, sau đó được định dạng. Quét web có thể được thực hiện bằng cách viết các tập lệnh tùy chỉnh bằng Python hoặc bằng cách sử dụng API hoặc công cụ quét web như ParseHub. Dưới đây là hai cách phổ biến để thực hành quét web.  

reddit

Reddit là một kho lưu trữ phổ biến để tìm kiếm trên web vì lượng dữ liệu khổng lồ có sẵn— từ dữ liệu định tính trong các bài đăng và nhận xét đến siêu dữ liệu của người dùng và mức độ tương tác với mỗi bài đăng

Subreddits trên Twitter cho phép bạn trích xuất các bài đăng về các chủ đề cụ thể. PRAW là gói Python mà bạn có thể sử dụng để truy cập API của Reddit nhằm thu thập các subreddits mà bạn quan tâm [cần có tài khoản Reddit để nhận khóa API]. Sau đó, bạn có thể trích xuất dữ liệu từ một hoặc nhiều subreddits cùng một lúc. Nếu bạn không muốn cạo dữ liệu của riêng mình, bạn có thể tìm thấy bộ dữ liệu Reddit trên dữ liệu. thế giới

Địa ốc

Nếu quan tâm đến bất động sản, bạn có thể sử dụng Python để thu thập dữ liệu về các thuộc tính bất động sản, sau đó tạo bảng điều khiển để phân tích các thuộc tính “tốt nhất” dựa trên các điểm dữ liệu như thuế bất động sản, dân số, trường học và phương tiện giao thông công cộng. Có hai thư viện Python chính để thu thập dữ liệu. Phế Liệu và ĐẹpSúp. Bạn cũng có thể sử dụng API Zillow để lấy dữ liệu về bất động sản và thế chấp.  

Phân tích dữ liệu khám phá

Một dự án tuyệt vời khác dành cho người mới bắt đầu là thực hiện phân tích dữ liệu khám phá [EDA], đó là thăm dò một tập dữ liệu để tóm tắt các đặc điểm chính của nó. EDA giúp xác định kỹ thuật thống kê nào phù hợp với một tập dữ liệu nhất định. Dưới đây là một số dự án mà bạn có thể làm việc trên mảng EDA của mình.  

Thành phần dinh dưỡng của McDonald

Các mặt hàng thực phẩm của McDonald thường gây tranh cãi vì hàm lượng chất béo và natri cao. Sử dụng bộ dữ liệu này từ Kaggle, bạn có thể thực hiện phân tích dinh dưỡng của mọi món trong thực đơn, bao gồm salad, đồ uống và món tráng miệng. Đầu tiên, nhập tệp CSV bằng Python. Sau đó, phân loại các mặt hàng theo các yếu tố như hàm lượng đường và chất xơ. Sau đó, bạn có thể lập mô hình kết quả bằng biểu đồ thanh và tròn, biểu đồ phân tán và bản đồ nhiệt. Đối với dự án này, bạn sẽ cần các thư viện Numpy, Pandas và Seaborn

Báo cáo Hạnh phúc Thế giới

Báo cáo Hạnh phúc Thế giới khảo sát mức độ hạnh phúc trên toàn cầu. Dự án này của một sinh viên tại Đại học Bang Pennsylvania, sử dụng SQLite, một công cụ cơ sở dữ liệu phổ biến, để phân tích sự khác biệt về mức độ hạnh phúc giữa bán cầu Bắc và Nam

Tỷ lệ tự tử toàn cầu

Mặc dù có vô số bộ dữ liệu liên quan đến tỷ lệ tự sát, bộ dữ liệu này do Siddarth Sudhakar tạo ra chứa dữ liệu từ Chương trình Phát triển Liên hợp quốc, Ngân hàng Thế giới, Kaggle và Tổ chức Y tế Thế giới. Nhập dữ liệu vào Python và sử dụng thư viện Pandas để khám phá dữ liệu. Từ đó, bạn có thể tóm tắt các tính năng dữ liệu. Ví dụ: bạn có thể phát hiện ra mối quan hệ giữa tỷ lệ tự tử và GDP bình quân đầu người.  

Trực quan hóa dữ liệu

Hình ảnh hóa truyền đạt xu hướng, ngoại lệ và mẫu trong dữ liệu của bạn. Vì vậy, nếu bạn là người mới trong lĩnh vực này và đang tìm kiếm một dự án phân tích dữ liệu, thì việc tạo trực quan hóa là một nơi tuyệt vời để bắt đầu. Chọn biểu đồ lý tưởng cho câu chuyện bạn đang cố gắng kể. Biểu đồ thanh và biểu đồ đường minh họa ngắn gọn các thay đổi theo thời gian, trong khi biểu đồ tròn mô hình hóa các so sánh từng phần với toàn bộ. Trong khi đó, biểu đồ thanh và biểu đồ hiển thị phân phối dữ liệu. Dưới đây là một số dự án trực quan hóa dữ liệu tuyệt vời cho người mới bắt đầu

Ô nhiễm ở Hoa Kỳ

Cơ quan Bảo vệ Môi trường công bố dữ liệu hàng năm về xu hướng chất lượng không khí. Bộ dữ liệu này từ Kaggle có dữ liệu ô nhiễm EPA từ năm 2000–2016 trong một tệp CSV. Bạn có thể trực quan hóa dữ liệu này bằng thư viện Python Seaborn hoặc gói OpenAir trong R. Ví dụ: bạn có thể lập mô hình thay đổi nồng độ khí thải theo thời gian, ngày trong tuần hoặc tháng. Bạn cũng có thể sử dụng bản đồ nhiệt để tìm thời điểm ô nhiễm nhất trong năm ở một khu vực nhất định

Trực quan hóa lịch sử

Trực quan hóa dữ liệu là một cách tuyệt vời để minh họa các sự kiện lịch sử, chẳng hạn như sự lan rộng của báo in hoặc xu hướng sản xuất và tiêu thụ cà phê. Hình ảnh trực quan này của Trường Kinh doanh Harvard mô tả các công ty lớn nhất của Hoa Kỳ vào năm 1955. Một phân tích thứ hai vào năm 2015 cho thấy có bao nhiêu thay đổi. Ngoài ra còn có rất nhiều bộ dữ liệu có sẵn về Thế chiến II. Bộ dữ liệu Kaggle này có dữ liệu về điều kiện thời tiết trong chiến tranh, điều này có ảnh hưởng lớn đến sự thành công của một cuộc xâm lược.  

Trực quan thiên văn

Kính viễn vọng và vệ tinh hiện đại tạo ra hình ảnh kỹ thuật số hoàn hảo để hiển thị dữ liệu. Tập dữ liệu này từ dữ liệu. thế giới cho thấy các tiểu hành tinh trong tương lai sẵn sàng đi qua gần Trái đất trong vòng 12 tháng tới, cũng như những tiểu hành tinh đã tiếp cận gần trong vòng 12 tháng qua. Bạn có thể xem trực quan hóa trực tiếp dựa trên tập dữ liệu tại đây để truyền cảm hứng cho phân tích của riêng bạn. Bạn cũng có thể sử dụng tài nguyên này để tìm các lớp quỹ đạo tiểu hành tinh cho từng điểm dữ liệu [ví dụ:. tiểu hành tinh, apollo, nhân mã].  

Trực quan hóa Instagram

Dự án này trên KDNuggets sử dụng sổ ghi chép Jupyter và IPython để phân tích dữ liệu Instagram. Python thông thường hoạt động tốt, nhưng bạn có thể không hiển thị được hình ảnh trong sổ ghi chép của mình. Bạn có thể sử dụng dữ liệu Instagram để so sánh mức độ nổi tiếng của hai ứng cử viên chính trị, chẳng hạn như dự án này hoặc thực hiện phân tích chuỗi thời gian về mức độ nổi tiếng của một nhân vật của công chúng trước và sau một sự kiện lớn.  

Phân tích tình cảm

Phân tích tình cảm [AKA “khai thác ý kiến”] đòi hỏi phải sử dụng xử lý ngôn ngữ tự nhiên [NLP] để xác định cách mọi người cảm nhận về một sản phẩm, nhân vật của công chúng hoặc đảng chính trị, chẳng hạn. Mỗi đầu vào được chỉ định một điểm số tình cảm, phân loại nó là tích cực, tiêu cực hoặc trung lập. Bạn chắc chắn sẽ muốn trau dồi kỹ năng này để có được một công việc trong lĩnh vực phân tích dữ liệu. Dưới đây là một số dự án tuyệt vời để thêm vào danh mục đầu tư của bạn

Phân tích tình cảm trên Twitter

Các bài đăng trên phương tiện truyền thông xã hội có thể được phân loại theo các từ khóa phân cực hoặc cảm xúc cụ thể. Bộ xử lý Apache NiFi GetTwitter nhận các tweet theo thời gian thực và nhập chúng vào hàng đợi nhắn tin để bạn có thể nhận các bài đăng về một chủ đề thịnh hành hoặc thẻ bắt đầu bằng #. Ngoài ra, hãy sử dụng Điểm cuối tìm kiếm gần đây của Twitter. Khi bạn đã tạo tập dữ liệu của mình, bạn có thể xác định điểm số cảm tính bằng cách sử dụng Dịch vụ nhận thức phân tích văn bản của Microsoft Azure, xác định các cụm từ và thực thể chính như con người, địa điểm và tổ chức.  

Đánh giá của khán giả trên Google

Các bài đánh giá của Google là một nguồn tài nguyên tuyệt vời cho phản hồi của khách hàng và cũng tạo nên một dự án phân tích dữ liệu tuyệt vời. API Google Doanh nghiệp của tôi cho phép bạn trích xuất các bài đánh giá và làm việc với dữ liệu vị trí. Trên Medium, người đam mê dữ liệu Nikita Bhole đã sử dụng Python để thực hiện phân tích cảm tính đối với các bài đánh giá của người dùng từ Cửa hàng Google Play. Sau đó, cô ấy đã sử dụng hồ sơ Pandas để thực hiện phân tích dữ liệu khám phá để tìm các biến, tương tác, tương quan và giá trị còn thiếu. Tiếp theo, cô ấy đã sử dụng TextBlob để tính điểm tình cảm dựa trên sự phân cực và tính chủ quan của tình cảm.  

Ghép câu hỏi Quora

Quora là một trong những trang web hỏi đáp phổ biến nhất trên thế giới, khiến nó trở nên chín muồi để phân tích dữ liệu. Trong một thử thách Kaggle gần đây, người dùng được giao nhiệm vụ sử dụng NLP nâng cao để phân loại các cặp câu hỏi trùng lặp. Ví dụ: các truy vấn "Tiểu bang đông dân nhất ở Hoa Kỳ là gì?" . Tập dữ liệu này từ Quora chứa hơn 400.000 dòng câu hỏi trùng lặp tiềm năng. Mỗi dòng chứa ID cho mỗi câu hỏi trong cặp, toàn văn cho mỗi câu hỏi và giá trị nhị phân cho biết liệu dòng có chứa một cặp trùng lặp hay không. Trong dự án này do một nhóm sinh viên NYU thực hiện, một mô hình tuyến tính cơ bản được gọi là n-gram đã được sử dụng để xây dựng một tập hợp các tính năng được sử dụng trong mô hình hiểu ngôn ngữ tự nhiên [NLU]. Sau đó, họ đã sử dụng mô-đun triển khai Máy vectơ hỗ trợ [SVM] của scikit cho các thử nghiệm của họ với tính năng nhúng từ.  

Dọn dẹp dữ liệu

Làm sạch dữ liệu là quá trình sửa hoặc xóa dữ liệu không chính xác, bị hỏng, trùng lặp hoặc không đầy đủ trong tập dữ liệu. Dữ liệu lộn xộn dẫn đến kết quả không đáng tin cậy. Làm sạch dữ liệu là một phần thiết yếu của phân tích dữ liệu và thể hiện kỹ năng làm sạch dữ liệu của bạn là chìa khóa để có được một công việc. Dưới đây là một số dự án để kiểm tra kỹ năng làm sạch dữ liệu của bạn.  

Dữ liệu mở Airbnb [New York]

API mở của Airbnb cho phép bạn trích xuất dữ liệu về thời gian lưu trú trên Airbnb từ trang web của công ty. Ngoài ra, bạn có thể sử dụng bộ dữ liệu Kaggle hiện có này cho các lần lưu trú trên Airbnb tại Thành phố New York vào năm 2019. Cả hai tệp dữ liệu đều bao gồm tất cả thông tin cần thiết để tìm hiểu thêm về máy chủ lưu trữ và tính khả dụng về mặt địa lý, cả hai đều là số liệu cần thiết để đưa ra dự đoán và đưa ra kết luận

Thống kê video trên YouTube

Các video xu hướng hàng đầu trên YouTube cung cấp một cửa sổ lưu động về chủ nghĩa tư tưởng văn hóa hiện tại. Bộ dữ liệu này từ Kaggle chứa dữ liệu trong vài tháng về các video YouTube thịnh hành hàng ngày từ các quốc gia khác nhau. Điều này bao gồm tiêu đề video, tiêu đề kênh, thời gian xuất bản, thẻ, lượt xem, lượt thích và không thích, mô tả và số lượng nhận xét. Sau khi được làm sạch, bạn có thể sử dụng dữ liệu này cho

  • phân tích tình cảm
  • Phân loại video YouTube dựa trên nhận xét và số liệu thống kê của họ
  • Phân tích những yếu tố ảnh hưởng đến mức độ phổ biến của một video trên YouTube
  • Phân tích thống kê theo thời gian

thống kê giáo dục

Dự án này, từ cuốn sách Data Science in Education Using R, phân tích từ Trang web của Bộ Giáo dục Hoa Kỳ để khám phá dữ liệu liên bang về học sinh khuyết tật. Bạn có thể chuẩn bị dữ liệu để phân tích bằng cách làm sạch tên biến. Sau đó, bạn có thể khám phá tập dữ liệu bằng cách trực quan hóa nhân khẩu học của sinh viên.  

Dự án phân tích dữ liệu trung gian

Nếu bạn đang ở trình độ trung cấp và muốn thăng tiến trong sự nghiệp phân tích dữ liệu của mình, bạn sẽ muốn cải thiện kỹ năng khai thác dữ liệu, khoa học dữ liệu, thu thập dữ liệu, làm sạch dữ liệu và trực quan hóa dữ liệu. Dưới đây là một số dự án tuyệt vời để thêm vào danh mục đầu tư của bạn

Khai thác dữ liệu và khoa học dữ liệu

Khai thác dữ liệu là quá trình biến dữ liệu thô thành thông tin hữu ích. Dưới đây là một số dự án khai thác dữ liệu mà bạn có thể thực hiện để thăng tiến trong sự nghiệp của mình với tư cách là nhà phân tích dữ liệu

Nhận dạng giọng nói

Các chương trình nhận dạng giọng nói xác định các từ được nói và chuyển đổi chúng thành văn bản. Để thực hiện việc này trong Python, hãy cài đặt gói nhận dạng giọng nói như Apiai, SpeechRecognition hoặc Watson-developer-cloud. Dự án này, được gọi là DeepSpeech, là một công cụ chuyển lời nói thành văn bản mã nguồn mở sử dụng TensorFlow của Google.  

Hệ thống khuyến nghị Anime

Mặc dù các công cụ đề xuất phát trực tuyến rất hữu ích, nhưng tại sao không xây dựng một công cụ đề xuất cho một thể loại thích hợp? . Bạn có thể phân loại các chương trình tương tự dựa trên đánh giá, ký tự và tóm tắt để xây dựng các thuật toán đề xuất khác nhau.  

Chatbot

Chatbot sử dụng tính năng nhận dạng giọng nói để hiểu văn bản nhập [tin nhắn trò chuyện] và tạo phản hồi. Bạn có thể xây dựng một chatbot bằng thư viện Bộ công cụ ngôn ngữ tự nhiên [NLTK] trong Python. Chatterbot là một công cụ hộp thoại học máy mã nguồn mở trên Github cho phép mọi người đóng góp hộp thoại. Mỗi khi người dùng nhập một câu lệnh, thư viện sẽ lưu văn bản họ đã nhập. Khi Chatterbot nhận được nhiều thông tin đầu vào hơn, nó sẽ học cách cung cấp các phản hồi đa dạng hơn với độ chính xác ngày càng cao.  

Thu thập, làm sạch và trực quan hóa dữ liệu

Thu thập dữ liệu là quá trình thu thập, đo lường và phân tích dữ liệu từ nhiều nguồn khác nhau để trả lời các câu hỏi, giải quyết các vấn đề kinh doanh và điều tra các giả thuyết. Một dự án phân tích dữ liệu hiệu quả thể hiện sự thành thạo trong tất cả các giai đoạn của quy trình phân tích dữ liệu, từ xác định nguồn dữ liệu đến trực quan hóa dữ liệu. Đây là một dự án để nâng cao kỹ năng thu thập, làm sạch và trực quan hóa dữ liệu của bạn.  

Phân tích tập luyện của Apple Watch

Apple Watch thu thập các loại dữ liệu tập luyện khác nhau, bao gồm tổng lượng calo đã đốt cháy, khoảng cách [đối với đi bộ và chạy], nhịp tim trung bình và tốc độ trung bình. Sử dụng dữ liệu đã xử lý, bạn có thể tạo trực quan hóa, chẳng hạn như số bước trung bình luân phiên hoặc số bước theo ngày trong tuần, như đã thấy trong dự án này của kỹ sư toàn diện Mark Koester

Làm quen với các sinh viên phân tích dữ liệu khác

Sarah man rợ

Nhà phân tích dữ liệu nội dung tại EdX

Đọc truyện

Rahil Jetly

Giám đốc điều hành kinh doanh tại Springboard

Đọc truyện

Sarah Ganihar

Nhà phân tích nghiệp vụ thông minh tại Amazon Web Services

Đọc truyện

Dự án phân tích dữ liệu nâng cao

Sẵn sàng cho một vị trí phân tích dữ liệu cấp cao hơn?

Học máy

Học máy cho phép máy tính liên tục đưa ra dự đoán dựa trên dữ liệu có sẵn mà không được lập trình rõ ràng để làm như vậy. Các thuật toán này sử dụng dữ liệu lịch sử làm đầu vào để dự đoán các giá trị đầu ra mới. Dưới đây là một số dự án máy học phổ biến mà bạn có thể thử

Phát hiện gian lận

Máy học sử dụng các mô hình phát hiện gian lận liên tục học cách phát hiện các mối đe dọa mới. Dự án phát hiện gian lận thẻ tín dụng này sử dụng Amazon SageMaker để đào tạo các mô hình máy học được giám sát và không được giám sát, sau đó được triển khai bằng cách sử dụng các điểm cuối do Amazon SageMaker quản lý.  

Hệ thống đề xuất phim

Công cụ đề xuất sử dụng dữ liệu từ sở thích của người dùng và lịch sử duyệt web. Để tạo bộ đề xuất phim, bạn có thể sử dụng bộ dữ liệu này từ MovieLens, chứa 105.339 xếp hạng được áp dụng cho hơn 103.000 phim. Thực hiện theo từng bước chi tiết hơn tại đây.  

Dự đoán chất lượng rượu vang

Người phân loại rượu đưa ra các khuyến nghị dựa trên chất lượng hóa học của rượu, chẳng hạn như mật độ hoặc độ axit. Dự án này trên Kaggle sử dụng ba mô hình phân loại sau để dự đoán chất lượng rượu vang.  

  1. Trình phân loại rừng ngẫu nhiên
  2. Trình phân loại giảm dần độ dốc ngẫu nhiên
  3. Bộ phân loại vectơ hỗ trợ [SVC]

Pandas cũng là một thư viện hữu ích cho kiểu phân tích dữ liệu này, trong khi Numpy rất tốt để làm việc với mảng. Cuối cùng, bạn có thể sử dụng Seaborn và Matplotlib để trực quan hóa dữ liệu.  

Cá nhân hóa Netflix

Để xây dựng công cụ đề xuất lấy cảm hứng từ Netflix, hãy tạo một thuật toán sử dụng tính năng lọc cộng tác dựa trên mặt hàng để thiết lập sự tương đồng giữa các sản phẩm dựa trên xếp hạng của người dùng. Dự án này thiết lập khả năng lọc theo xếp hạng IMDB, thẻ meta, diễn viên, thể loại, ngôn ngữ, năm phát hành, v.v. Để tạo tập dữ liệu của riêng bạn, bạn có thể tải xuống các tập hợp con dữ liệu IMDb có sẵn công khai.  

Xử lý ngôn ngữ tự nhiên

Xử lý ngôn ngữ tự nhiên [NLP] là một nhánh của AI giúp máy tính diễn giải và thao tác ngôn ngữ tự nhiên dưới dạng văn bản và âm thanh. Hãy thử thêm một số dự án NLP này vào danh mục đầu tư của bạn để đạt được vị trí cấp cao hơn

Bản dịch tin tức

Bạn có thể xây dựng một ứng dụng web dịch tin tức từ ngôn ngữ này sang ngôn ngữ khác bằng Python. Trong dự án này, nhà khoa học dữ liệu Abubakar Abid đã sử dụng Newspaper3k, một thư viện Python cho phép bạn quét hầu hết mọi trang web tin tức. Sau đó, anh ấy sử dụng HuggingFaceTransformers, một mô hình ngôn ngữ tự nhiên tiên tiến nhất, để dịch và tóm tắt các bài báo từ tiếng Anh sang tiếng Ả Rập [bạn có thể chọn ngôn ngữ đích khác nếu muốn]. Cuối cùng, Abid đã triển khai thư viện Gradio để xây dựng bản trình diễn dựa trên web, nơi anh ấy đã thử thuật toán về các chủ đề khác nhau

Tự động điền và Tự động sửa lỗi

Bạn có thể xây dựng một mạng thần kinh trong Python để tự động hoàn thành câu và phát hiện lỗi ngữ pháp. Dự án này trên Github sử dụng mô hình LSTM để tự động hoàn thành mã Python nhằm giảm số lần nhấn phím cần thiết để viết mã. Mô hình được đào tạo sau khi mã hóa mã Python, hiệu quả hơn so với dự đoán cấp độ ký tự bằng mã hóa cặp byte.  

Học kĩ càng

Học sâu liên quan đến các mạng thần kinh bao gồm ba lớp trở lên. Những mạng lưới thần kinh nhân tạo này được lấy cảm hứng từ cấu trúc và chức năng của bộ não con người. Thực hành các kỹ năng học sâu của bạn với các dự án này.  

Phân loại ung thư vú

Phân loại ung thư vú là một vấn đề phân loại nhị phân hoạt động bằng cách phân loại các bức ảnh sinh thiết là lành tính hoặc ác tính. Dự án này sử dụng mạng thần kinh tích chập [CNN] để xác định các tính năng cấp cao trong hình ảnh đầu vào và thực hiện tính toán ma trận để suy ra bản đồ tính năng.  

Phân loại hình ảnh

Các mô hình phân loại hình ảnh có thể được đào tạo để nhận ra các đối tượng hoặc tính năng cụ thể. Bạn có thể tạo một cái bằng CNN trong Keras bằng Python. Dự án này sử dụng bộ dữ liệu CIFAR-10, bộ dữ liệu thị giác máy tính phổ biến bao gồm 60.000 hình ảnh với 10 lớp khác nhau. Bộ dữ liệu đã có sẵn trong mô-đun bộ dữ liệu của Keras, vì vậy bạn có thể nhập trực tiếp nó từ máy ảnh. bộ dữ liệu.  

Phát hiện giới tính và độ tuổi

Một dự án Python nâng cao, mô hình này sử dụng OpenCV và CNN với ba lớp tích chập để đoán giới tính và tuổi của một người trong ảnh bằng bộ dữ liệu Adience.  

Bạn nên tập trung vào những kỹ năng nào với dự án phân tích dữ liệu của mình?

Bất kể cấp độ hay kỹ năng của bạn là gì, các nhà phân tích dữ liệu luôn có thể cải thiện các kỹ năng sau

SQL

SQL chủ yếu được sử dụng để lưu trữ và truy xuất dữ liệu từ cơ sở dữ liệu, viết truy vấn và sửa đổi lược đồ [cấu trúc] của hệ thống cơ sở dữ liệu. Trong dự án phân tích dữ liệu của bạn, hãy đảm bảo sử dụng một số lệnh SQL quan trọng nhất, chẳng hạn như CHỌN, XÓA, TẠO CƠ SỞ DỮ LIỆU, CHÈN VÀO, THAY ĐỔI CƠ SỞ DỮ LIỆU, TẠO BẢNG và TẠO CHỈ MỤC.  

lập trình

Mặc dù các nhà phân tích dữ liệu không cần phải có kỹ năng viết mã nâng cao, nhưng khả năng lập trình bằng R hoặc Python cho phép bạn sử dụng các kỹ thuật khoa học dữ liệu nâng cao hơn như học máy và xử lý ngôn ngữ tự nhiên.  

Kỹ năng làm sạch dữ liệu

Làm sạch dữ liệu là quá trình chuẩn bị dữ liệu để phân tích bằng cách xóa hoặc sửa đổi dữ liệu không đầy đủ, trùng lặp, không chính xác hoặc định dạng không đúng. Sửa lỗi chính tả và cú pháp, chuẩn hóa quy ước đặt tên và sửa lỗi là những kỹ năng chính.  

Hình dung

Là một nhà phân tích dữ liệu, điều quan trọng là phải truyền đạt những phát hiện của bạn bằng hình ảnh mạnh mẽ thu hút cả các bên liên quan kỹ thuật và phi kỹ thuật. Để trực quan hóa dữ liệu của bạn một cách hiệu quả, bạn cần biết các trường hợp sử dụng cụ thể cho từng loại hình ảnh trực quan, từ biểu đồ thanh đến biểu đồ và hơn thế nữa.  

Microsoft Excel

Các nhà phân tích dữ liệu sử dụng Excel và các công cụ bảng tính khác để sắp xếp, lọc và làm sạch dữ liệu của họ. Excel cũng là một công cụ hữu ích để thực hiện các phép tính đơn giản [ví dụ:. SUMIF và AVERAGEIF] hoặc kết hợp dữ liệu bằng VLOOKUP.  

Đọc liên quan. 65 câu hỏi phỏng vấn Excel dành cho nhà phân tích dữ liệu

Làm quen với Machine Learning, AI và Xử lý ngôn ngữ tự nhiên

Các nhà phân tích dữ liệu có kỹ năng học máy cực kỳ có giá trị, mặc dù học máy không phải là kỹ năng được mong đợi đối với hầu hết các công việc của nhà phân tích dữ liệu. Mặc dù phân tích dữ liệu chủ yếu liên quan đến mô hình hóa dữ liệu và thống kê ứng dụng, các thuật toán học máy tiến thêm một bước trong việc thu thập thông tin chi tiết và dự đoán xu hướng trong tương lai.  

Cách trình bày và quảng bá các dự án phân tích dữ liệu của bạn

Danh mục đầu tư phân tích dữ liệu tốt thể hiện khả năng của bạn. Mỗi dự án phải nêu rõ giá trị của sản phẩm dữ liệu hoặc mô hình mà bạn đã xây dựng. Mô tả thách thức kỹ thuật và cách bạn vượt qua nó thành công, bạn đã tận dụng những công cụ nào và tại sao, đồng thời giải thích những phát hiện của bạn bằng hình ảnh được lựa chọn kỹ càng.  

Danh mục đầu tư của bạn phải có một tập hợp các dự án đa dạng, bao gồm các dự án phân tích dữ liệu khám phá, dự án làm sạch dữ liệu, dự án sử dụng SQL và dự án trực quan hóa dữ liệu. Quảng cáo các dự án của bạn bằng cách tải chúng lên Github. Nếu bạn sử dụng Tableau để trực quan hóa dữ liệu, hãy đặt dự án của bạn thành 'Công khai' để các nhà tuyển dụng tiềm năng có thể tìm kiếm trực tuyến dự án đó.  

Câu hỏi thường gặp về dự án phân tích dữ liệu

Bạn có thể bao gồm các dự án của mình trong sơ yếu lý lịch không?

Nếu bạn thiếu kinh nghiệm thực tế, các dự án là một cách tuyệt vời để thể hiện kỹ năng của bạn. Liệt kê từng dự án theo cách bạn sẽ làm với một công việc. Mô tả ngắn gọn phạm vi của dự án, những thách thức kỹ thuật bạn gặp phải và kết quả

Các dự án phân tích dữ liệu mất bao lâu để hoàn thành?

Các dự án có thể mất từ ​​​​một hoặc hai tuần đến vài tháng để hoàn thành. Nó phụ thuộc vào kích thước và độ phức tạp của tập dữ liệu của bạn, thời gian xử lý, mức độ làm sạch dữ liệu được yêu cầu và liệu bạn có quyết định sử dụng máy học và AI hay không.  

Bạn học được gì từ các dự án phân tích dữ liệu?

Các dự án cá nhân mang đến cơ hội trải nghiệm quy trình phân tích dữ liệu từ đầu đến cuối, từ EDA đến trực quan hóa dữ liệu. Các dự án cũng mang đến cho bạn cơ hội tạo bộ dữ liệu của riêng mình, tạo khung cho các báo cáo vấn đề và chọn hình ảnh phù hợp để minh họa cho những phát hiện của bạn.  

Vì bạn đang ở đây…
Quan tâm đến một nghề nghiệp trong phân tích dữ liệu? . Khi bạn thực sự nghiêm túc về việc kiếm một công việc, hãy xem Khóa học giới thiệu về phân tích dữ liệu kéo dài 40 giờ của chúng tôi dành cho những người mới bắt đầu hoàn toàn hoặc Chương trình đào tạo về phân tích dữ liệu do người cố vấn hướng dẫn của chúng tôi—có một đảm bảo việc làm.   

Giới thiệu về Kindra Cooper

Kindra Cooper là người viết nội dung tại Springboard. Cô đã làm việc với tư cách là một nhà báo và nhà tiếp thị nội dung ở Hoa Kỳ và Indonesia, bao gồm mọi thứ từ kinh doanh và kiến ​​trúc đến chính trị và nghệ thuật

Tải xuống hướng dẫn lương phân tích dữ liệu năm 2022 của chúng tôi

Xem xét kỹ hơn các yếu tố ảnh hưởng đến bồi thường trong phân tích dữ liệu. Dẫn đầu đối thủ với các mẹo và thủ thuật phỏng vấn xin việc, cùng với lời khuyên về cách giành được vai trò hoàn hảo

Một số dự án phân tích dữ liệu tốt là gì?

Trực quan hóa dữ liệu. hiển thị dữ liệu bằng cách sử dụng sơ đồ và đồ thị. .
Dự án nhập và làm sạch dữ liệu. .
Dự án thao tác dữ liệu. .
Dự án trực quan hóa dữ liệu. .
Đồ án Xác suất & Thống kê. .
Dự án Phân tích Dữ liệu Khám phá [EDA]. .
Dự án phân tích dự đoán. .
Giảm tỷ lệ tử vong giao thông ở Hoa Kỳ

Làm thế nào chúng ta có thể sử dụng Python trong phân tích dữ liệu?

Phân tích dữ liệu bằng Thư viện Python, NumPy .
Tạo một mảng NumPy
Truy cập và thao tác với các phần tử trong mảng
Tạo mảng 2 chiều và kiểm tra hình dạng của mảng
Truy cập các phần tử từ mảng 2D bằng các vị trí chỉ mục

Các dự án tốt cho Python là gì?

Ý tưởng dự án Python. Cấp độ mới bắt đầu .
Tạo trình tạo mã. .
Xây dựng một máy tính đếm ngược. .
Viết phương pháp sắp xếp. .
Xây dựng một bài kiểm tra tương tác. .
Tic-Tac-Toe bằng văn bản. .
Tạo bộ chuyển đổi nhiệt độ/đo lường. .
Xây dựng một ứng dụng truy cập. .
Xây dựng trò chơi đoán số

Các chủ đề phân tích dữ liệu Python là gì?

Bạn sẽ làm việc với một số thư viện Python nguồn mở, bao gồm Pandas và Numpy để tải, thao tác, phân tích và trực quan hóa các bộ dữ liệu thú vị . Bạn cũng sẽ làm việc với scipy và scikit-learning để xây dựng các mô hình học máy và đưa ra dự đoán.

Chủ Đề