Mongodb có thể được sử dụng để phân tích dữ liệu không?

Khi chúng ta nói về dữ liệu có cấu trúc, Cơ sở dữ liệu là từ xuất hiện đầu tiên trong đầu. Có nhiều loại cơ sở dữ liệu, ở đây chúng ta sẽ xem xét cơ sở dữ liệu NoSQL

Trong vài năm qua, một trong những cách phổ biến nhất để lưu trữ dữ liệu là sử dụng Cơ sở dữ liệu NoSQL. Cơ sở dữ liệu NoSQL AKA “không phải SQL” HOẶC “không chỉ SQL” là những cơ sở dữ liệu lưu trữ dữ liệu ở định dạng không phải dạng bảng khác với cơ sở dữ liệu quan hệ

Hôm nay, chúng ta sẽ làm việc với MongoDB, một sản phẩm được sử dụng rộng rãi cho cơ sở dữ liệu NoSQL và tìm hiểu cách sử dụng dữ liệu bên trong cơ sở dữ liệu MongoDB, cho khoa học dữ liệu. Bạn có thể tìm hiểu thêm về cơ sở dữ liệu NoSQL trên trang web chính thức của MongoDB. Giải thích NoSQL

  1. điều kiện tiên quyết
  2. Nhìn vào La bàn MongoDB
  3. Mô-đun
    # Getting the access to local MongoDB databases
    databases = pymongo.MongoClient()
    2 trong Python
  4. Sẵn sàng cho Khoa học dữ liệu

  • MongoDB
    • Trước khi làm việc với Cơ sở dữ liệu MongoDB, chúng ta cần cài đặt nó. Đây là hướng dẫn cài đặt chính thức cho môi trường làm việc cá nhân của bạn
  • MongoDB La bàn
    • Để giải thích đơn giản và dễ dàng hơn trong hướng dẫn này, chúng tôi sẽ sử dụng GUI tương tác chính thức cho cơ sở dữ liệu MongoDB, tôi. e. MongoDB La bàn. Đây là hướng dẫn cài đặt cho nó
  • Trăn 3. 7 trở lên
    • Đây là liên kết để cài đặt phiên bản Python 3 ổn định mới nhất
  • Mô-đun
    # Getting the access to local MongoDB databases
    databases = pymongo.MongoClient()
    2 để làm việc với ứng dụng khách MongoDB trong Python. Cài đặt bằng
    # Getting the access to local MongoDB databases
    databases = pymongo.MongoClient()
    1
  • Thư viện khoa học dữ liệu theo trường hợp sử dụng cụ thể của bạn, ở đây tôi sẽ chỉ sử dụng Pandas để tạo DataFrame

2. Nhìn vào La bàn MongoDB

Sau khi cài đặt thành công MongoDB Compass (tham khảo liên kết được cung cấp ở bước trên), chúng ta sẽ tìm hiểu sơ qua về giao diện của nó

Mongodb có thể được sử dụng để phân tích dữ liệu không?

GHI CHÚ. Nếu bạn đang sử dụng nó lần đầu tiên, bạn có thể không thấy bất kỳ mục nào gần đây

  • Kết nối với Cơ sở dữ liệu địa phương của bạn

Mongodb có thể được sử dụng để phân tích dữ liệu không?

Mongodb có thể được sử dụng để phân tích dữ liệu không?

GHI CHÚ. Quản trị viên, cục bộ và cấu hình là 3 cơ sở dữ liệu sẽ có mặt trong ứng dụng khách MongoDB của bạn theo Mặc định. Chúng tôi sẽ làm việc với cơ sở dữ liệu quản trị cho mục đích trình diễn

  • Nhấp vào cơ sở dữ liệu quản trị và mở nó. Rất có thể bạn sẽ không thấy gì trong cơ sở dữ liệu này. Điều này có nghĩa là không có dữ liệu trong cơ sở dữ liệu, vì vậy hãy tạo một bộ sưu tập (một nhóm gồm tất cả các tài liệu/mục nhập trong cơ sở dữ liệu được gọi chung là bộ sưu tập, nó tương tự như các Bảng của Cơ sở dữ liệu quan hệ), sau đó bên trong bộ sưu tập tạo . Các tài liệu)

  • Để tạo bộ sưu tập, chúng tôi đang chọn một bộ dữ liệu rất nổi tiếng. Bộ dữ liệu Iris, bạn có thể tải xuống tệp
    # Getting the access to local MongoDB databases
    databases = pymongo.MongoClient()
    2 từ liên kết được cung cấp. Dưới đây là các bước để nhập tập dữ liệu vào cơ sở dữ liệu quản trị MongoDB của chúng tôi (dưới dạng Bộ sưu tập hướng dẫn)

Mongodb có thể được sử dụng để phân tích dữ liệu không?

Mongodb có thể được sử dụng để phân tích dữ liệu không?

Chọn mống mắt. csv mà bạn đã tải xuống từ bộ dữ liệu ở trên

Mongodb có thể được sử dụng để phân tích dữ liệu không?

Ghi chú. Nhớ kiểm tra và thay đổi kiểu dữ liệu của các cột;

Mongodb có thể được sử dụng để phân tích dữ liệu không?

Đây là cách bộ sưu tập 'Hướng dẫn' của bạn trông như thế nào sau khi nhập thành công dữ liệu Iris từ. tệp csv

Mongodb có thể được sử dụng để phân tích dữ liệu không?

3. Mô-đun Pymongo trong Python

Tuyệt vời. bạn đã thành công với MongoDB trong khi tạo một bộ sưu tập mới trong cơ sở dữ liệu MongoDB. Bây giờ, hãy khám phá cách kết nối dữ liệu MongoDB và Python bằng cách sử dụng

# Getting the access to local MongoDB databases
databases = pymongo.MongoClient()
2.
Để cài đặt mô-đun, bạn chỉ cần viết
# Getting the access to local MongoDB databases
databases = pymongo.MongoClient()
1 vào thiết bị đầu cuối của mình.

import pymongo
# Getting the access to local MongoDB databases
databases = pymongo.MongoClient()

# Getting the access to `admin` database from the group of other databases present
admin_db = databases.admin
# Getting the access to 'Tutorial' collection that we just created inside `admin` database
tutorial_collection = admin_db.Tutorial
# Now this is where our imported `iris` data is stored. 
#To fetch one entry/record/document from the collection we can write:
tutorial_collection.find_one({})

________số 8

Ghi chú. đối tượng con trỏ pymongo có thể lặp lại, vì vậy ở đây chúng tôi đã chuyển đổi nó thành một danh sách để xem qua tất cả các giá trị

list(tutorial_collection.find({}))

danh sách tiếp tục cho đến khi có tất cả 150 giá trị của bộ dữ liệu mống mắt

4. Sẵn sàng cho Khoa học dữ liệu

Chúng tôi đang ở giai đoạn cuối cùng sẽ tham gia hướng dẫn này để tiếp tục đi xuống các nhiệm vụ phân tích/khoa học dữ liệu

Chúng tôi cần tạo DataFrame bằng gấu trúc cho Bộ sưu tập hướng dẫn MongoDB của chúng tôi. Hãy xem cách chúng tôi có thể làm điều đó trong sổ ghi chép Jupyter để có khả năng tương tác tốt hơn

# Getting the access to local MongoDB databases
databases = pymongo.MongoClient()
0

Nếu bạn không muốn một số cột, bạn có thể làm sạch chúng theo 2 cách

  1. Đầu tiên là trước khi truy xuất dữ liệu từ cơ sở dữ liệu sang mã python bằng cách sử dụng các đường ống tổng hợp MongoDB (Nằm ngoài phạm vi của hướng dẫn),
  2. Thứ hai là làm sạch dữ liệu sau khi tạo DataFrame của dữ liệu
# Getting the access to local MongoDB databases
databases = pymongo.MongoClient()
1

Bạn đã đến phần cuối của hướng dẫn này. Bây giờ, tiếp tục xuống dòng, bạn có thể viết mã giống như bất kỳ tác vụ phân tích/khoa học dữ liệu nào khác. Từ thời điểm này trở đi, bạn có thể linh hoạt tùy ý với các kỹ năng khoa học dữ liệu của mình

thông tin thêm

MongoDB cung cấp chức năng của các quy trình tổng hợp (đã đề cập một lần ở trên) để lọc, xử lý trước và nói chung là tạo các quy trình dữ liệu dành riêng cho từng trường hợp sử dụng. Với logic phù hợp và được xây dựng, chúng có thể thực sự mạnh mẽ để truy xuất dữ liệu được tinh chỉnh và bổ sung từ đầu ra của đường ống đó. Nó nhanh hơn nhiều lần về mặt tính toán so với việc đạt được kết quả tương tự trong python hoặc bất kỳ ngôn ngữ có thể hiểu được nào sau khi tạo DataFrame

Gargeya Sharma

B. Kỹ thuật Khoa học máy tính (năm thứ 3)
Chuyên ngành Khoa học dữ liệu và Học sâu
Thực tập sinh khoa học dữ liệu tại Upswing Cognitive Hospitality Solutions
.

LinkedIn       GitHub

Phương tiện hiển thị trong bài viết này không thuộc sở hữu của Analytics Vidhya và được sử dụng theo quyết định của Tác giả.  

MongoDB có tốt cho việc phân tích dữ liệu không?

MongoDB cung cấp các công cụ và API giúp họ xây dựng các truy vấn phân tích phức tạp . Cùng với các định dạng lưu trữ và lập chỉ mục được tối ưu hóa cho phân tích, thông tin chi tiết và hành động được phân phối ở độ trễ thấp với tính đồng thời cao.

Làm cách nào để sử dụng MongoDB để phân tích dữ liệu?

Năm cách để chạy Analytics trên MongoDB – Ưu và nhược điểm của chúng .
1 – Truy vấn trực tiếp MongoDB. Cách tiếp cận đầu tiên và trực tiếp nhất là chạy các truy vấn phân tích của bạn trực tiếp với MongoDB. .
2 – Sử dụng Công cụ ảo hóa dữ liệu. .
3 – Sử dụng Kho dữ liệu. .
4 – Sử dụng cơ sở dữ liệu SQL. .
5 – Sử dụng Kho lưu trữ dữ liệu NoSQL được tối ưu hóa cho Analytics

NoSQL có tốt cho việc phân tích dữ liệu không?

Các cơ sở dữ liệu NoSQL như MongoDB mang lại lợi ích vượt trội khi xử lý dữ liệu lớn qua SQL nhờ các yêu cầu lược đồ linh hoạt của chúng . Tuy nhiên, cơ sở dữ liệu SQL thường được hầu hết các nhà quản lý dữ liệu ưa chuộng để phân tích dữ liệu. Đặc biệt là vì hầu hết các công cụ BI (e. g. Looker) sẽ không cho phép bạn truy vấn cơ sở dữ liệu NoSQL.

Bạn không nên sử dụng MongoDB để làm gì?

MongoDB sẽ không phù hợp lắm với các ứng dụng cần. .
Giao dịch đa đối tượng. MongoDB chỉ hỗ trợ các giao dịch ACID cho một tài liệu duy nhất
SQL. SQL nổi tiếng và rất nhiều người biết cách viết các truy vấn rất phức tạp để thực hiện nhiều việc