Khi chúng ta nói về dữ liệu có cấu trúc, Cơ sở dữ liệu là từ xuất hiện đầu tiên trong đầu. Có nhiều loại cơ sở dữ liệu, ở đây chúng ta sẽ xem xét cơ sở dữ liệu NoSQL
Trong vài năm qua, một trong những cách phổ biến nhất để lưu trữ dữ liệu là sử dụng Cơ sở dữ liệu NoSQL. Cơ sở dữ liệu NoSQL AKA “không phải SQL” HOẶC “không chỉ SQL” là những cơ sở dữ liệu lưu trữ dữ liệu ở định dạng không phải dạng bảng khác với cơ sở dữ liệu quan hệ
Hôm nay, chúng ta sẽ làm việc với MongoDB, một sản phẩm được sử dụng rộng rãi cho cơ sở dữ liệu NoSQL và tìm hiểu cách sử dụng dữ liệu bên trong cơ sở dữ liệu MongoDB, cho khoa học dữ liệu. Bạn có thể tìm hiểu thêm về cơ sở dữ liệu NoSQL trên trang web chính thức của MongoDB. Giải thích NoSQL
- điều kiện tiên quyết
- Nhìn vào La bàn MongoDB
- Mô-đun
# Getting the access to local MongoDB databases databases = pymongo.MongoClient[]
2 trong Python - Sẵn sàng cho Khoa học dữ liệu
- MongoDB
- Trước khi làm việc với Cơ sở dữ liệu MongoDB, chúng ta cần cài đặt nó. Đây là hướng dẫn cài đặt chính thức cho môi trường làm việc cá nhân của bạn
- MongoDB La bàn
- Để giải thích đơn giản và dễ dàng hơn trong hướng dẫn này, chúng tôi sẽ sử dụng GUI tương tác chính thức cho cơ sở dữ liệu MongoDB, tôi. e. MongoDB La bàn. Đây là hướng dẫn cài đặt cho nó
- Trăn 3. 7 trở lên
- Đây là liên kết để cài đặt phiên bản Python 3 ổn định mới nhất
- Mô-đun
# Getting the access to local MongoDB databases databases = pymongo.MongoClient[]
2 để làm việc với ứng dụng khách MongoDB trong Python. Cài đặt bằng# Getting the access to local MongoDB databases databases = pymongo.MongoClient[]
1 - Thư viện khoa học dữ liệu theo trường hợp sử dụng cụ thể của bạn, ở đây tôi sẽ chỉ sử dụng Pandas để tạo DataFrame
2. Nhìn vào La bàn MongoDB
Sau khi cài đặt thành công MongoDB Compass [tham khảo liên kết được cung cấp ở bước trên], chúng ta sẽ tìm hiểu sơ qua về giao diện của nó
GHI CHÚ. Nếu bạn đang sử dụng nó lần đầu tiên, bạn có thể không thấy bất kỳ mục nào gần đây
- Kết nối với Cơ sở dữ liệu địa phương của bạn
GHI CHÚ. Quản trị viên, cục bộ và cấu hình là 3 cơ sở dữ liệu sẽ có mặt trong ứng dụng khách MongoDB của bạn theo Mặc định. Chúng tôi sẽ làm việc với cơ sở dữ liệu quản trị cho mục đích trình diễn
- Nhấp vào cơ sở dữ liệu quản trị và mở nó. Rất có thể bạn sẽ không thấy gì trong cơ sở dữ liệu này. Điều này có nghĩa là không có dữ liệu trong cơ sở dữ liệu, vì vậy hãy tạo một bộ sưu tập [một nhóm gồm tất cả các tài liệu/mục nhập trong cơ sở dữ liệu được gọi chung là bộ sưu tập, nó tương tự như các Bảng của Cơ sở dữ liệu quan hệ], sau đó bên trong bộ sưu tập tạo . Các tài liệu]
- Để tạo bộ sưu tập, chúng tôi đang chọn một bộ dữ liệu rất nổi tiếng. Bộ dữ liệu Iris, bạn có thể tải xuống tệp
# Getting the access to local MongoDB databases databases = pymongo.MongoClient[]
2 từ liên kết được cung cấp. Dưới đây là các bước để nhập tập dữ liệu vào cơ sở dữ liệu quản trị MongoDB của chúng tôi [dưới dạng Bộ sưu tập hướng dẫn]
Chọn mống mắt. csv mà bạn đã tải xuống từ bộ dữ liệu ở trên
Ghi chú. Nhớ kiểm tra và thay đổi kiểu dữ liệu của các cột;
Đây là cách bộ sưu tập 'Hướng dẫn' của bạn trông như thế nào sau khi nhập thành công dữ liệu Iris từ. tệp csv
3. Mô-đun Pymongo trong Python
Tuyệt vời. bạn đã thành công với MongoDB trong khi tạo một bộ sưu tập mới trong cơ sở dữ liệu MongoDB. Bây giờ, hãy khám phá cách kết nối dữ liệu MongoDB và Python bằng cách sử dụng
# Getting the access to local MongoDB databases databases = pymongo.MongoClient[]2.
Để cài đặt mô-đun, bạn chỉ cần viết
# Getting the access to local MongoDB databases databases = pymongo.MongoClient[]1 vào thiết bị đầu cuối của mình.
import pymongo
# Getting the access to local MongoDB databases databases = pymongo.MongoClient[]
# Getting the access to `admin` database from the group of other databases present admin_db = databases.admin
# Getting the access to 'Tutorial' collection that we just created inside `admin` database tutorial_collection = admin_db.Tutorial
# Now this is where our imported `iris` data is stored. #To fetch one entry/record/document from the collection we can write: tutorial_collection.find_one[{}]________số 8
Ghi chú. đối tượng con trỏ pymongo có thể lặp lại, vì vậy ở đây chúng tôi đã chuyển đổi nó thành một danh sách để xem qua tất cả các giá trị
list[tutorial_collection.find[{}]]
danh sách tiếp tục cho đến khi có tất cả 150 giá trị của bộ dữ liệu mống mắt
4. Sẵn sàng cho Khoa học dữ liệu
Chúng tôi đang ở giai đoạn cuối cùng sẽ tham gia hướng dẫn này để tiếp tục đi xuống các nhiệm vụ phân tích/khoa học dữ liệu
Chúng tôi cần tạo DataFrame bằng gấu trúc cho Bộ sưu tập hướng dẫn MongoDB của chúng tôi. Hãy xem cách chúng tôi có thể làm điều đó trong sổ ghi chép Jupyter để có khả năng tương tác tốt hơn
# Getting the access to local MongoDB databases databases = pymongo.MongoClient[]0
Nếu bạn không muốn một số cột, bạn có thể làm sạch chúng theo 2 cách
- Đầu tiên là trước khi truy xuất dữ liệu từ cơ sở dữ liệu sang mã python bằng cách sử dụng các đường ống tổng hợp MongoDB [Nằm ngoài phạm vi của hướng dẫn],
- Thứ hai là làm sạch dữ liệu sau khi tạo DataFrame của dữ liệu
# Getting the access to local MongoDB databases databases = pymongo.MongoClient[]1
Bạn đã đến phần cuối của hướng dẫn này. Bây giờ, tiếp tục xuống dòng, bạn có thể viết mã giống như bất kỳ tác vụ phân tích/khoa học dữ liệu nào khác. Từ thời điểm này trở đi, bạn có thể linh hoạt tùy ý với các kỹ năng khoa học dữ liệu của mình
thông tin thêm
MongoDB cung cấp chức năng của các quy trình tổng hợp [đã đề cập một lần ở trên] để lọc, xử lý trước và nói chung là tạo các quy trình dữ liệu dành riêng cho từng trường hợp sử dụng. Với logic phù hợp và được xây dựng, chúng có thể thực sự mạnh mẽ để truy xuất dữ liệu được tinh chỉnh và bổ sung từ đầu ra của đường ống đó. Nó nhanh hơn nhiều lần về mặt tính toán so với việc đạt được kết quả tương tự trong python hoặc bất kỳ ngôn ngữ có thể hiểu được nào sau khi tạo DataFrame
Gargeya Sharma
B. Kỹ thuật Khoa học máy tính [năm thứ 3]
Chuyên ngành Khoa học dữ liệu và Học sâu
Thực tập sinh khoa học dữ liệu tại Upswing Cognitive Hospitality Solutions
.
LinkedIn GitHub
Phương tiện hiển thị trong bài viết này không thuộc sở hữu của Analytics Vidhya và được sử dụng theo quyết định của Tác giả.