Nhược điểm của việc sử dụng nhà soạn nhạc là gì?

Nhận thông tin tổng quan về Google Cloud Composer, bao gồm các ưu và nhược điểm, tổng quan về Apache Airflow, điều phối quy trình làm việc và các câu hỏi thường gặp

  • Nhược điểm của việc sử dụng nhà soạn nhạc là gì?

Matt Palmer

Ngày 3 tháng 8 năm 2022 8 phút đọc

Nhược điểm của việc sử dụng nhà soạn nhạc là gì?

Tổng quan về Cloud Composer

Google Cloud Composer là một công cụ điều phối quy trình công việc được quản lý, có thể mở rộng được xây dựng trên Apache Airflow. Cung cấp khả năng tích hợp đầu cuối với các sản phẩm Google Cloud, Cloud Composer là ứng cử viên cho những sản phẩm đã có trên nền tảng của Google hoặc đang tìm kiếm một công cụ kết hợp/đa đám mây để điều phối quy trình làm việc của họ

Nhược điểm của việc sử dụng nhà soạn nhạc là gì?

Các tính năng chính của Cloud Composer

  • Đa đám mây. Mặc dù ưu điểm lớn nhất của Cloud Composer là khả năng tích hợp chặt chẽ với Google Cloud Platform (GCP), nhưng nó vẫn duy trì chức năng kết hợp để điều phối quy trình công việc giữa các nhà cung cấp đám mây hoặc máy chủ tại chỗ
  • Mã nguồn mở. Vì Cloud Composer được xây dựng trên Apache Airflow nên chức năng cơ bản là nguồn mở, cho phép người dùng không bị khóa và tính di động
  • tích hợp. Cloud Composer đi kèm với tích hợp sẵn cho BigQuery, Dataflow, Dataproc, Datastore, Cloud Storage, Pub/Sub, AI Platform, v.v.
  • Trăn tinh. Luồng không khí (và Trình soạn thảo đám mây theo tiện ích mở rộng) cho phép biểu diễn các DAG (xem bên dưới) dưới dạng mã Python
  • Được quản lý hoàn toàn. Bản chất được quản lý của Cloud Composer cho phép bạn tập trung vào việc soạn thảo, lên lịch và giám sát quy trình công việc của mình thay vì cung cấp tài nguyên
Nhược điểm của việc sử dụng nhà soạn nhạc là gì?

Luồng không khí Apache là gì?

Để hiểu giá trị gia tăng của Cloud Composer, cần biết một chút về Apache Airflow. Luồng không khí là một công cụ mã nguồn mở để lập trình và lên lịch cho quy trình công việc

Trong thập kỷ qua, nhu cầu về bộ dữ liệu chất lượng cao và mạnh mẽ đã tăng vọt. Khi các doanh nghiệp nhận ra sức mạnh của khoa học dữ liệu và phân tích được áp dụng đúng cách, thì các đường dẫn dữ liệu sẵn có và mạnh mẽ trở thành sứ mệnh quan trọng. Nhu cầu ngày càng tăng đối với công cụ đường ống đáng tin cậy, có thể mở rộng lớn hơn bao giờ hết

Apache Airflow trình bày một giải pháp miễn phí, hướng đến cộng đồng và mạnh mẽ cho phép các nhóm thể hiện quy trình công việc dưới dạng mã. Nó hoạt động như một người điều phối, một công cụ để soạn thảo, lên lịch và giám sát quy trình công việc. Để các công nghệ và công cụ khác nhau hoạt động cùng nhau, mỗi nhóm cần một số “công cụ” nằm ở giữa để chuẩn bị, di chuyển, sắp xếp và giám sát dữ liệu khi dữ liệu tiến hành từ bước này sang bước khác. Một dàn nhạc phù hợp với nhu cầu đó

Nhược điểm của việc sử dụng nhà soạn nhạc là gì?
Một ví dụ Airflow DAG đại diện cho một loạt các quy trình Python

Khi các công ty mở rộng quy mô, nhu cầu về sự phối hợp phù hợp tăng theo cấp số nhân—độ tin cậy của dữ liệu trở nên cần thiết, cũng như dòng dữ liệu, trách nhiệm giải trình và siêu dữ liệu hoạt động. Khái niệm DAGs (đồ thị tuần hoàn có hướng) của luồng khí giúp dễ dàng xem chính xác thời gian và vị trí dữ liệu được xử lý. Hơn hết, những biểu đồ này được biểu diễn bằng Python. Chúng có thể được tạo động, tạo phiên bản và xử lý dưới dạng mã. Nó cũng dễ dàng di chuyển logic nếu nhóm của bạn chọn sử dụng phiên bản công cụ được quản lý/lưu trữ hoặc chuyển hoàn toàn sang một bộ điều phối khác. Với sự tin cậy nhất thiết phải có và khả năng khóa lớn đối với bộ điều phối quy trình làm việc, việc triển khai Python của Airflow mang lại sự đảm bảo về khả năng xuất và chi phí chuyển đổi thấp

Các nhóm dữ liệu cũng có thể giảm sự phụ thuộc của bên thứ ba bằng cách di chuyển logic chuyển đổi sang Luồng khí và không phải lo lắng về việc Luồng khí trở nên lỗi thời trong thời gian ngắn. một cộng đồng sôi động và áp dụng công nghiệp nặng có nghĩa là hỗ trợ cho hầu hết các vấn đề có thể được tìm thấy trực tuyến. Cùng với nhau, các tính năng này đã đưa Airflow trở thành lựa chọn hàng đầu của những người thực hành dữ liệu

Nền tảng ELT đầy đủ tính năng có thể phù hợp hơn với nhu cầu đường dẫn dữ liệu của bạn

Kiểm tra Mitto

Điều phối quy trình làm việc

Như đã đề cập trước đây, chức năng chính của Airflow sử dụng nhiều (các) biểu đồ tuần hoàn có hướng để điều phối quy trình làm việc. Đồ thị có hướng là bất kỳ đồ thị nào mà các đỉnh và các cạnh có một số thứ tự hoặc hướng. Đồ thị tuần hoàn có hướng là đồ thị có hướng không có bất kỳ chu trình nào (i. e. , không có đỉnh nào nối lại với nhau)

Luồng không khí sử dụng DAG để thể hiện quá trình xử lý dữ liệu. Mỗi đỉnh của DAG là một bước xử lý, mỗi cạnh là mối quan hệ giữa các đối tượng. Bản chất của Airflow làm cho nó rất phù hợp với kỹ thuật dữ liệu, vì nó tạo ra một cấu trúc cho phép thực thi đơn giản các nguyên lý kỹ thuật dữ liệu, như tính mô đun, tính bình thường, khả năng tái tạo và liên kết trực tiếp

Luồng không khí được xây dựng trên bốn nguyên tắc mà các tính năng của nó được căn chỉnh

  1. có thể mở rộng. Luồng không khí có kiến ​​trúc mô-đun và sử dụng hàng đợi tin nhắn để sắp xếp một số lượng công nhân tùy ý
  2. Năng động. Đường ống dẫn khí được xác định bằng Python, cho phép tạo đường ống động. Điều này cho phép viết mã khởi tạo các đường ống một cách linh hoạt
  3. có thể mở rộng. Dễ dàng xác định toán tử của riêng bạn và mở rộng thư viện để phù hợp với mức độ trừu tượng phù hợp với môi trường của bạn
  4. Thanh lịch. Đường ống dẫn khí gọn gàng và rõ ràng. Tham số hóa được tích hợp vào lõi của nó bằng cách sử dụng công cụ tạo khuôn mẫu Jinja mạnh mẽ

Nhà khai thác đám mây của Google

Airflow có các toán tử được xây dựng sẵn và do cộng đồng duy trì để tạo các tác vụ được xây dựng trên Google Cloud Platform. Các nhà khai thác Google Cloud + Airflow có nghĩa là Cloud Composer có thể được sử dụng như một phần của giải pháp GCP đầu cuối hoặc phương pháp tiếp cận đám mây lai dựa trên GCP. Tích hợp chặt chẽ với Google Cloud khiến Cloud Composer trở thành một giải pháp lý tưởng cho các nhóm dữ liệu phụ thuộc vào Google

Nhược điểm của việc sử dụng nhà soạn nhạc là gì?

Ưu và nhược điểm của Cloud Composer

Nhược điểm

  • Không tối ưu cho các nhóm không phải GCP. Đối với các nhóm không dựa vào Google Cloud Platform, có rất nhiều dịch vụ Luồng không khí được quản lý khác có sẵn. Nhà thiên văn học là một ví dụ điển hình. Mặc dù Cloud Composer là nhiều đám mây, nhưng có một chút khác biệt giữa công cụ của Google với các công cụ khác khi bạn bỏ qua việc tích hợp GCP
  • giá mơ hồ. Việc sử dụng Cloud Composer như một phần của GCP thiếu cấu trúc định giá rõ ràng. Như bạn có thể thấy, trang định giá của Google cực kỳ phức tạp. Điều này có nghĩa là bạn sẽ cần thử nghiệm Cloud Composer như một phần trong quy trình làm việc của mình để hiểu chính xác chi phí của nó. Hơn nữa, tối ưu hóa chi phí Cloud Composer có thể là một hoạt động chuyên sâu đòi hỏi nỗ lực đáng kể. Có các sản phẩm đường dẫn dữ liệu khác mang lại lợi ích về cơ bản là định giá cố định
  • Được xây dựng trên luồng không khí. Mặc dù Airflow là một công cụ điều phối rất phổ biến, nhưng có một số nhược điểm khi sử dụng nền tảng này
  • Yêu cầu kiến ​​thức hiệu quả về Python. Mặc dù hầu hết các kỹ sư dữ liệu/phân tích sẽ có kiến ​​thức làm việc về Python, nhưng điều quan trọng cần lưu ý là Airflow được xây dựng hoàn toàn bằng ngôn ngữ Hướng đối tượng. Nếu nhóm của bạn hoạt động bằng các ngôn ngữ khác, thì Airflow có thể tăng thêm độ phức tạp cho quy trình làm việc của bạn
  • Không hỗ trợ trả phí. Bộ phận hỗ trợ của Google đã nổi tiếng về một số khía cạnh nhất định của GCP, nhưng người ta có thể mong đợi một chút hỗ trợ kỹ thuật với các sắc thái của Airflow. Hỗ trợ nguồn mở thường bị giới hạn ở các diễn đàn và các nguồn trực tuyến khác
  • Yêu cầu kiến ​​thức cơ sở hạ tầng chuyên ngành. Luồng không khí là một sản phẩm kỹ thuật phức tạp. Các chủ đề như xác thực, trình kết nối không chuẩn và song song hóa yêu cầu kiến ​​thức chuyên môn thường do kỹ sư dữ liệu nắm giữ. Vì vậy, Airflow và Cloud Composer không phù hợp với các nhóm đang tìm kiếm giải pháp sử dụng ít/không sử dụng mã
  • Hỗ trợ dài hạn là mơ hồ. Trong khi phần mềm mã nguồn mở có những lợi ích của nó, sự hỗ trợ lâu dài không được đảm bảo. Nếu xu hướng của ngành thay đổi khỏi Airflow, hỗ trợ có thể tiêu tan. Nếu cần phải di chuyển sang một công cụ/ngôn ngữ khác, thì có thể khó tái tạo hoặc cấu trúc lại các DAG
  • Không thân thiện với người dùng. Ví dụ: mỗi toán tử truyền có một giao diện khác nhau và ánh xạ từ nguồn đến đích là khác nhau đối với mỗi toán tử
  • Thiếu tích hợp. Các toán tử truyền dữ liệu bao gồm một số cơ sở dữ liệu/hồ/kho hạn chế và hầu như không có ứng dụng kinh doanh, vì vậy việc sử dụng nó bị hạn chế
  • bồn rửa nhà bếp. Chúng tôi cũng đã nghe từ người dùng rằng việc thiếu phiên bản là một vấn đề, luồng không khí không trực quan, thiết lập khó khăn, chia sẻ dữ liệu giữa các tác vụ là gánh nặng, v.v.

ưu

  • Tích hợp chặt chẽ với GCP. Tính năng lớn nhất của Google Cloud Composer khiến nó khác biệt với các phiên bản Airflow được quản lý khác là khả năng tích hợp chặt chẽ với Google Cloud Platform. Đối với những người dùng nhiều sản phẩm đám mây của Google, Cloud Composer là một cách tiếp cận rất hấp dẫn đối với những người yêu cầu triển khai Airflow
  • Được xây dựng trên luồng không khí nguồn mở. Cloud Composer được xây dựng trên Apache Airflow, một khung nguồn mở phổ biến để quản lý và điều phối quy trình làm việc. Điều này cung cấp hỗ trợ cộng đồng, một khuôn khổ có thể mở rộng và không khóa vào công cụ của nhà cung cấp độc quyền. Cập nhật là bán thường xuyên và hầu hết các câu hỏi có thể được trả lời từ một tìm kiếm trực tuyến đơn giản
  • con trăn. Luồng không khí được quản lý bằng Python thuần túy. DAG được xác định bằng mã, mang lại khả năng kiểm soát phiên bản và khả năng tái tạo để quản lý quy trình làm việc
  • Được quản lý hoàn toàn. Cloud Composer được quản lý hoàn toàn. Người dùng có thể tập trung vào việc xây dựng quy trình làm việc và điều phối tốt nhất có thể mà không phải lo lắng về việc cung cấp hoặc bảo trì tài nguyên
Nhược điểm của việc sử dụng nhà soạn nhạc là gì?

Khi nào nên sử dụng Cloud Composer

Cloud Composer có một số lợi ích, không giới hạn ở nền tảng nguồn mở, triển khai Python thuần túy và sử dụng nhiều trong ngành dữ liệu. Tuy nhiên, có những hạn chế cố hữu với công cụ nguồn mở và đặc biệt là Luồng không khí

Nhóm dữ liệu của bạn có thể có trường hợp sử dụng chắc chắn để thực hiện một số việc sắp xếp/lên lịch với Cloud Composer, đặc biệt nếu bạn đang sử dụng các dịch vụ đám mây của Google. Nhưng hầu hết các tổ chức cũng sẽ cần một nền tảng ETL mạnh mẽ, đầy đủ tính năng cho nhiều nhu cầu về đường truyền dữ liệu, vì các lý do bao gồm khả năng dễ dàng lấy dữ liệu từ số lượng ứng dụng kinh doanh lớn hơn nhiều, khả năng dự báo chi phí tốt hơn và giải quyết

Zuar cung cấp giải pháp đường dẫn dữ liệu mạnh mẽ, phù hợp tuyệt vời cho hầu hết các nhóm dữ liệu, bao gồm cả những người làm việc trong GCP. Giải pháp ELT Mitto của chúng tôi sẽ vận chuyển, lưu trữ, chuyển đổi, lập mô hình, báo cáo và giám sát tất cả dữ liệu của bạn từ hàng trăm nguồn tiềm năng. Lên lịch tư vấn miễn phí với một trong những chuyên gia dữ liệu của chúng tôi và xem cách chúng tôi có thể tối đa hóa khả năng tự động hóa trong ngăn xếp dữ liệu của bạn

Lịch trình Dữ liệu Đánh giá Chiến lược

Câu hỏi thường gặp

Môi trường Cloud Composer là gì?

Môi trường Cloud Composer là một bản cài đặt Apache Airflow độc lập được triển khai trong cụm Google Kubernetes Engine được quản lý

Tôi làm cách nào để sử dụng Google Cloud Composer?

Để bắt đầu sử dụng Cloud Composer, bạn cần có quyền truy cập vào thông tin đăng nhập tài khoản dịch vụ Cloud Composer API và Google Cloud Platform (GCP). Cả hai đều có thể thu được thông qua cài đặt và cấu hình GCP. Từ đó, quá trình thiết lập Cloud Composer bắt đầu bằng việc tạo môi trường, thường mất khoảng 30 phút

Cloud Composer DAG là gì?

Đồ thị có hướng là bất kỳ đồ thị nào mà các đỉnh và các cạnh có một số thứ tự hoặc hướng. Đồ thị tuần hoàn có hướng (DAG) là đồ thị có hướng không có bất kỳ chu trình nào, i. e. không có đỉnh nào kết nối lại với nhau. Chức năng chính của Airflow sử dụng nhiều biểu đồ tuần hoàn có hướng để điều phối quy trình làm việc, do đó, DAG là một phần thiết yếu của Cloud Composer. DAG của Trình soạn thảo đám mây được viết bằng Python và mô tả quá trình thực thi đường dẫn dữ liệu

Cloud Composer hoạt động như thế nào?

Cloud Composer được xây dựng trên Apache Airflow và vận hành bằng ngôn ngữ lập trình Python. Cloud Composer khởi tạo một phiên bản Airflow được triển khai trong cụm Google Kubernetes Engine được quản lý, cho phép triển khai Airflow mà không cần chi phí cài đặt hoặc quản lý

Cloud Composer có giống với Airflow không?

Không, Google Cloud Composer là một công cụ điều phối quy trình công việc được quản lý, có thể mở rộng được xây dựng trên Apache Airflow

Làm cách nào để tắt Cloud Composer?

Để tắt Cloud Composer API. Trong bảng điều khiển Google Cloud, hãy truy cập trang Cloud Composer API. Nhấp vào Quản lý. Nhấp vào Tắt API

Nền tảng phân tầng dữ liệu Mitto ELT. Zuar

Mitto là một nền tảng dàn dựng dữ liệu tự động, nhanh, nhẹ. Kết nối với API, Cơ sở dữ liệu hoặc Tệp phẳng để lập mô hình dữ liệu của bạn nhằm chuẩn bị cho phân tích

Zuar

ELT & chuẩn bị dữ liệu từ Google Cloud Storage vào cơ sở dữ liệu phân tích

Với Mitto, tích hợp dữ liệu từ API, cơ sở dữ liệu và tệp. Bắt đầu 2 tuần dùng thử phân tích Google Cloud Storage tự động của bạn

lợi thế của nhà soạn nhạc là gì?

Với Composer bạn sẽ được tải tự động tập trung. tệp php cũng được tối ưu hóa cho sản xuất . Nó tải mọi thứ bạn cần và tất cả những gì bạn cần làm là bao gồm một tệp. Phiên bản được tối ưu hóa siêu nhanh.

Composer là gì và tại sao chúng ta nên sử dụng nó?

Composer là công cụ quản lý phụ thuộc trong PHP . Nó cho phép bạn khai báo các thư viện mà dự án của bạn phụ thuộc vào và nó sẽ quản lý (cài đặt/cập nhật) chúng cho bạn.