Python rời rạc hóa dựa trên Entropy

Toán tử này rời rạc hóa các thuộc tính số đã chọn thành các thuộc tính danh nghĩa. Việc rời rạc hóa được thực hiện bằng cách chọn một ranh giới bin giúp giảm thiểu entropy trong các phân vùng cảm ứng. Mỗi phạm vi thùng được đặt tên tự động. Định dạng đặt tên của phạm vi có thể được thay đổi bằng tham số loại tên phạm vi. Các giá trị nằm trong phạm vi của một thùng được đặt tên theo tên của phạm vi đó

Việc rời rạc hóa được thực hiện bằng cách chọn một ranh giới bin giúp giảm thiểu entropy trong các phân vùng cảm ứng. Sau đó, phương pháp này được áp dụng đệ quy cho cả hai phân vùng mới cho đến khi đạt được tiêu chí dừng. Để biết thêm thông tin xin vui lòng nghiên cứu

  • Phân biệt nhiều khoảng thời gian của các thuộc tính giá trị liên tục để học phân loại [Fayyad, Irani]
  • Sự rời rạc có giám sát và không giám sát [Dougherty, Kohavi, Sahami]

Toán tử này có thể tự động loại bỏ tất cả các thuộc tính chỉ với một phạm vi i. e. những thuộc tính không thực sự rời rạc do tiêu chí entropy không được đáp ứng. Hành vi này có thể được kiểm soát bằng tham số loại bỏ vô dụng

khác biệt hóa

Rời rạc hóa bằng cách Binning

Toán tử Discretize By Binning tạo các thùng theo cách sao cho phạm vi của tất cả các thùng là [gần như] bằng nhau

Rời rạc hóa theo tần suất

Toán tử Disretize By Frequency tạo các ngăn sao cho số lượng giá trị duy nhất trong tất cả các ngăn là [gần như] bằng nhau

Rời rạc theo kích thước

Toán tử Discretize By Size tạo các ngăn theo cách sao cho mỗi ngăn có kích thước do người dùng chỉ định [i. e. số ví dụ]

Rời rạc hóa theo đặc tả người dùng

Toán tử này rời rạc hóa các thuộc tính số đã chọn thành các lớp do người dùng chỉ định

Đầu vào

  • đầu vào tập hợp ví dụ
    [Bảng dữ liệu]

    Cổng đầu vào này mong đợi một Bộ ví dụ. Nó là đầu ra của toán tử Truy xuất trong Quy trình Ví dụ đính kèm. Đầu ra của các toán tử khác cũng có thể được sử dụng làm đầu vào. Xin lưu ý rằng phải có ít nhất một thuộc tính số trong Bộ ví dụ đầu vào, nếu không việc sử dụng toán tử này sẽ không có ý nghĩa

đầu ra

  • đầu ra tập mẫu
    [Bảng dữ liệu]

    Các thuộc tính số đã chọn được chuyển đổi thành các thuộc tính danh nghĩa bằng cách rời rạc hóa và Bộ ví dụ kết quả được gửi qua cổng này

  • gốc
    [Bảng dữ liệu]

    Bộ ví dụ được cung cấp dưới dạng đầu vào được chuyển mà không thay đổi thành đầu ra thông qua cổng này. Điều này thường được sử dụng để sử dụng lại cùng một Tập ví dụ trong các toán tử khác hoặc để xem Tập ví dụ trong Không gian làm việc kết quả

  • mô hình tiền xử lý
    [Mô hình tiền xử lý]

    Cổng này cung cấp mô hình tiền xử lý, có thông tin liên quan đến các tham số của toán tử này trong quy trình hiện tại

Thông số

  • create_view Có thể tạo Chế độ xem thay vì thay đổi dữ liệu cơ bản. Chỉ cần chọn tham số này để bật tùy chọn này. Sau đó, phép biến đổi thường được thực hiện trực tiếp trên dữ liệu sẽ được tính toán mỗi khi một giá trị được yêu cầu và kết quả được trả về mà không làm thay đổi dữ liệu. Phạm vi. boolean
  • attribute_filter_type Tham số này cho phép bạn chọn bộ lọc lựa chọn thuộc tính; . Nó có các tùy chọn sau.
    • tất cả các. Tùy chọn này chỉ đơn giản là chọn tất cả các thuộc tính của Bộ mẫu. Đây là tùy chọn mặc định
    • Độc thân. Tùy chọn này cho phép chọn một thuộc tính duy nhất. Khi tùy chọn này được chọn, một tham số [thuộc tính] khác sẽ hiển thị trong bảng Tham số
    • tập hợp con. Tùy chọn này cho phép lựa chọn nhiều thuộc tính thông qua một danh sách. Tất cả các thuộc tính của Bộ mẫu đều có trong danh sách; . Tùy chọn này sẽ không hoạt động nếu không biết dữ liệu meta. Khi tùy chọn này được chọn, một tham số khác sẽ hiển thị trong bảng Tham số
    • biểu hiện thông thường. Tùy chọn này cho phép bạn chỉ định một biểu thức chính quy để chọn thuộc tính. Khi tùy chọn này được chọn, một số tham số khác [biểu thức chính quy, sử dụng biểu thức ngoại trừ] sẽ hiển thị trong bảng Tham số
    • value_type. Tùy chọn này cho phép lựa chọn tất cả các thuộc tính của một loại cụ thể. Cần lưu ý rằng các loại được phân cấp. Ví dụ: kiểu số thực và số nguyên đều thuộc kiểu số. Người dùng cần có hiểu biết cơ bản về phân cấp loại khi chọn thuộc tính thông qua tùy chọn này. Khi tùy chọn này được chọn, một số tham số khác [loại giá trị, sử dụng ngoại lệ loại giá trị] sẽ hiển thị trong bảng Tham số
    • block_type. Tùy chọn này hoạt động tương tự như tùy chọn loại giá trị. Tùy chọn này cho phép lựa chọn tất cả các thuộc tính của một loại khối cụ thể. Khi tùy chọn này được chọn, một số tham số khác [loại khối, sử dụng ngoại lệ loại khối] sẽ hiển thị trong bảng Tham số
    • no_missing_values. Tùy chọn này chỉ đơn giản là chọn tất cả các thuộc tính của Bộ ví dụ không chứa giá trị bị thiếu trong bất kỳ ví dụ nào. Các thuộc tính thậm chí có một giá trị bị thiếu sẽ bị xóa
    • bộ lọc giá trị số. Khi tùy chọn này được chọn, một tham số khác [điều kiện số] sẽ hiển thị trong bảng Tham số. Tất cả các thuộc tính số có ví dụ thỏa mãn điều kiện số được đề cập đều được chọn. Xin lưu ý rằng tất cả các thuộc tính danh nghĩa cũng được chọn bất kể điều kiện số đã cho
    Phạm vi. lựa chọn
  • thuộc tính Có thể chọn thuộc tính mong muốn từ tùy chọn này. Tên thuộc tính có thể được chọn từ hộp thả xuống của tham số thuộc tính nếu dữ liệu meta được biết. Phạm vi. chuỗi
  • thuộc tính Có thể chọn các thuộc tính bắt buộc từ tùy chọn này. Điều này sẽ mở ra một cửa sổ mới với hai danh sách. Tất cả các thuộc tính đều có trong danh sách bên trái và có thể được chuyển sang danh sách bên phải, đó là danh sách các thuộc tính được chọn sẽ diễn ra quá trình chuyển đổi từ danh nghĩa sang số; . Phạm vi. chuỗi
  • regular_expression Các thuộc tính có tên khớp với biểu thức này sẽ được chọn. Biểu thức chính quy là một công cụ rất mạnh nhưng cần giải thích chi tiết cho người mới bắt đầu. Luôn luôn tốt khi chỉ định biểu thức chính quy thông qua menu chỉnh sửa và xem trước biểu thức chính quy. Menu này cung cấp một ý tưởng hay về các biểu thức chính quy. Menu này cũng cho phép bạn thử các biểu thức khác nhau và xem trước kết quả đồng thời. Điều này sẽ nâng cao khái niệm của bạn về biểu thức thông thường. Phạm vi. chuỗi
  • use_except_expression Nếu được bật, bạn có thể chỉ định một ngoại lệ cho loại đã chọn. Khi tùy chọn này được chọn, một tham số khác [ngoại trừ loại giá trị] sẽ hiển thị trong bảng Tham số. Phạm vi. boolean
  • ngoại trừ_regular_expression Tùy chọn này cho phép bạn chỉ định một biểu thức chính quy. Các thuộc tính khớp với biểu thức này sẽ bị lọc ra ngay cả khi chúng khớp với biểu thức đầu tiên [biểu thức đã được chỉ định trong tham số biểu thức chính quy]. Phạm vi. chuỗi
  • value_type Có thể chọn loại thuộc tính được chọn từ danh sách thả xuống. Có thể chọn một trong các loại sau. danh nghĩa, văn bản, nhị thức, đa thức, file_path. Phạm vi. lựa chọn
  • use_value_type_exception Nếu được bật, có thể chỉ định một ngoại lệ cho loại đã chọn. Khi tùy chọn này được chọn, một tham số khác [ngoại trừ loại giá trị] sẽ hiển thị trong bảng Tham số. Phạm vi. boolean
  • except_value_type Các thuộc tính khớp với loại này sẽ bị xóa khỏi đầu ra cuối cùng ngay cả khi chúng khớp với loại i đã đề cập trước đó. e. loại giá trị giá trị của tham số. Có thể chọn một trong các loại sau tại đây. danh nghĩa, văn bản, nhị thức, đa thức, file_path. Phạm vi. lựa chọn
  • block_type Có thể chọn loại khối thuộc tính được chọn từ danh sách thả xuống. Giá trị duy nhất có thể có ở đây là 'single_value' Phạm vi. lựa chọn
  • use_block_type_exception Nếu được bật, có thể chỉ định một ngoại lệ cho loại khối đã chọn. Khi tùy chọn này được chọn, một tham số khác [ngoại trừ loại khối] sẽ hiển thị trong bảng Tham số. Phạm vi. boolean
  • ngoại trừ_block_type Các thuộc tính khớp với loại khối này sẽ bị xóa khỏi đầu ra cuối cùng ngay cả khi chúng khớp với loại khối đã đề cập trước đó. Phạm vi. lựa chọn
  • numeric_condition Điều kiện số để thử nghiệm các ví dụ về thuộc tính số được chỉ định tại đây. Ví dụ: điều kiện số '> 6' sẽ giữ tất cả các thuộc tính danh nghĩa và tất cả các thuộc tính số có giá trị lớn hơn 6 trong mọi ví dụ. Một sự kết hợp của các điều kiện là có thể. '> 6 && < 11' hoặc ' Range: string
  • include_special_attributes Thuộc tính đặc biệt là thuộc tính có vai trò đặc biệt xác định các ví dụ. Ngược lại, các thuộc tính thông thường chỉ đơn giản mô tả các ví dụ. Thuộc tính đặc biệt là. id, nhãn, dự đoán, cụm, trọng lượng và lô. Phạm vi. boolean
  • invert_selection Nếu tham số này được đặt thành true, nó hoạt động như một cổng NOT, nó sẽ đảo ngược lựa chọn. Trong trường hợp đó, tất cả các thuộc tính đã chọn không được chọn và các thuộc tính không được chọn trước đó được chọn. Ví dụ: nếu thuộc tính 'att1' được chọn và thuộc tính 'att2' không được chọn trước khi kiểm tra tham số này. Sau khi kiểm tra tham số này 'att1' sẽ không được chọn và 'att2' sẽ được chọn. Phạm vi. boolean
  • remove_useless Tham số này cho biết nếu các thuộc tính vô dụng, tôi. e. thuộc tính chỉ chứa một phạm vi duy nhất, nên được loại bỏ. Nếu tham số này được đặt thành true thì tất cả các thuộc tính không thực sự rời rạc do tiêu chí entropy không được đáp ứng sẽ bị xóa. Phạm vi. boolean
  • range_name_type Tham số này được sử dụng để thay đổi định dạng đặt tên cho dải ô. Các định dạng 'dài', 'ngắn' và 'khoảng' có sẵn. Phạm vi. lựa chọn
  • automatic_number_of_digits Đây là thông số chuyên gia. Nó chỉ khả dụng khi tham số loại tên phạm vi được đặt thành 'khoảng'. Nó cho biết liệu số lượng chữ số có được xác định tự động cho tên dãy hay không. Phạm vi. boolean
  • number_of_digits Đây là thông số chuyên gia. Nó được sử dụng để chỉ định số chữ số tối thiểu được sử dụng cho tên khoảng thời gian. Phạm vi. số nguyên

Quy trình hướng dẫn

Phân biệt bộ dữ liệu 'Sonar' bằng entropy

Trọng tâm của Quy trình Ví dụ này là quy trình rời rạc hóa. Để hiểu các tham số liên quan đến lựa chọn thuộc tính, vui lòng nghiên cứu Quy trình mẫu của toán tử Chọn thuộc tính

Tập dữ liệu 'Sonar' được tải bằng toán tử Truy xuất. Một điểm ngắt được chèn vào đây để bạn có thể xem Ví dụ. Bạn có thể thấy rằng tập dữ liệu này có 60 thuộc tính thông thường [tất cả đều thuộc loại thực]. Toán tử Discretize by Entropy được áp dụng trên nó. Tham số loại bộ lọc thuộc tính được đặt thành 'tất cả', do đó tất cả các thuộc tính số sẽ được rời rạc hóa. Tham số loại bỏ vô dụng được đặt thành đúng, do đó, các thuộc tính chỉ có một phạm vi sẽ bị xóa khỏi Bộ mẫu. Chạy quy trình và chuyển sang Không gian làm việc kết quả. Bạn có thể thấy rằng bộ dữ liệu 'Sonar' đã được giảm xuống chỉ còn 22 thuộc tính thông thường. Các thuộc tính số này đã được rời rạc thành các thuộc tính danh nghĩa

Sự rời rạc dựa trên entropy là gì?

Sự rời rạc hóa dựa trên entropy là phương pháp phân tách từ trên xuống được giám sát . Nó khám phá dữ liệu phân phối lớp trong tính toán và bảo toàn các điểm phân tách [giá trị dữ liệu để tách một phạm vi thuộc tính].

Entropy dựa trên cái gì?

Các phép đo ngưỡng entropy dựa trên khái niệm entropy . Thống kê entropy cao nếu một biến được phân phối tốt trên phạm vi có sẵn và thấp nếu nó được sắp xếp hợp lý và phân phối hẹp. Cụ thể, entropy là thước đo của sự mất trật tự và bằng 0 đối với một hệ thống có trật tự hoàn hảo.

Dữ liệu rời rạc trong khoa học dữ liệu là gì?

Rời rạc hóa dữ liệu là quá trình chuyển đổi dữ liệu liên tục thành các nhóm rời rạc bằng cách nhóm dữ liệu đó . Disretization cũng được biết đến với khả năng duy trì dễ dàng của dữ liệu. Đào tạo một mô hình với dữ liệu rời rạc trở nên nhanh hơn và hiệu quả hơn so với khi cố gắng tương tự với dữ liệu liên tục.

Tầm quan trọng của discretization là gì?

Rời rạc hóa hoạt động như một phương pháp chọn biến ngoài việc chuyển đổi các giá trị liên tục của biến thành các giá trị rời rạc .

Chủ Đề