Hướng dẫn how does python store long integers? - python lưu trữ số nguyên dài như thế nào?

Phụ trợ @unacademy • Dữ liệu @Amazon • Nền tảng @Practo | Viết về ngôn ngữ nội bộ và toán học trong khoa học máy tính

Khi bạn mã hóa bằng ngôn ngữ cấp thấp như C, bạn lo lắng về việc chọn đúng loại dữ liệu và vòng loại cho số nguyên của bạn; Ở mỗi bước, bạn cần phải suy nghĩ nếu int sẽ đủ hoặc bạn nên đi cho long hoặc thậm chí cao hơn đến long double. Nhưng trong khi mã hóa trong Python, bạn không cần phải lo lắng về những điều "tầm thường" này vì Python hỗ trợ các số nguyên có kích thước tùy ý.

Trong C, khi bạn cố gắng tính toán 2²⁰⁰⁰⁰ bằng cách sử dụng chức năng Construction

>>> 2 ** 20000
39802768403379665923543072061912024537047727804924259387134 ...
...
... 6021 digits long ...
...
6309376
0, nó cung cấp cho bạn
>>> 2 ** 20000
39802768403379665923543072061912024537047727804924259387134 ...
...
... 6021 digits long ...
...
6309376
1 làm đầu ra.

#include 
#include 

int main(void) {
  printf("%Lf\n", powl(2, 20000));
  return 0;
}

$ ./a.out
inf

Nhưng đối với Python, nó là một miếng bánh 🎂

>>> 2 ** 20000
39802768403379665923543072061912024537047727804924259387134 ...
...
... 6021 digits long ...
...
6309376

Python phải làm một cái gì đó đẹp trong nội bộ để hỗ trợ các số nguyên có kích thước tùy ý và hôm nay chúng tôi tìm ra những gì dưới mui xe!

Đại diện và định nghĩa

Một số nguyên trong Python là một cấu trúc C được xác định như sau

struct _longobject {
    PyObject_VAR_HEAD
    digit ob_digit[1];
};

>>> 2 ** 20000
39802768403379665923543072061912024537047727804924259387134 ...
...
... 6021 digits long ...
...
6309376
2 là một macro mở rộng thành
>>> 2 ** 20000
39802768403379665923543072061912024537047727804924259387134 ...
...
... 6021 digits long ...
...
6309376
3 có cấu trúc sau

typedef struct {
    PyObject ob_base;
    Py_ssize_t ob_size; /* Number of items in variable part */
} PyVarObject;

Các loại khác có

>>> 2 ** 20000
39802768403379665923543072061912024537047727804924259387134 ...
...
... 6021 digits long ...
...
6309376
2 là

  • >>> 2 ** 20000
    39802768403379665923543072061912024537047727804924259387134 ...
    ...
    ... 6021 digits long ...
    ...
    6309376
    
    5
  • >>> 2 ** 20000
    39802768403379665923543072061912024537047727804924259387134 ...
    ...
    ... 6021 digits long ...
    ...
    6309376
    
    6
  • >>> 2 ** 20000
    39802768403379665923543072061912024537047727804924259387134 ...
    ...
    ... 6021 digits long ...
    ...
    6309376
    
    7

Điều này chỉ ra rằng một số nguyên, giống như

>>> 2 ** 20000
39802768403379665923543072061912024537047727804924259387134 ...
...
... 6021 digits long ...
...
6309376
8 hoặc
>>> 2 ** 20000
39802768403379665923543072061912024537047727804924259387134 ...
...
... 6021 digits long ...
...
6309376
9, có độ dài khác nhau và đây là cái nhìn sâu sắc đầu tiên của chúng tôi về cách nó có thể hỗ trợ các số nguyên dài.
struct _longobject {
    PyObject_VAR_HEAD
    digit ob_digit[1];
};
0 sau khi mở rộng macro có thể được coi là

struct _longobject {
    PyObject ob_base;
    Py_ssize_t ob_size; /* Number of items in variable part */
    digit ob_digit[1];
};

Đây là một số trường meta trong cấu trúc

struct _longobject {
    PyObject_VAR_HEAD
    digit ob_digit[1];
};
1, được sử dụng để đếm tham chiếu (thu gom rác), nhưng chúng tôi sẽ yêu cầu một bài viết riêng. Trường mà chúng tôi sẽ tập trung vào là
struct _longobject {
    PyObject_VAR_HEAD
    digit ob_digit[1];
};
2 và ở một mức độ nào đó
struct _longobject {
    PyObject_VAR_HEAD
    digit ob_digit[1];
};
3.

Giải mã struct _longobject { PyObject_VAR_HEAD digit ob_digit[1]; }; 2

struct _longobject {
    PyObject_VAR_HEAD
    digit ob_digit[1];
};
2 là một mảng loại
struct _longobject {
    PyObject_VAR_HEAD
    digit ob_digit[1];
};
6, được đánh máy từ
struct _longobject {
    PyObject_VAR_HEAD
    digit ob_digit[1];
};
7, được phân bổ tĩnh cho chiều dài
struct _longobject {
    PyObject_VAR_HEAD
    digit ob_digit[1];
};
8. Vì nó là một mảng,
struct _longobject {
    PyObject_VAR_HEAD
    digit ob_digit[1];
};
2 chủ yếu là
typedef struct {
    PyObject ob_base;
    Py_ssize_t ob_size; /* Number of items in variable part */
} PyVarObject;
0, con trỏ đến
struct _longobject {
    PyObject_VAR_HEAD
    digit ob_digit[1];
};
6, và do đó nếu được yêu cầu có thể được cắt ở bất kỳ độ dài nào. Điều này làm cho Python có thể đại diện và xử lý các số nguyên dài.

Nói chung, trong các ngôn ngữ cấp thấp như C, độ chính xác của các số nguyên được giới hạn ở mức 64 bit, nhưng Python thực hiện các số nguyên chính xác tùy ý. Vì Python 3, tất cả các số nguyên được biểu diễn dưới dạng bignum và chúng chỉ bị giới hạn bởi bộ nhớ có sẵn của hệ thống máy chủ.

Giải mã struct _longobject { PyObject_VAR_HEAD digit ob_digit[1]; }; 3

struct _longobject {
    PyObject_VAR_HEAD
    digit ob_digit[1];
};
3 giữ số lượng các yếu tố trong
struct _longobject {
    PyObject_VAR_HEAD
    digit ob_digit[1];
};
2. Để hiệu quả hơn trong khi phân bổ bộ nhớ thành mảng
struct _longobject {
    PyObject_VAR_HEAD
    digit ob_digit[1];
};
2, các sự cung cấp quá mức của Python và sau đó dựa vào giá trị của
struct _longobject {
    PyObject_VAR_HEAD
    digit ob_digit[1];
};
3 để xác định số lượng các phần tử thực tế được giữ trong mảng.

Kho

Một cách ngây thơ để lưu trữ một số nguyên chữ số là bằng cách thực sự lưu trữ một chữ số thập phân trong một mục của mảng và sau đó các hoạt động như bổ sung và trừ có thể được thực hiện giống như toán học lớp.

Với cách tiếp cận này, một số

typedef struct {
    PyObject ob_base;
    Py_ssize_t ob_size; /* Number of items in variable part */
} PyVarObject;
7 sẽ được lưu trữ dưới dạng

Hướng dẫn how does python store long integers? - python lưu trữ số nguyên dài như thế nào?

Cách tiếp cận này không hiệu quả vì chúng ta sẽ sử dụng tăng 32 bit chữ số (

struct _longobject {
    PyObject_VAR_HEAD
    digit ob_digit[1];
};
7) để lưu trữ một chữ số thập phân thực sự chỉ dao động từ 0 đến 9 và có thể dễ dàng được biểu thị bằng 4 bit, và trong khi viết một cái gì đó linh hoạt như Python, Một nhà phát triển cốt lõi phải tháo vát hơn thế này.

Vì vậy, chúng ta có thể làm tốt hơn không? Để chắc chắn, nếu không, bài viết này sẽ không giữ chỗ trên internet. Hãy đi sâu vào cách Python lưu trữ một số nguyên siêu dài.

Cách pythonic

Thay vì chỉ lưu trữ một chữ số thập phân trong mỗi mục của mảng

struct _longobject {
    PyObject_VAR_HEAD
    digit ob_digit[1];
};
2, Python chuyển đổi số từ cơ sở 10 thành cơ sở 2³⁰ và gọi từng phần tử là
struct _longobject {
    PyObject_VAR_HEAD
    digit ob_digit[1];
};
6 dao động từ 0 đến 2³⁰ - 1.

Trong hệ thống số thập lục phân, cơ sở là 16 ~ 2⁴ Điều này có nghĩa là mỗi "chữ số" của một số thập lục phân dao động từ 0 đến 15 của hệ thống thập phân. Tương tự đối với Python, "Digit" nằm trong cơ sở 2³⁰ có nghĩa là nó sẽ nằm trong khoảng từ 0 đến 2³⁰ - 1 = 1073741823 của hệ thống thập phân.

Bằng cách này, Python sử dụng hiệu quả hầu hết tất cả không gian được phân bổ 32 bit mỗi chữ số và giữ cho chính nó tháo vát và vẫn thực hiện các hoạt động như bổ sung và trừ như toán học lớp.

Tùy thuộc vào nền tảng, Python sử dụng các mảng số nguyên không dấu 32 bit với các chữ số 30 bit hoặc các mảng số nguyên không dấu 16 bit với các chữ số 15 bit. Nó đòi hỏi một vài bit để thực hiện các hoạt động sẽ được thảo luận trong một số bài viết trong tương lai.

Ví dụ: 1152921504606846976

Như đã đề cập, đối với Python, một "chữ số" là cơ sở 2³⁰ do đó nếu bạn chuyển đổi

struct _longobject {
    PyObject ob_base;
    Py_ssize_t ob_size; /* Number of items in variable part */
    digit ob_digit[1];
};
1 thành cơ sở 2³⁰ bạn sẽ nhận được
struct _longobject {
    PyObject ob_base;
    Py_ssize_t ob_size; /* Number of items in variable part */
    digit ob_digit[1];
};
2.

1152921504606846976 = 0 * (2³⁰) ⁰ + 0 * (2³⁰) ¹ + 1 * (2³⁰) ² = 0 * (2³⁰)⁰ + 0 * (2³⁰)¹ + 1 * (2³⁰)²

Cấu trúc

struct _longobject {
    PyObject_VAR_HEAD
    digit ob_digit[1];
};
0 cho giá trị này sẽ được giữ

  • struct _longobject {
        PyObject_VAR_HEAD
        digit ob_digit[1];
    };
    
    3 như
    struct _longobject {
        PyObject ob_base;
        Py_ssize_t ob_size; /* Number of items in variable part */
        digit ob_digit[1];
    };
    
    5
  • struct _longobject {
        PyObject_VAR_HEAD
        digit ob_digit[1];
    };
    
    2 là
    struct _longobject {
        PyObject ob_base;
        Py_ssize_t ob_size; /* Number of items in variable part */
        digit ob_digit[1];
    };
    
    7

Hướng dẫn how does python store long integers? - python lưu trữ số nguyên dài như thế nào?

Tôi đã tạo ra một bản demo sẽ xuất hiện theo cách mà Python đang lưu trữ các số nguyên trong nội bộ và cũng có tham chiếu đến các thành viên cấu trúc như

struct _longobject {
    PyObject_VAR_HEAD
    digit ob_digit[1];
};
3,
struct _longobject {
    PyObject ob_base;
    Py_ssize_t ob_size; /* Number of items in variable part */
    digit ob_digit[1];
};
9, v.v.

Hoạt động trên các số nguyên siêu dài

Bây giờ chúng ta có một ý tưởng công bằng về cách Python hỗ trợ và thực hiện các số nguyên chính xác tùy ý của nó để hiểu làm thế nào các hoạt động toán học khác nhau xảy ra với chúng.

Phép cộng

Các số nguyên vẫn tồn tại "khôn ngoan về chữ số", điều này có nghĩa là sự bổ sung cũng đơn giản như những gì chúng ta học được ở trường lớp và mã nguồn của Python cho chúng ta thấy rằng đây chính xác là cách nó được thực hiện. Hàm có tên X_ADD trong Tệp LongObject.c thực hiện việc bổ sung hai số.

...
    for (i = 0; i < size_b; ++i) {
        carry += a->ob_digit[i] + b->ob_digit[i];
        z->ob_digit[i] = carry & PyLong_MASK;
        carry >>= PyLong_SHIFT;
    }
    for (; i < size_a; ++i) {
        carry += a->ob_digit[i];
        z->ob_digit[i] = carry & PyLong_MASK;
        carry >>= PyLong_SHIFT;
    }
    z->ob_digit[i] = carry;
...

Đoạn mã ở trên được lấy từ hàm

...
    for (i = 0; i < size_b; ++i) {
        carry += a->ob_digit[i] + b->ob_digit[i];
        z->ob_digit[i] = carry & PyLong_MASK;
        carry >>= PyLong_SHIFT;
    }
    for (; i < size_a; ++i) {
        carry += a->ob_digit[i];
        z->ob_digit[i] = carry & PyLong_MASK;
        carry >>= PyLong_SHIFT;
    }
    z->ob_digit[i] = carry;
...
0 và bạn có thể thấy rằng nó lặp lại trên các chữ số và thực hiện bổ sung-khôn ngoan và tính toán và truyền tải mang theo.

Mọi thứ trở nên thú vị khi kết quả của việc bổ sung là một số âm. Dấu hiệu của

struct _longobject {
    PyObject_VAR_HEAD
    digit ob_digit[1];
};
3 là dấu hiệu của số nguyên, có nghĩa là, nếu bạn có số âm thì
struct _longobject {
    PyObject_VAR_HEAD
    digit ob_digit[1];
};
3 sẽ âm. Giá trị tuyệt đối của
struct _longobject {
    PyObject_VAR_HEAD
    digit ob_digit[1];
};
3 sẽ xác định số chữ số trong
struct _longobject {
    PyObject_VAR_HEAD
    digit ob_digit[1];
};
2.

Phép trừ

Tương tự như cách bổ sung được thực hiện, phép trừ cũng xảy ra theo chữ số. Hàm có tên x_sub trong Tệp LongObject.c thực hiện phép trừ hai số.

...
    for (i = 0; i < size_b; ++i) {
        borrow = a->ob_digit[i] - b->ob_digit[i] - borrow;
        z->ob_digit[i] = borrow & PyLong_MASK;
        borrow >>= PyLong_SHIFT;
        borrow &= 1; /* Keep only one sign bit */
    }
    for (; i < size_a; ++i) {
        borrow = a->ob_digit[i] - borrow;
        z->ob_digit[i] = borrow & PyLong_MASK;
        borrow >>= PyLong_SHIFT;
        borrow &= 1; /* Keep only one sign bit */
    }
...

Đoạn mã ở trên được lấy từ hàm

...
    for (i = 0; i < size_b; ++i) {
        carry += a->ob_digit[i] + b->ob_digit[i];
        z->ob_digit[i] = carry & PyLong_MASK;
        carry >>= PyLong_SHIFT;
    }
    for (; i < size_a; ++i) {
        carry += a->ob_digit[i];
        z->ob_digit[i] = carry & PyLong_MASK;
        carry >>= PyLong_SHIFT;
    }
    z->ob_digit[i] = carry;
...
5 và bạn có thể thấy cách nó lặp lại trên các chữ số và thực hiện phép trừ và tính toán và truyền bá Burrow. Rất giống với bổ sung thực sự.

Phép nhân

Một lần nữa, một cách ngây thơ để thực hiện phép nhân sẽ là những gì chúng ta học được trong toán học lớp nhưng nó sẽ không hiệu quả. Python, để giữ cho mọi thứ hiệu quả thực hiện thuật toán Karatsuba nhân lên hai số N-chữ số trong các bước cơ bản O (Nˡᵒᵍ³).

Thuật toán hơi phức tạp nằm ngoài phạm vi của bài viết này nhưng bạn có thể tìm thấy việc triển khai của nó trong các hàm k_mul và k_lopsided_mul trong tệp longobject.c.
k_lopsided_mul functions in file longobject.c.

Bộ phận và các hoạt động khác

Tất cả các hoạt động trên số nguyên được xác định trong tệp longoBject.c và nó rất đơn giản để định vị và theo dõi từng cái. CẢNH BÁO: Sẽ mất một thời gian để hiểu chi tiết từng người một số bỏng ngô trước khi bạn bắt đầu lướt qua.

Tối ưu hóa các số nguyên thường được sử dụng

Python preall phân biến các số nguyên nhỏ trong phạm vi từ -5 đến 256. Phân bổ này xảy ra trong quá trình khởi tạo và vì chúng tôi không thể cập nhật số nguyên (tính bất biến) các số nguyên được phân tách này là đơn lẻ và được tham chiếu trực tiếp thay vì phân bổ lại. Điều này có nghĩa là mỗi khi chúng ta sử dụng/tạo ra một số nguyên nhỏ, python thay vì phân bổ lại chỉ trả về tham chiếu của một cái được phân bổ.

Tối ưu hóa này có thể được truy tìm trong macro

...
    for (i = 0; i < size_b; ++i) {
        carry += a->ob_digit[i] + b->ob_digit[i];
        z->ob_digit[i] = carry & PyLong_MASK;
        carry >>= PyLong_SHIFT;
    }
    for (; i < size_a; ++i) {
        carry += a->ob_digit[i];
        z->ob_digit[i] = carry & PyLong_MASK;
        carry >>= PyLong_SHIFT;
    }
    z->ob_digit[i] = carry;
...
6 và hàm get_small_int trong longobject.c. Bằng cách này, Python tiết kiệm rất nhiều không gian và tính toán cho các số nguyên thường được sử dụng.


Đây là bài viết thứ hai trong sê -ri Python Internals. Bài viết đầu tiên là cách tôi thay đổi con trăn của mình và làm cho nó trở nên đáng ngờ và nó giúp bạn thực hiện những bước đầu tiên trong mã nguồn của Python và mở đường cho bạn để trở thành nhà phát triển Python Core.

Bài viết này ban đầu được xuất bản trên blog của tôi - Làm thế nào Python thực hiện các số nguyên siêu dài ?.

Nếu bạn muốn đọc thêm các bài viết như thế này, hãy đăng ký nhận bản tin của tôi và nhận bài đăng được gửi trực tiếp vào hộp thư đến của bạn. Tôi viết về kỹ thuật, thiết kế hệ thống và một chút lập trình, mỗi thứ Sáu. Hãy cho tôi một tiếng hét @arpit_bhayani. Bạn có thể tìm thấy các bài viết trước của tôi @arpitbhayani.me/blog.

Hướng dẫn how does python store long integers? - python lưu trữ số nguyên dài như thế nào?

Làm thế nào để Python lưu trữ số nguyên trong bộ nhớ?

Python sử dụng mảng ob_digit để lưu trữ từng chữ số của số một cách riêng biệt ở các vị trí chỉ mục khác nhau.Ngoài ra, biến OB_SIZE được sử dụng để lưu trữ hai giá trị.Nó lưu trữ độ dài của mảng ob_digit và dấu hiệu của số nguyên (dương hoặc âm).uses the ob_digit array to store each digit of the number separately in different index locations. Additionally, the ob_size variable is used to store two values. It stores the length of the ob_digit array and the sign of the integer (positive or negative).

Một số nguyên có thể lớn như thế nào trong Python trong 64 bit?

int trong python3 không có giới hạn tối đa tối đa đã được thêm vào.sys.Tối đa là 2 ** 31-1 trên môi trường 32 bit và 2 ** 63-1 trên môi trường 64 bit, như SYS.Maxint trong Python2.2**63-1 on a 64-bit environment, like sys. maxint in Python2.