Mô-đun biopython

BioPython là gói các công cụ có sẵn miễn phí để tính toán sinh học được viết bằng ngôn ngữ lập trình Python. BioPython có nhiều mô-đun khác nhau cho phép bạn thực hiện các tác vụ khác nhau trên dữ liệu sinh học của mình. Do đó, bằng cách sử dụng các mô-đun có sẵn trong gói BioPython, bạn sẽ không cần viết các dòng mã dài để thực hiện một tác vụ cụ thể trên dữ liệu sinh học của mình thay vào đó, bạn chỉ cần gọi các hàm tích hợp có sẵn trong BioPython và thực hiện các tác vụ đó

Cài đặt BioPython

Để cài đặt gói BioPython, bạn cần thực hiện các bước sau

Bước 1. Mở CMD (dấu nhắc lệnh) trên windows hoặc terminal đối với hệ điều hành macOS hoặc Linux.

Bước 2. Viết lệnh. pip cài đặt biopython và nhấn enter để gọi hàm pip.

Mô-đun biopython

Bước 3. Để xác minh xem gói BioPython đã được cài đặt thành công hay chưa, hãy mở chương trình IDLE là trình thông dịch tích hợp sẵn trong ngôn ngữ lập trình Python.

Bước 4. Nhập lệnh. từ sinh học. seq nhập seq và chạy nó.

Bước 5. Nếu không có lỗi sau khi chạy lệnh có nghĩa là BioPython đã được cài đặt thành công và sẵn sàng hoạt động.

Bước 6. Mở Visual Code hoặc Jupyter Notebook và viết lệnh. sinh học. seq nhập seq và thực hiện nó.

Mô-đun biopython

Bước 7 . Nếu nó không hiển thị lỗi khi thực thi, điều đó có nghĩa là mô-đun của bạn đã sẵn sàng và bạn có thể bắt đầu làm việc với nó.

Peter J. Một. Con gà trống,1,* Tiago Antao,2 Jeffrey T. Chang,3 Brad A. Chapman,4 Cymon J. Cox,5 Andrew Dalke,6 Iddo Friedberg,7 Thomas Hamelryck,8 Frank Kauff,9 Bartek Wilczynski,10,11 và Michiel J. L. dehoon12

Peter J. Một. con gà trống

1Bệnh học thực vật, SCRI, Invergowrie, Dundee, DD2 5DA, 2Trường Y học Nhiệt đới Liverpool, Liverpool, L3 5QA, Vương quốc Anh, 3Viện Chính sách và Khoa học Bộ gen, Trung tâm Y tế Đại học Duke, Durham, NC, 4Khoa Sinh học Phân tử, Trung tâm Nghiên cứu Simches, . , La Jolla, CA 92093-0446, USA, 8Trung tâm Tin sinh học, Khoa Sinh học, Đại học Copenhagen, Ole Maaloes Vej 5, 2200 Copenhagen N, Đan Mạch, 9Molecular Phylogenetic, Khoa Sinh học, TU Kaiserslautern, 67653 Kaiserslautern, UK, 10EMBL Heidelberg

Tìm bài viết của Peter J. Một. con gà trống

Tiago Antao

1Bệnh học thực vật, SCRI, Invergowrie, Dundee, DD2 5DA, 2Trường Y học Nhiệt đới Liverpool, Liverpool, L3 5QA, Vương quốc Anh, 3Viện Chính sách và Khoa học Bộ gen, Trung tâm Y tế Đại học Duke, Durham, NC, 4Khoa Sinh học Phân tử, Trung tâm Nghiên cứu Simches, . , La Jolla, CA 92093-0446, USA, 8Trung tâm Tin sinh học, Khoa Sinh học, Đại học Copenhagen, Ole Maaloes Vej 5, 2200 Copenhagen N, Đan Mạch, 9Molecular Phylogenetic, Khoa Sinh học, TU Kaiserslautern, 67653 Kaiserslautern, UK, 10EMBL Heidelberg

Tìm bài viết của Tiago Antao

Jeffrey T. Trường

1Bệnh học thực vật, SCRI, Invergowrie, Dundee, DD2 5DA, 2Trường Y học Nhiệt đới Liverpool, Liverpool, L3 5QA, Vương quốc Anh, 3Viện Chính sách và Khoa học Bộ gen, Trung tâm Y tế Đại học Duke, Durham, NC, 4Khoa Sinh học Phân tử, Trung tâm Nghiên cứu Simches, . , La Jolla, CA 92093-0446, USA, 8Trung tâm Tin sinh học, Khoa Sinh học, Đại học Copenhagen, Ole Maaloes Vej 5, 2200 Copenhagen N, Đan Mạch, 9Molecular Phylogenetic, Khoa Sinh học, TU Kaiserslautern, 67653 Kaiserslautern, UK, 10EMBL Heidelberg

Tìm bài viết của Jeffrey T. Trường

Brad A. Chapman

1Bệnh học thực vật, SCRI, Invergowrie, Dundee, DD2 5DA, 2Trường Y học Nhiệt đới Liverpool, Liverpool, L3 5QA, Vương quốc Anh, 3Viện Chính sách và Khoa học Bộ gen, Trung tâm Y tế Đại học Duke, Durham, NC, 4Khoa Sinh học Phân tử, Trung tâm Nghiên cứu Simches, . , La Jolla, CA 92093-0446, USA, 8Trung tâm Tin sinh học, Khoa Sinh học, Đại học Copenhagen, Ole Maaloes Vej 5, 2200 Copenhagen N, Đan Mạch, 9Molecular Phylogenetic, Khoa Sinh học, TU Kaiserslautern, 67653 Kaiserslautern, UK, 10EMBL Heidelberg

Tìm bài viết của Brad A. Chapman

Cymon J. Cox

1Bệnh học thực vật, SCRI, Invergowrie, Dundee, DD2 5DA, 2Trường Y học Nhiệt đới Liverpool, Liverpool, L3 5QA, Vương quốc Anh, 3Viện Chính sách và Khoa học Bộ gen, Trung tâm Y tế Đại học Duke, Durham, NC, 4Khoa Sinh học Phân tử, Trung tâm Nghiên cứu Simches, . , La Jolla, CA 92093-0446, USA, 8Trung tâm Tin sinh học, Khoa Sinh học, Đại học Copenhagen, Ole Maaloes Vej 5, 2200 Copenhagen N, Đan Mạch, 9Molecular Phylogenetic, Khoa Sinh học, TU Kaiserslautern, 67653 Kaiserslautern, UK, 10EMBL Heidelberg

Tìm bài viết của Cymon J. Cox

Andrew Dalke

1Bệnh học thực vật, SCRI, Invergowrie, Dundee, DD2 5DA, 2Trường Y học Nhiệt đới Liverpool, Liverpool, L3 5QA, Vương quốc Anh, 3Viện Chính sách và Khoa học Bộ gen, Trung tâm Y tế Đại học Duke, Durham, NC, 4Khoa Sinh học Phân tử, Trung tâm Nghiên cứu Simches, . , La Jolla, CA 92093-0446, USA, 8Trung tâm Tin sinh học, Khoa Sinh học, Đại học Copenhagen, Ole Maaloes Vej 5, 2200 Copenhagen N, Đan Mạch, 9Molecular Phylogenetic, Khoa Sinh học, TU Kaiserslautern, 67653 Kaiserslautern, UK, 10EMBL Heidelberg

Tìm bài viết của Andrew Dalke

Iddo Friedberg

1Bệnh học thực vật, SCRI, Invergowrie, Dundee, DD2 5DA, 2Trường Y học Nhiệt đới Liverpool, Liverpool, L3 5QA, Vương quốc Anh, 3Viện Chính sách và Khoa học Bộ gen, Trung tâm Y tế Đại học Duke, Durham, NC, 4Khoa Sinh học Phân tử, Trung tâm Nghiên cứu Simches, . , La Jolla, CA 92093-0446, USA, 8Trung tâm Tin sinh học, Khoa Sinh học, Đại học Copenhagen, Ole Maaloes Vej 5, 2200 Copenhagen N, Đan Mạch, 9Molecular Phylogenetic, Khoa Sinh học, TU Kaiserslautern, 67653 Kaiserslautern, UK, 10EMBL Heidelberg

Tìm bài viết của Iddo Friedberg

Thomas Hamelryck

1Bệnh học thực vật, SCRI, Invergowrie, Dundee, DD2 5DA, 2Trường Y học Nhiệt đới Liverpool, Liverpool, L3 5QA, Vương quốc Anh, 3Viện Chính sách và Khoa học Bộ gen, Trung tâm Y tế Đại học Duke, Durham, NC, 4Khoa Sinh học Phân tử, Trung tâm Nghiên cứu Simches, . , La Jolla, CA 92093-0446, USA, 8Trung tâm Tin sinh học, Khoa Sinh học, Đại học Copenhagen, Ole Maaloes Vej 5, 2200 Copenhagen N, Đan Mạch, 9Molecular Phylogenetic, Khoa Sinh học, TU Kaiserslautern, 67653 Kaiserslautern, UK, 10EMBL Heidelberg

Tìm bài viết của Thomas Hamelryck

Frank Kauff

1Bệnh học thực vật, SCRI, Invergowrie, Dundee, DD2 5DA, 2Trường Y học Nhiệt đới Liverpool, Liverpool, L3 5QA, Vương quốc Anh, 3Viện Chính sách và Khoa học Bộ gen, Trung tâm Y tế Đại học Duke, Durham, NC, 4Khoa Sinh học Phân tử, Trung tâm Nghiên cứu Simches, . , La Jolla, CA 92093-0446, USA, 8Trung tâm Tin sinh học, Khoa Sinh học, Đại học Copenhagen, Ole Maaloes Vej 5, 2200 Copenhagen N, Đan Mạch, 9Molecular Phylogenetic, Khoa Sinh học, TU Kaiserslautern, 67653 Kaiserslautern, UK, 10EMBL Heidelberg

Tìm bài viết của Frank Kauff

Bartek Wilczynski

1Bệnh học thực vật, SCRI, Invergowrie, Dundee, DD2 5DA, 2Trường Y học Nhiệt đới Liverpool, Liverpool, L3 5QA, Vương quốc Anh, 3Viện Chính sách và Khoa học Bộ gen, Trung tâm Y tế Đại học Duke, Durham, NC, 4Khoa Sinh học Phân tử, Trung tâm Nghiên cứu Simches, . , La Jolla, CA 92093-0446, USA, 8Trung tâm Tin sinh học, Khoa Sinh học, Đại học Copenhagen, Ole Maaloes Vej 5, 2200 Copenhagen N, Đan Mạch, 9Molecular Phylogenetic, Khoa Sinh học, TU Kaiserslautern, 67653 Kaiserslautern, UK, 10EMBL Heidelberg

Tìm bài viết của Bartek Wilczynski

Michiel J. L. de Hoon

1Bệnh học thực vật, SCRI, Invergowrie, Dundee, DD2 5DA, 2Trường Y học Nhiệt đới Liverpool, Liverpool, L3 5QA, Vương quốc Anh, 3Viện Chính sách và Khoa học Bộ gen, Trung tâm Y tế Đại học Duke, Durham, NC, 4Khoa Sinh học Phân tử, Trung tâm Nghiên cứu Simches, . , La Jolla, CA 92093-0446, USA, 8Trung tâm Tin sinh học, Khoa Sinh học, Đại học Copenhagen, Ole Maaloes Vej 5, 2200 Copenhagen N, Đan Mạch, 9Molecular Phylogenetic, Khoa Sinh học, TU Kaiserslautern, 67653 Kaiserslautern, UK, 10EMBL Heidelberg

Tìm bài viết của Michiel J. L. de Hoon

Thông tin tác giả Ghi chú bài viết Thông tin bản quyền và giấy phép Tuyên bố miễn trừ trách nhiệm

1Bệnh học thực vật, SCRI, Invergowrie, Dundee, DD2 5DA, 2Trường Y học Nhiệt đới Liverpool, Liverpool, L3 5QA, Vương quốc Anh, 3Viện Chính sách và Khoa học Bộ gen, Trung tâm Y tế Đại học Duke, Durham, NC, 4Khoa Sinh học Phân tử, Trung tâm Nghiên cứu Simches, . , La Jolla, CA 92093-0446, USA, 8Trung tâm Tin sinh học, Khoa Sinh học, Đại học Copenhagen, Ole Maaloes Vej 5, 2200 Copenhagen N, Đan Mạch, 9Molecular Phylogenetic, Khoa Sinh học, TU Kaiserslautern, 67653 Kaiserslautern, UK, 10EMBL Heidelberg

* Gửi thư từ cho ai

Phó Tổng biên tập. Dmitrij Frishman

Nhận 2009 ngày 11 tháng 3;

Bản quyền © 2009 (Các) Tác giả

Đây là một bài viết Truy cập Mở được phân phối theo các điều khoản của Giấy phép phi thương mại Creative Commons Attribution (http. //Commons sáng tạo. org/giấy phép/by-nc/2. 0/uk/) cho phép sử dụng, phân phối và sao chép phi thương mại không hạn chế ở bất kỳ phương tiện nào, miễn là tác phẩm gốc được trích dẫn chính xác

trừu tượng

Bản tóm tắt. Dự án Biopython là một sự hợp tác quốc tế nguồn mở trưởng thành của các nhà phát triển tình nguyện, cung cấp các thư viện Python cho một loạt các vấn đề về tin sinh học. Biopython bao gồm các mô-đun để đọc và ghi các định dạng tệp trình tự khác nhau và sắp xếp nhiều trình tự, xử lý các cấu trúc phân tử vĩ mô 3D, tương tác với các công cụ phổ biến như BLAST, ClustalW và EMBOSS, truy cập cơ sở dữ liệu trực tuyến chính cũng như cung cấp các phương pháp số để học thống kê

khả dụng. Biopython được cung cấp miễn phí, với tài liệu và mã nguồn tại www. trăn sinh học. org theo giấy phép Biopython

Tiếp xúc. Tất cả các truy vấn phải được chuyển đến danh sách gửi thư của Biopython, xem www. trăn sinh học. org/wiki/_Mailing_listsku. ca. [email protected] lặp đi lặp lại

1. GIỚI THIỆU

Trăn (www. con trăn. org) và Biopython là các công cụ mã nguồn mở miễn phí, có sẵn cho tất cả các hệ điều hành chính. Python là một ngôn ngữ lập trình cấp cao, được sử dụng rộng rãi trong thương mại và học thuật. Nó có cú pháp dễ học, khả năng lập trình hướng đối tượng và một loạt các thư viện. Python có thể giao tiếp với mã được tối ưu hóa được viết bằng C, C++ hoặc thậm chí FORTRAN và cùng với dự án Numerical Python numpy (Oliphant, 2006), là một lựa chọn tốt cho lập trình khoa học (Oliphant, 2007). Python thậm chí đã được sử dụng trong lĩnh vực đòi hỏi số lượng của động lực học phân tử (Hinsen, 2000). Ngoài ra còn có các thư viện vẽ đồ thị chất lượng cao như matplotlib (matplotlib. nguồn. mạng) có sẵn

Kể từ khi được thành lập vào năm 1999 (Chapman và Chang, 2000), Biopython đã phát triển thành một bộ sưu tập lớn các mô-đun, được mô tả ngắn gọn bên dưới, dành cho các nhà lập trình sinh học tính toán hoặc tin sinh học sử dụng trong các tập lệnh hoặc tích hợp vào phần mềm của riêng họ. Trang web của chúng tôi liệt kê hơn 100 ấn phẩm sử dụng hoặc trích dẫn Biopython

Tổ chức tin sinh học mở (OBF, www. sinh học mở. org) lưu trữ trang web của chúng tôi, kho lưu trữ mã nguồn, cơ sở dữ liệu theo dõi lỗi và danh sách gửi thư qua email, đồng thời hỗ trợ BioPerl có liên quan (Stajich et al. , 2002), BioJava (Hà Lan và cộng sự. , 2008), BioRuby (www. hồng ngọc. org) và BioSQL (www. sinh học. dự án tổ chức

2 TÍNH NĂNG SINH HỌC

Đối tượng Seq là biểu diễn trình tự cốt lõi của Biopython. Nó hoạt động rất giống một chuỗi Python nhưng có thêm một bảng chữ cái (ví dụ: cho phép khai báo rõ ràng về chuỗi protein) và một số phương pháp quan trọng liên quan đến sinh học. Ví dụ,

Mô-đun biopython

Chú thích trình tự được biểu diễn bằng các đối tượng SeqRecord làm tăng đối tượng Seq với các thuộc tính như tên bản ghi, mã định danh và mô tả và khoảng trống cho các thuật ngữ khóa/giá trị bổ sung. SeqRecord cũng có thể chứa một danh sách các đối tượng SeqFeature mô tả các tính năng phụ của chuỗi với vị trí và chú thích của riêng chúng

Sinh học. Mô-đun SeqIO cung cấp một giao diện đơn giản để đọc và ghi các tệp trình tự sinh học ở nhiều định dạng khác nhau ( Bảng 1 ), trong đó bất kể định dạng tệp là gì, thông tin đều được lưu giữ . sinh học. SeqIO diễn giải nhiều định dạng tệp căn chỉnh trình tự dưới dạng các tập hợp có độ dài bằng nhau (có khoảng cách) trình tự. Ngoài ra, sinh học. AlignIO hoạt động trực tiếp với sự sắp xếp, bao gồm các tệp chứa nhiều hơn một căn chỉnh (e. g. sắp xếp lại mẫu cho bootstrapping, hoặc nhiều sắp xếp theo cặp). Mô-đun liên quan Sinh học. Nexus, được phát triển cho Kauff et al. (2007), hỗ trợ các công cụ phát sinh loài sử dụng giao diện NEXUS (Maddison et al. , 1997) hoặc định dạng cây tiêu chuẩn Newick.

Bảng 1

Sinh học đã chọn. SeqIO hoặc Bio. Định dạng tệp AlignIO

FormatR/WName và tham chiếufastaR+WFASTA (Pearson và Lipman, 1988)genbankR+WGenBank (Benson et al. , 2007)emblREMBL (Kulikova et al. , 2006)swissRSwiss-Prot/TrEMBL hoặc UniProtKB(The UniProt Consortium, 2007)clustalR+WClustal W (Thompson et al. , 1994)phylipR+WPHYLIP (Felsenstein, 1989)stockholmR+WStockholm hoặc Pfam (Bateman et al. , 2004)nexus+NEXUS (Madison et al. , 1997)

Mở trong cửa sổ riêng

Nếu có thể, tên định dạng của chúng tôi (cột 'Định dạng') khớp với BioPerl và EMBOSS (Rice et al. , 2000). Cột 'R/W' biểu thị hỗ trợ đọc (R) và viết (W)

Các mô-đun cho một số cơ sở dữ liệu trực tuyến được bao gồm, chẳng hạn như NCBI Entrez Utilities, ExPASy, InterPro, KEGG và SCOP. sinh học. Blast có thể gọi máy chủ Blast trực tuyến của NCBI hoặc cài đặt độc lập cục bộ và bao gồm trình phân tích cú pháp cho đầu ra XML của chúng. Biopython cũng có mã bao bọc cho các công cụ dòng lệnh khác, chẳng hạn như ClustalW và EMBOSS. sinh học. Mô-đun PDB cung cấp trình phân tích cú pháp tệp PDB và chức năng liên quan đến cấu trúc đại phân tử (Hamelryck và Manderick, 2003). mô-đun sinh học. Motif cung cấp hỗ trợ cho phân tích mô-đun trình tự (tìm kiếm, so sánh và học mới). Khả năng xuất đồ họa của Biopython gần đây đã được mở rộng đáng kể bằng cách đưa vào GenomeDiagram (Pritchard et al. , 2006)

Biopython chứa các mô-đun để học thống kê có giám sát, chẳng hạn như phương pháp Bayes và mô hình Markov, cũng như học tập không giám sát, chẳng hạn như phân cụm (De Hoon et al. , 2004)

Mô-đun di truyền dân số cung cấp các hàm bao cho GENEPOP (Rousset, 2007), mô phỏng kết hợp thông qua SIMCOAL2 (Laval và Excoffier, 2004) và phát hiện chọn lọc dựa trên phương pháp phát hiện ngoại lệ Fst được đánh giá tốt (Beaumont và Nichols, 1996)

BioSQL (www. sinh học. org) là một sáng kiến ​​khác được OBF hỗ trợ, là sự hợp tác chung giữa BioPerl, Biopython, BioJava và BioRuby để hỗ trợ tải và truy xuất các chuỗi được chú thích đến và từ cơ sở dữ liệu SQL bằng lược đồ tiêu chuẩn. Mỗi dự án cung cấp một ánh xạ quan hệ đối tượng (ORM) giữa lược đồ được chia sẻ và mô hình đối tượng của chính nó (một SeqRecord trong Biopython). Ví dụ, xBASE (Chaudhuri và Pallen, 2006) sử dụng BioSQL với cả BioPerl và Biopython

3 KẾT LUẬN

Biopython là một giao diện lập trình ứng dụng (API) nguồn mở lớn được sử dụng trong cả phát triển phần mềm tin sinh học và trong các tập lệnh hàng ngày cho các tác vụ tin sinh học phổ biến. Trang chủ www. trăn sinh học. org cung cấp quyền truy cập vào mã nguồn, tài liệu và danh sách gửi thư. Các tính năng được mô tả ở đây chỉ là một tập hợp con;

SỰ NHÌN NHẬN

OBF lưu trữ và hỗ trợ dự án. Xin chân thành cảm ơn nhiều người đóng góp cho Biopython trong những năm qua, danh sách quá dài nên không thể sao chép lại ở đây

Các mô-đun trong Biopython là gì?

Các mô-đun riêng biệt mở rộng khả năng của Biopython sang sắp xếp trình tự, cấu trúc protein, di truyền quần thể, phát sinh loài, mô típ trình tự và học máy . Biopython là một trong số các dự án Bio* được thiết kế để giảm sự trùng lặp mã trong sinh học tính toán.

Biopython có sử dụng NumPy không?

Bản phát hành cũ. Các bản phát hành gần đây của Biopython yêu cầu NumPy (chứ không phải Numeric).

Biopython có phải là thư viện không?

Biopython là một bộ công cụ có sẵn miễn phí để tính toán sinh học được viết bằng Python bởi một nhóm các nhà phát triển quốc tế. Đó là một nỗ lực hợp tác phân tán để phát triển các thư viện và ứng dụng Python nhằm giải quyết nhu cầu của công việc hiện tại và tương lai trong lĩnh vực tin sinh học.

SeqIO là gì?

SeqIO cung cấp giao diện thống nhất đơn giản để nhập và xuất các định dạng tệp trình tự khác nhau (bao gồm nhiều sắp xếp trình tự), nhưng sẽ chỉ xử lý các trình tự . Có một giao diện chị em Bio. AlignIO để làm việc trực tiếp với các tệp căn chỉnh trình tự dưới dạng đối tượng Căn chỉnh.