Hướng dẫn python for genomic data science quiz answers - python cho câu trả lời câu đố khoa học dữ liệu bộ gen

Python-for-Genomic-Data-Science-Coursera

Python cho khoa học dữ liệu bộ gen từ Đại học Johns Hopkins.

Viết một chương trình Python lấy một tệp đầu vào chứa các chuỗi DNA ở định dạng đa nhanh và tính toán câu trả lời cho các câu hỏi sau. Bạn có thể chọn viết một chương trình với nhiều chức năng để trả lời những câu hỏi này hoặc bạn có thể viết một số chương trình để giải quyết chúng. Chúng tôi sẽ cung cấp một tệp đa nhanh cho bạn và bạn sẽ chạy chương trình của mình để trả lời các câu hỏi thi.

Trong khi phát triển (các) chương trình của bạn, vui lòng sử dụng tệp ví dụ sau để kiểm tra công việc của bạn: DNA.example.fasta

Bạn sẽ được cung cấp một tệp đầu vào khác để khởi chạy bài kiểm tra. Dưới đây là những câu hỏi mà chương trình của bạn cần trả lời. Bản thân bài kiểm tra chứa các câu hỏi trắc nghiệm cụ thể bạn cần trả lời cho tệp bạn sẽ được cung cấp.

(1) Có bao nhiêu bản ghi trong tệp? Một bản ghi trong tệp FASTA được định nghĩa là tiêu đề một dòng, theo sau là các dòng dữ liệu chuỗi. Dòng tiêu đề được phân biệt với dữ liệu trình tự bằng biểu tượng lớn hơn (">") trong cột đầu tiên. Từ sau ký hiệu ">" là định danh của chuỗi và phần còn lại của dòng là một mô tả tùy chọn của mục nhập. Không nên có khoảng trống giữa ">" và chữ cái đầu tiên của định danh.

(2) Độ dài của các chuỗi trong tệp là gì? Trình tự dài nhất là gì và trình tự ngắn nhất là gì? Có nhiều hơn một chuỗi dài nhất hoặc ngắn nhất? Định danh của họ là gì?

. Tùy thuộc vào nơi chúng ta bắt đầu, có sáu khung đọc có thể: ba theo hướng chuyển tiếp (5 'đến 3') và ba ở ngược (3 'đến 5'). Chẳng hạn, ba khung đọc chuyển tiếp có thể cho chuỗi Aggtgacaccgcaagcctatattagc là: trình tự là:

AGG TGA CAC CGC AAG CCT TAT ATT

GGT GAC ACC GCA AGC CTT ATA TTA GC

AG GTG ACA CCG CAA GCC TTA TAT TAG C

Chúng được gọi là Reading Frames 1, 2 và 3 tương ứng. Khung đọc mở (ORF) là một phần của khung đọc có khả năng mã hóa protein. Nó bắt đầu với một codon bắt đầu (ATG) và kết thúc bằng một codon dừng (TAA, TAG hoặc TGA). Ví dụ, Atgaaatag là một ORF có độ dài 9.

Cho một khung đọc đầu vào trên chuỗi chuyển tiếp (1, 2 hoặc 3) chương trình của bạn sẽ có thể xác định tất cả các ORF có trong mỗi chuỗi của tệp FASTA và trả lời các câu hỏi sau: Độ dài của ORF dài nhất là bao nhiêu tập tin? Định danh của chuỗi chứa ORF dài nhất là gì? Đối với một định danh trình tự nhất định, ORF dài nhất có chứa trong chuỗi được biểu thị bằng định danh đó là gì? Vị trí bắt đầu của ORF dài nhất trong chuỗi có chứa nó là gì? Vị trí sẽ chỉ ra số ký tự trong chuỗi. Chẳng hạn, ORF sau trong khung đọc 1:

sequence1

ATGCCCTAG

Bắt đầu ở vị trí 1.

Lưu ý rằng vì chuỗi sau:

sequence2

Atgaaaaaa

Không có bất kỳ codon dừng nào trong khung đọc 1, chúng tôi không coi đó là một ORF trong Reading Frame 1.

(4) Lặp lại là một chuỗi con của chuỗi DNA xảy ra trong nhiều bản sao (nhiều hơn một) ở đâu đó trong chuỗi. Mặc dù các lần lặp lại có thể xảy ra trên cả hai chuỗi chuyển tiếp và ngược của chuỗi DNA, chúng tôi sẽ chỉ xem xét lặp lại trên chuỗi chuyển tiếp ở đây. Ngoài ra, chúng tôi sẽ cho phép lặp lại để trùng lặp bản thân. Ví dụ: trình tự ACACA chứa hai bản sao của chuỗi ACA - một lần ở vị trí 1 (chỉ số 0 trong Python) và một lần ở vị trí 3. Cho độ dài n, chương trình của bạn sẽ có thể xác định tất cả các lần lặp lại độ dài n trong tất cả Trình tự trong tệp FASTA. Chương trình của bạn cũng nên xác định số lần lặp lại mỗi lần lặp lại trong tệp và đó là lần lặp lại thường xuyên nhất của một độ dài nhất định.

    • Hành động

      Tự động hóa bất kỳ quy trình làm việc

    • Gói

      Máy chủ và quản lý các gói

    • Bảo vệ

      Tìm và sửa chữa lỗ hổng

    • Không gian mã hóa

      Môi trường dev tức thì

    • Phi công phụ

      Viết mã tốt hơn bằng AI

    • Đánh giá mã

      Quản lý thay đổi mã

    • Vấn đề

      Lập kế hoạch và theo dõi công việc

    • Thảo luận

      Hợp tác bên ngoài mã

    • Khám phá
    • Tất cả các tính năng
    • Tài liệu
    • Kỹ năng GitHub
    • Blog

    • Theo kế hoạch
    • Doanh nghiệp
    • Đội
    • So sánh tất cả
    • Bằng giải pháp
    • CI/CD & tự động hóa
    • DevOps
    • DevSecops
    • Nghiên cứu trường hợp
    • Câu chuyện của khách hàng
    • Tài nguyên

    • Nhà tài trợ GitHub

      Quỹ phát triển nguồn mở

    • Dự án Readme

      Bài viết cộng đồng GitHub

    • Kho lưu trữ
    • Chủ đề
    • Xu hướng
    • Bộ sưu tập

  • Giá cả