ინფორმაცია

HapMap 3 ფაზიანი ჰაპლოტიპი

HapMap 3 ფაზიანი ჰაპლოტიპი



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

მე უნდა მივიღო HapMap 3 ეტაპობრივი ჰაპლოტიპის მონაცემები. სად ვიპოვო?

რეალურად მე მჭირდება ეს მონაცემები კონკრეტული პოპულაციებისთვის და კონკრეტული გენისთვის. რა არის ყველაზე მარტივი გზა მონაცემების მოსაძებნად?

იმედია ვიპოვი პასუხს. Გმადლობთ!


აქ არის FTP მისამართი. შიგნით თქვენ იპოვით საქაღალდეს Phase_3. სხვა კითხვებისთვის შეამოწმეთ ეს გვერდი (HelpDesk-ის ბმული არის გვერდის ბოლოში).


საერთაშორისო HapMap პროექტი

მთელი ადამიანის გენომის გარკვევამ შესაძლებელი გახადა ჩვენი ამჟამინდელი მცდელობა შეგვექმნა ადამიანის გენომის ჰაპლოტიპური რუკა. ჰაპლოტიპის რუკა, ანუ „HapMap“ არის ინსტრუმენტი, რომელიც მკვლევარებს საშუალებას აძლევს იპოვონ გენები და გენეტიკური ვარიაციები, რომლებიც გავლენას ახდენენ ჯანმრთელობასა და დაავადებებზე.

ნებისმიერი ორი ადამიანის დნმ-ის თანმიმდევრობა 99,5 პროცენტით იდენტურია. თუმცა, ვარიაციები შეიძლება დიდად იმოქმედოს ინდივიდის დაავადების რისკზე. დნმ-ის მიმდევრობის ადგილებს, სადაც ინდივიდები განსხვავდებიან დნმ-ის ერთ ბაზაზე, ეწოდება ერთი ნუკლეოტიდის პოლიმორფიზმი (SNP). ერთსა და იმავე ქრომოსომაზე მიმდებარე SNP-ების კომპლექტები მემკვიდრეობით მიიღება ბლოკებად. SNP-ების ეს ნიმუში ბლოკზე არის ჰაპლოტიპი. ბლოკები შეიძლება შეიცავდეს SNP-ების დიდ რაოდენობას, მაგრამ რამდენიმე SNP საკმარისია ბლოკში ჰაპლოტიპების ცალსახად იდენტიფიცირებისთვის. HapMap არის ამ ჰაპლოტიპური ბლოკების რუკა და სპეციფიკურ SNP-ებს, რომლებიც იდენტიფიცირებენ ჰაპლოტიპებს, ეწოდება tag SNP.

HapMap ღირებულია SNP-ების რაოდენობის შემცირებით, რომლებიც საჭიროა მთელი გენომის შესასწავლად ფენოტიპთან ასოციაციისთვის 10 მილიონი SNP-დან, რომელიც არსებობს დაახლოებით 500,000 tag SNP-მდე. ეს ხდის გენომის სკანირების მიდგომებს გენების მქონე რეგიონების პოვნაზე, რომლებიც გავლენას ახდენენ დაავადებებზე, ბევრად უფრო ეფექტურ და ყოვლისმომცველად, რადგან ძალისხმევა არ იხარჯება საჭიროზე მეტი SNP-ის აკრეფით და გენომის ყველა რეგიონი შეიძლება იყოს ჩართული.

დაავადებასთან გენეტიკური ასოციაციების შესასწავლად გამოყენების გარდა, HapMap არის ძლიერი რესურსი გენეტიკური ფაქტორების შესასწავლად, რომლებიც ხელს უწყობენ ვარიაციას გარემო ფაქტორების საპასუხოდ, ინფექციისადმი მგრძნობელობისა და წამლებისა და ვაქცინების ეფექტურობისა და უარყოფითი რეაქციების მიმართ. ყველა ასეთი კვლევა ეფუძნება მოლოდინს, რომ არსებობს უფრო მაღალი სიხშირე გენეტიკური კომპონენტების ხელშემწყობი ადამიანების ჯგუფში, რომლებსაც აქვთ დაავადება ან განსაკუთრებული რეაქცია წამალზე, ვაქცინაზე, პათოგენზე ან გარემო ფაქტორზე, ვიდრე მსგავსი ადამიანების ჯგუფში დაავადების გარეშე. ან პასუხი. მხოლოდ SNP-ის ტეგების გამოყენებით, მკვლევარებს შეუძლიათ იპოვონ ქრომოსომის რეგიონები, რომლებსაც აქვთ განსხვავებული ჰაპლოტიპური განაწილება ადამიანთა ორ ჯგუფში, დაავადების ან პასუხის მქონე და მათ გარეშე. შემდეგ თითოეული რეგიონი უფრო დეტალურად არის შესწავლილი, რათა აღმოაჩინოს, რომელ ვარიანტებში რომელ გენებს უწყობენ ხელს დაავადებას ან პასუხს, რაც იწვევს უფრო ეფექტურ ინტერვენციებს. ეს ასევე იძლევა ტესტების შემუშავების საშუალებას, რათა განვსაზღვროთ, რომელი წამალი ან ვაქცინა იქნება ყველაზე ეფექტური კონკრეტული გენოტიპის მქონე პირებში, რომლებიც გავლენას ახდენენ წამლის მეტაბოლიზმზე.

საერთაშორისო HapMap ინფორმაცია, პროექტის მოვლენები და ანგარიშები

HapMap ინფორმაცია
    [hapmap.ncbi.nlm.nih.gov]
    კანადის, ჩინეთის, იაპონიის, ნიგერიის, გაერთიანებული სამეფოსა და შეერთებული შტატების მეცნიერებისა და დაფინანსების სააგენტოების HapMap Project-ის ვებ-გვერდი.
    [hapmap.ncbi.nlm.nih.gov]

  • HapMap Project News Release: საერთაშორისო კონსორციუმი იწყებს გენეტიკური ვარიაციების რუკების პროექტს 2002 წლის 29 ოქტომბერი
Ივენთი

    ვებგადაცემა 2005 წლის 27 ოქტომბრის გაკვეთილისთვის: როგორ გამოვიყენოთ HapMap მონაცემები.
      [hapmap.ncbi.nlm.nih.gov]
      დამხმარე მასალები ორსაათიანი გაკვეთილისთვის HapMap ეფექტური გამოყენების შესახებ. მოიცავს HapMap-ის შესავალს, HapMap-ის გამოყენებას ასოციაციის კვლევებისთვის, ტეგების SNP-ის შერჩევას, ანალიზების გაუმჯობესებას ჩიპების გამოყენებით წინასწარ შერჩეული SNP-ებით და გზამკვლევი HapMap ვებ გვერდებისთვის.
    შეხვედრის ანგარიშები

    საერთაშორისო HapMap პროექტის დოკუმენტები

    საერთაშორისო HapMap კონსტორციუმი. მეორე თაობის ადამიანის ჰაპლოტიპის რუკა 3,1 მილიონზე მეტი SNP-ით. Ბუნება, 449:851-862. 2007. [სრული ტექსტი]

    საერთაშორისო HapMap კონსტორციუმი. დამატებითი ინფორმაცია: მეორე თაობის ადამიანის ჰაპლოტიპის რუკა 3.1 მილიონზე მეტი SNP. Ბუნება, 449:1—38. 2007. [სრული ტექსტი]

    გენომის მასშტაბით გამოვლენა და პოზიტიური შერჩევის დახასიათება ადამიანის პოპულაციაში. Ბუნება, 449:913-919. 2007. [სრული ტექსტი]

    საერთაშორისო HapMap კონსორციუმი. ადამიანის გენომის ჰაპლოტიპური რუკა. Ბუნება, 437: 1229-1320 წწ. 2005. [სრული ტექსტი]

    საერთაშორისო HapMap კონსორციუმი. საერთაშორისო HapMap პროექტი. Ბუნება, 426: 789-796. 2003. [სრული ტექსტი]

    საერთაშორისო HapMap კონსორციუმი. ეთიკისა და მეცნიერების ინტეგრირება საერთაშორისო HapMap პროექტში. ბუნების გენეტიკა, 5: 467-475. 2004. [სრული ტექსტი]

    Thorisson, G.A., Smith A.V., Krishnan L. და Stein, L.D. საერთაშორისო HapMap პროექტის ვებ-გვერდი. გენომის კვლევა, 15:1592-1593. 2005. [PubMed] [გენომის კვლევა]

    საერთაშორისო HapMap პროექტთან დაკავშირებული ნაშრომები

    Clark, A.G., Hubisz, M.J., Bustamante C.D., Williamson, S.H. და Nielsen, R. Ascertainment bias ადამიანის გენომის ფართო პოლიმორფიზმის კვლევებში. გენომის კვლევა, 15:1496-1502. 2005 წელი. [PubMed]

    გოლდშტეინი, D.B. და Cavalleri, G.L. Genomics: ადამიანის მრავალფეროვნების გაგება. Ბუნება, 437:1241-1242. 2005. [სრული ტექსტი] [nature.com]

    Hinds, D.A., Stuve, L.L., Nilsen, G.B., Halperin, E., Eskin, E., Ballinger, D.G., Frazer, K.A., და Cox, D.R. საერთო დნმ-ის ცვალებადობის მთლიანი გენომის ნიმუშები ადამიანის სამ პოპულაციაში. მეცნიერება, 307:1072-1079. 2005 წელი. [PubMed]

    Myers, S., Bottolo, L., Freeman, C., McVean, G., and Donnelly, P. ადამიანის გენომში რეკომბინაციის სიჩქარისა და ცხელ წერტილების წვრილმასშტაბიანი რუკა. მეცნიერება, 310:321-324. 2005 წელი. [PubMed]


    ფართო ინსტიტუტი

    Ეს არის გამოშვების პროექტი 1 გენომის მასშტაბით SNP გენოტიპირებისთვის და მიზნობრივი თანმიმდევრობისთვის დნმ-ის ნიმუშებში ადამიანის სხვადასხვა პოპულაციისგან (ზოგჯერ მოიხსენიება როგორც "HapMap 3" ნიმუშები).

    ეს გამოცემა შეიცავს შემდეგ მონაცემებს:

    • SNP გენოტიპის მონაცემები გენერირებული 1115 ნიმუშიდან, შეგროვებული ორი პლატფორმის გამოყენებით: Illumina Human1M (Wellcome Trust Sanger Institute-ის მიერ) და Affymetrix SNP 6.0 (Broad Institute-ის მიერ). ორი პლატფორმის მონაცემები გაერთიანდა ამ გამოშვებისთვის.
    • PCR-ზე დაფუძნებული ხელახალი თანმიმდევრობის მონაცემები (ბეილორის მედიცინის კოლეჯის ადამიანის გენომის თანმიმდევრობის ცენტრის მიერ) ათ 100 კბ რეგიონში (ერთად მოხსენიებული, როგორც "ENCODE 3") 712 ნიმუშში.

    ვინაიდან ეს არის გამოშვების პროექტი, გთხოვთ, რეგულარულად შეამოწმოთ ეს საიტი განახლებებისა და ახალი გამოცემებისთვის.

    მონაცემთა წარმოების ინსტიტუტები

    დაფინანსების სააგენტოები

    HapMap 3 ნიმუშები

    HapMap 3-ის ნიმუშების კოლექცია მოიცავს 1,301 ნიმუშს (მათ შორის ორიგინალური 270 ნიმუში, რომელიც გამოიყენება საერთაშორისო HapMap პროექტის I და II ფაზაში) 11 პოპულაციიდან, რომლებიც ჩამოთვლილია ქვემოთ ანბანურად მათი 3 ასოიანი ეტიკეტებით. ამ ნიმუშების შესახებ დამატებითი ინფორმაციისთვის დააწკაპუნეთ აქ.

    ეტიკეტი მოსახლეობის ნიმუში ნიმუშების რაოდენობა
    ASW აფრიკული წარმოშობა სამხრეთ-დასავლეთ აშშ-ში 90
    CEU იუტას მაცხოვრებლები ჩრდილოეთ და დასავლეთ ევროპული წარმომავლობით CEPH კოლექციიდან 180
    CHB ჰან ჩინური პეკინში, ჩინეთი 90
    CHD ჩინელები მეტროპოლიტენ დენვერში, კოლორადო 100
    GIH გუჯარათი ინდიელები ჰიუსტონში, ტეხასი 100
    JPT იაპონური ტოკიოში, იაპონია 91
    LWK ლუჰია ვებუიეში, კენია 100
    მექსი მექსიკური წარმოშობა ლოს-ანჯელესში, კალიფორნია 90
    MKK მასაი კინიავაში, კენია 180
    TSI ტოსკანები იტალიაში 100
    YRI იორუბა იბადანში, ნიგერია 180

    ENCODE 3 რეგიონები

    ათი ENCODE 3 რეგიონიდან ხუთი გადახურულია HapMap-ENCODE რეგიონებთან, დანარჩენი ხუთი არის შემთხვევით შერჩეული ENCODE სამიზნე რეგიონებიდან (გარდა 10 HapMap-ENCODE რეგიონისა). ყველა ENCODE 3 რეგიონი არის 100 კბაიტის ზომის და ორიენტირებულია თითოეულ შესაბამის ENCODE რეგიონში. წაიკითხეთ მეტი ENCODE პროექტის შესახებ აქ.

    რეგიონი ქრომოსომა კოორდინატები (NCBI build 36) სტატუსი
    ENm010 7 27,124,046-27,224,045 HapMap-ENCODE
    ENr321 8 119,082,221-119,182,220 HapMap-ENCODE
    ENr232 9 130,925,123-131,025,122 HapMap-ENCODE
    ENr123 12 38,826,477-38,926,476 HapMap-ENCODE
    ENr213 18 23,919,232-24,019,231 HapMap-ENCODE
    ENr331 2 220,185,590-220,285,589 ახალი
    ENr221 5 56,071,007-56,171,006 ახალი
    ENr233 15 41,720,089-41,820,088 ახალი
    ENr313 16 61,033,950-61,133,949 ახალი
    ENr133 21 39,444,467-39,544,466 ახალი

    ამ გამოშვების მონაცემთა შინაარსი

    ეტიკეტი ნიმუშების რაოდენობა QC+ SNP-ების რაოდენობა პოლიმორფული QC+ SNP-ების რაოდენობა
    ASW 71 1632186 1536247
    CEU 162 1634020 1403896
    CHB 82 1637672 1311113
    CHD 70 1619203 1270600
    GIH 83 1631060 1391578
    JPT 82 1637610 1272736
    LWK 83 1631688 1507520
    მექსი 71 1614892 1430334
    MKK 171 1621427 1525239
    TSI 77 1629957 1393925
    YRI 163 1634666 1484416
    კონსენსუსი 1115 1525445 1490422

    ეტიკეტი ნიმუშების რაოდენობა
    ASW 55
    CEU 119
    CHB 90
    CHD 30
    GIH 60
    JPT 91
    LWK 60
    მექსი 27
    MKK 0
    TSI 60
    YRI 120
    სულ 712

    ხარისხის კონტროლი ამ გამოშვებისთვის

    გენოტიპის შესაბამისობა ორ პლატფორმას შორის იყო 0,9931 (გამოითვლება 249889 გადაფარვის SNP-ზე). მონაცემები ორი პლატფორმიდან გაერთიანდა PLINK-ის გამოყენებით (--merge-mode 1), შენახული იყო მხოლოდ გენოტიპის ზარები, თუ არსებობს კონსენსუსი გენოტიპის გამოუტოვებელ ზარებს შორის (ანუ, გაერთიანებული გენოტიპი დაყენებულია გამოტოვებულად, თუ ორი პლატფორმა იძლევა განსხვავებულს, არა - გამოტოვებული ზარები).

    ხარისხის კონტროლი ინდივიდუალურ დონეზე განხორციელდა ცალ-ცალკე ორი საიტის მიერ. ამ გამოცემაში მხოლოდ გენოტიპის მონაცემების მქონე პირები ინახებოდა ორივე პლატფორმაზე. შემდეგი კრიტერიუმები გამოყენებული იქნა SNP-ების QC+ მონაცემთა ნაკრებში შესანარჩუნებლად:

    • ჰარდი-ვაინბერგი p>0.000001 (თითო პოპულაციაზე)
    • ნაკლებობა <0.05 (პოპულაციაზე)
    • <3 მენდელის შეცდომები (თითო პოპულაციაზე ვრცელდება მხოლოდ YRI, CEU, ASW, MEX, MKK)
    • SNP-ს უნდა ჰქონდეს rsID და რუკა უნიკალურ გენომურ მდებარეობაზე

    „კონსენსუსის“ მონაცემთა ნაკრები შეიცავს მონაცემებს 1115 პიროვნებისთვის (558 მამაკაცი, 557 ქალი, 924 დამფუძნებელი და 191 არადამფუძნებელი), ინახავს მხოლოდ SNP-ებს, რომლებმაც გაიარეს QC ყველა პოპულაციაში (საერთო ზარის მაჩვენებელი არის 0,998). მონაცემთა „კონსენსუსი|პოლიმორფული“ ნაკრები ამოღებულია 35023 მონომორფულ SNP-ს (მონაცემთა მთელ კომპლექტში).

    ყველა გენოტიპის ფაილში ალელები გამოიხატება როგორც NCBI build 36-ის (+/fwd) ძაფზე.

    თანმიმდევრობაზე დაფუძნებული ვარიანტის გამოძახებები გენერირებული იყო PCR პრაიმერის ნაკრებით, რომლებიც დაშორებული იყო დაახლოებით 800 ბაზის დაშორებით ENCODE 3 რეგიონებში. დაბალი ხარისხის წაკითხვის ფილტრაციის შემდეგ, მონაცემები გაანალიზდა SNP Detector ვერსიით 3, პოლიმორფული ადგილის აღმოჩენისა და ინდივიდუალური გენოტიპის გამოძახებისთვის. შემდეგ გამოყენებული იქნა სხვადასხვა QC ფილტრები. კონკრეტულად, ჩვენ გავფილტრეთ PCR ამპლიკონები ძალიან ბევრი SNP-ით და SNP-ები არათანმიმდევრული ალელის გამოძახებით მრავალჯერადი ამპლიკონებით. ჩვენ ასევე გავფილტრეთ SNP-ები ნიმუშებში დაბალი სისრულით, ან ძალიან ბევრი წინააღმდეგობრივი გენოტიპის გამოძახებით ორ სხვადასხვა მიმართულებაში.

    QC+ მონაცემთა ნაკრებში, ჩვენ გავფილტრეთ ნიმუშები დაბალი სისრულით და გავფილტრეთ SNP-ები დაბალი ზარის სიხშირით თითოეულ პოპულაციაში (<80%) და არა HWE-ში (p<0.001). QC+ მონაცემთა ნაკრებში, მთლიანი ცრუ დადებითი მაჩვენებელია

    3.2%, ვალიდაციის ტესტების შეზღუდული რაოდენობის საფუძველზე.

    გაფრთხილებები ამ გამოცემაში

    • ამ გამოშვებაში არ არის Illumina SNP-ები, რომლებიც არის A/T ან C/G ბლოკირების პრობლემების გამო.
    • ამ გამოშვებას აკლია Illumina SNP-ები, რომლებიც მიტოქონდრიულია (რადგან მათ არ აქვთ rsIDs).
    • ამ გამოშვებაში შეიძლება იყოს რამდენიმე დარჩენილი SNP (Illumina), რომლებიც ჯერ კიდევ არიან NCBI build 36-ის (-/rev) სტრიქონზე, მაგრამ ისინი არ არიან A/T ან C/G SNP, ასე რომ ადვილია იდენტიფიცირება ქვემოთ.

    ყველა ვარიანტის ზარი ჯერ არ არის დადასტურებული: ჩვენ ვაფასებთ, რომ ამჟამად არის ცრუ დადებითი მაჩვენებელი

    12% ყველა ზარს შორის, ოდნავ მაღალი მაჩვენებელი (

    14%), თუ გავითვალისწინებთ მხოლოდ მარტოხელებს. დამატებითი დადასტურება მიმდინარეობს. ასევე გრძელდება დამატებითი ნიმუშების PCR თანმიმდევრობა (MKK).

    როგორ გადმოვწერო ეს გამოცემა

      - QC+ პოლიმორფული გენოტიპის მონაცემების tarball პოპულაციაზე, ფორმატირებული, როგორც PLINK PED და MAP ფაილები [833 მბ] - QC+ პოლიმორფული გენოტიპის მონაცემების PED ფაილი (კონსენსუსი) [738 მბ] - QC+ პოლიმორფული გენოტიპის მონაცემების MAP ფაილი (კონსენსუსი) [11 მბ. ] - ოჯახური (გვარი) ურთიერთობები და პოპულაციის ეტიკეტები 1,301 HapMap 3 ნიმუშისთვის [37 KB] - სია 270 ნიმუშისა, რომელიც გამოიყენება საერთაშორისო HapMap პროექტის I და II ფაზაში [2 KB]

    ENCODE III PCR განმეორებითი თანმიმდევრობის მონაცემებზე წვდომისთვის, გთხოვთ, ეწვიოთ BCM-HGSC საჯარო ftp საიტს მისამართზე: ftp://ftp.hgsc.bcm.tmc.edu/pub/data/Encode ან ჩამოტვირთოთ აქ:

      - README ფაილი [3 KB] - სია 712 დაუკავშირებელი ნიმუშის თანმიმდევრობით [61 KB] - 10,076 SNP საიტის გენოტიპები 712 ნიმუშით [641 KB] - 6,223 SNP საიტის QC+ გენოტიპები 692 მბ-ით [9]

    ანალიზის გეგმები

    ქვემოთ ჩამოთვლილია ანალიზის გეგმები, რომლებსაც ამჟამად ვახორციელებთ:

    • SNP ალელის სიხშირის შეფასება
    • მოსახლეობის დიფერენციაცია
    • კავშირის დისბალანსის ანალიზი
    • SNP მონიშვნა
    • იმპუტაციის ეფექტურობა
    • ადამიანის CNV-ების გენომიური მდებარეობა
    • გენოტიპები CNV-ებისთვის
    • CNV-ების პოპულაციის გენეტიკური თვისებები (ალელური სიხშირე, პოპულაციის დიფერენციაცია და ა.შ.)
    • მუტაციის სიხშირე (de novo CNV-ის სიხშირე) და პოტენციური მუტაციური მექანიზმები
    • CNV-ების დამაკავშირებელი დისბალანსის თვისებები
    • CNV-ების მონიშვნა და იმპუტაცია
    • შერჩევის სიგნალები CNV-ების გარშემო
    • SNP-ების და CNV-ების ასოციაცია ექსპრესიის ფენოტიპებთან

    მონაცემთა გაცემის პოლიტიკა

    2003 წლის იანვარში გამართული შეხვედრის, „ფორტ ლოდერდეილის“ შეხვედრის საგანი იყო დიდი რესურსების მომტანი სამეცნიერო პროექტებიდან წინასწარი გამოქვეყნების მონაცემების გამოქვეყნება. შეხვედრის შედეგზე დაფუძნებული NHGRI პოლიტიკის განცხადება განთავსებულია NHGRI-ის ვებ-გვერდზე (http://www.genome.gov/10506537).

    ფორტ-ლოდერდეილის შეხვედრის რეკომენდაციები ეხება მონაცემთა მწარმოებლების, მონაცემთა მომხმარებელთა და „საზოგადოების რესურსების პროექტების“ დამფინანსებლების როლებსა და პასუხისმგებლობებს, რათა დაამყარონ და შეინარჩუნონ შესაბამისი ბალანსი მონაცემთა მომხმარებელთა ინტერესებს შორის მონაცემთა სწრაფი წვდომისა და. მონაცემთა მწარმოებლების საჭიროებებს, რომ მიიღონ აღიარება მათი მუშაობისთვის. შეხვედრაზე დამსწრეთა დასკვნა იყო, რომ მონაცემთა პასუხისმგებლობით გამოყენება აუცილებელია იმისთვის, რომ მონაცემთა პირველი კლასის მწარმოებლები გააგრძელებენ მონაწილეობას ასეთ პროექტებში და აწარმოებენ და სწრაფად გამოაქვეყნებენ ძვირფასი ფართომასშტაბიანი მონაცემთა ნაკრები. „პასუხისმგებლიანი გამოყენება“ განისაზღვრა, როგორც მონაცემთა მწარმოებლებს შესაძლებლობა ჰქონდეთ გამოაქვეყნონ მონაცემთა საწყისი გლობალური ანალიზი, როგორც ეს იყო ასახული პროექტის დასაწყისში. ამის გაკეთება ასევე უზრუნველყოფს გენერირებული მონაცემების სრულად აღწერას.


    ინტერესის რეგიონის პოვნა და დათვალიერება

    გენომის ბრაუზერი HapMap ვებსაიტზე უზრუნველყოფს წვდომას გენომის მცირე და საშუალო ზომის რეგიონებზე ამ ტიპის ინტერაქტიული კვლევისთვის. ეს ძირითადი პროტოკოლი აღწერს, თუ როგორ უნდა დაიწყოს გენომის ბრაუზერის გამოყენება.

    1. ნებისმიერი თანამედროვე ვებ ბრაუზერის გამოყენებით გადადით www.hapmap.org.

    2. დააწკაპუნეთ ბმულზე „პროექტის მონაცემების დათვალიერება“ hapmap.org-ის მთავარი გვერდის „პროექტის მონაცემების“ განყოფილებაში.

    ეს გადაგიყვანთ გენომის ბრაუზერში, რომელიც დაფუძნებულია GBrowse პაკეტზე (სურ. 1).

    საწყისი გვერდი ნაჩვენებია HapMap გენომის ბრაუზერის პირველად გამოყენებისას. თქვენი კომპიუტერის ენის პარამეტრებიდან გამომდინარე, ეს გვერდი შეიძლება გამოჩნდეს რამდენიმე ენაზე, თუმცა ეს განყოფილება ითვალისწინებს ინგლისურს. გვერდის ნახვა ასევე შეგიძლიათ პირდაპირ http://www.hapmap.org/cgi-perl/gbrowse/.

    3. იპოვნეთ საძიებო ველი „საეტაპო ან რეგიონი“ და შეიყვანეთ საძიებო სიტყვა.

    ნებისმიერი შემდეგი ტიპის საძიებო სიტყვა იმუშავებს:

    ქრომოსომის სახელი (მაგ., „Chr19“)

    ქრომოსომული პოზიცია ფორმატში Chromosome: start..stop (მაგ., „Chr10:25000..300000“)

    SNP-ის სახელი მისი dbSNP „rs“ სახელის გამოყენებით (მაგ., „rs6870660“)

    გენი, რომელიც იყენებს მის NCBI RefSeq შეერთების ნომერს (მაგ., „NM 153254“)

    გენი თავისი საერთო სახელის გამოყენებით (მაგ., „BRCA2“)

    ქრომოსომული ზოლი (მაგ., „5q31“)

    4. ერთ-ერთი ამ ღირშესანიშნაობის შეყვანის შემდეგ დააჭირეთ ღილაკს „ძებნა“ (ან დააჭირეთ „Enter“).

    ეს დააბრუნებს გვერდს, რომელიც აჩვენებს მოთხოვნილი ფუნქციის მიმდებარე რეგიონს (ნახ. 2). თუ მრავალი მახასიათებელი ემთხვევა, მაშინ გვერდი აჩვენებს ყველა შესაძლო მახასიათებლის გრაფიკულ შეჯამებას, მათ შორის გენომიურ მდებარეობას და მოგთხოვთ აირჩიოთ ერთი.

    HapMap გენომის ბრაუზერი აჩვენებს მოთხოვნილ ფუნქციას.

    დაბრუნებული გვერდის ზედა ნაწილში არის "მიმოხილვა" განყოფილება, რომელიც აჩვენებს შერჩეული ქრომოსომის ციტოგენეტიკურ რუკას. წითელი ყუთი მიუთითებს ქრომოსომის მონაკვეთზე.

    ქვემოთ მოცემულია რეგიონის მიმოხილვა, რომელიც აჩვენებს 2 Mb ინტერესის რეგიონის გარშემო. ისევ წითელი ყუთი მიუთითებს ქრომოსომის მონაკვეთზე.

    ამის ქვეშ არის "დეტალების" განყოფილება, რომელსაც აქვს ჰორიზონტალური ბილიკები, რომლებიც აჩვენებს სხვადასხვა ტიპის მონაცემებს. ნაგულისხმევად, რეგიონისთვის თავდაპირველად ნაჩვენებია გენომის მხოლოდ მცირე რაოდენობა. ორი ყველაზე სასარგებლო ბილიკი არის „გენოტიპირებული SNPs“ ტრეკი, რომელიც გვაწვდის ინფორმაციას ყოველი SNP-ის პოზიციის, ალელებისა და ალელური სიხშირეების შესახებ, რომლებიც ხასიათდება HapMap პროექტით და Entrez გენების ტრეკი, რომელიც აჩვენებს ადამიანის ცილის კოდირების პოზიციებსა და სტრუქტურებს. გენები.

    ხელმისაწვდომია მრავალი დამატებითი საინფორმაციო ბილიკი, რომელიც განსაკუთრებით დაგეხმარებათ ასოციაციის კვლევების გაგებაში და დიზაინში. HapMap-ის მონაცემებიდან მიღებული მრავალი ანალიზი, ისევე როგორც მონაცემთა გარე წყაროები, ხელმისაწვდომია (ცხრილი 1). განსაკუთრებით აღსანიშნავია გენომის სტრუქტურულ ცვალებადობასთან დაკავშირებული მრავალი ბილიკი, ასევე ბმულები Reactome მონაცემთა ბაზასთან (http://www.reactome.org ვასტრიკი და სხვ. 2007), ადამიანის ბიოლოგიაში ძირითადი გზებისა და რეაქციების კურირებული რესურსი.

    ნაგულისხმევად, გენომის ბრაუზერი მიდის HapMap მონაცემების უახლეს გამოშვებაზე. წინა გამოშვებები ხელმისაწვდომია ამ ინტერფეისით და სხვადასხვა გამოშვების არჩევა შესაძლებელია მენიუში „მონაცემთა წყარო“.

    5. გამოიყენეთ კონტროლი გვერდის ზედა ნაწილში მარცხნივ, მარჯვნივ ან რეგიონის გადიდების შესაცვლელად. დააწკაპუნეთ სადმე "მიმოხილვაზე", "რეგიონზე" ან სკალაზე "დეტალების" განყოფილების ზედა ნაწილში, რათა ხედვა მოათავსოთ ამ პოზიციაზე.

    გენოტიპირებული SNP ტრეკი ცვლის თავის გარეგნობას სურათის მასშტაბის შესაბამისი ფორმით:

    დაბალი გადიდებისას გენოტიპირებული SNPs ჩნდება ტოლგვერდა სამკუთხედების სახით. ამ ფერების მორგება შესაძლებელია მენიუში „ანგარიშები და ანალიზი“ პუნქტის „Highlight SNP Properties“ არჩევით.

    უფრო მაღალი გადიდებისას, გენოტიპირებული SNP-ები იცვლება SNP-თან დაკავშირებული ალელების ჩვენების მიზნით. ლურჯად ნაჩვენები ალელი არის ალელი, რომელიც იმყოფება საცნობარო გენომიურ მიმდევრობაში ამ ადგილას, ხოლო წითელი ალელი არის სხვა ალელი, რომელიც იმყოფება SNP-ში.

    კიდევ უფრო გადიდებისას, გენოტიპირებული SNP-ები თვალყურს ადევნებენ ცვლილებებს, რათა აჩვენონ ტორტების დიაგრამები, რომლებიც წარმოადგენენ ალელის სიხშირეს თითოეული გენოტიპირებული პოპულაციისთვის. ტორტის დიაგრამის ლურჯი სოლი მიუთითებს ალელის სიხშირეზე, რომელიც ჩნდება საცნობარო გენომის თანმიმდევრობაში. წითელი სოლი არის ალტერნატიული ალელის სიხშირე. წრიული დიაგრამის ჩვენება მკვლევარს აძლევს შესაძლებლობას ადვილად განასხვავოს SNP-ები, რომლებიც ძალზე პოლიმორფულია HapMap-ის ოთხივე პოპულაციაში და, შესაბამისად, უფრო მეტად პოლიმორფული იქნება სხვა პოპულაციებშიც. ალტერნატიულად, მკვლევარს შეუძლია განსაზღვროს SNP-ები, რომლებიც უფრო პოლიმორფულია ერთ პოპულაციაში და, შესაბამისად, შესაფერისია როგორც მარკერები პოპულაციის სპეციფიკურ გენეტიკურ ეკრანებზე.

    6. დააწკაპუნეთ გლიფზე ინდივიდუალური SNP-ისთვის, რათა ნახოთ ტექსტზე დაფუძნებული გვერდი დეტალური გენოტიპებისა და ალელების დათვლით და ანალიზის ინფორმაციით.

    ეს მკვლევარს აწვდის ინფორმაციას, რომელიც საჭიროა SNP-სთვის ანალიზის შესაქმნელად, მათ შორის მარცხენა და მარჯვენა ფლანგური თანმიმდევრობების ჩათვლით, რომლებიც საჭიროა PCR პრაიმერების შესაქმნელად.

    მე. დააწკაპუნეთ dbSNP-ის ჰიპერტექსტის ბმულზე (http://www.ncbi.nlm.nih.gov/SNP Wheeler et al.2007) დამატებითი ინფორმაციისთვის იმის შესახებ, თუ როგორ აღმოაჩინეს პირველად SNP და სხვა პოპულაციის გენეტიკური ინფორმაცია, რომელიც შეიძლება არსებობდეს მისთვის HapMap პროექტის მიღმა.

    ii. დააწკაპუნეთ Ensembl-ის ბმულზე (http://www.ensembl.org Hubbard et al. 2007), რათა მიაღწიოთ იმ ადგილს, სადაც SNP-ის სტრუქტურული გავლენა კოდირების თანმიმდევრობაზე, შერწყმის ადგილებზე და ახლომდებარე გენების სხვა მახასიათებლებზე იქნება შესწავლილი.

    კავშირის დისბალანსის სიდიდის (LD) ნახვა

    როდესაც მკვლევარი გეგმავს კვლევას, რათა აღმოაჩინოს კავშირი გენის საერთო ალელურ ცვალებადობასა და საინტერესო დაავადებას შორის, რეგიონში LD-ის მასშტაბის ცოდნა აუცილებელია რეგიონში გენოტიპირებული SNP-ების რაოდენობის შესამცირებლად. თუ რეგიონში მაღალი LD არის, მაშინ საჭიროა მხოლოდ რამდენიმე SNP-ის გენოტიპის დადგენა, რადგან მათი კავშირი რეგიონის სხვა SNP-ებთან იქნება არადახასიათებული SNP-ების გენოტიპების პროქსი. ამის საპირისპიროდ, დაბალი LD-ის რეგიონს დასჭირდება უფრო ინტენსიური ნიმუშის აღება, რადგან გენოტიპირებული SNP-ის ალელური მდგომარეობა იქნება არაგენოტიპირებული SNP-ების მდგომარეობის ცუდი პროგნოზირება. LD-ის შაბლონების განსაზღვრა პოპულაციებში, რომლებიც ხასიათდება HapMap პროექტით, იყო ამ პროექტის ერთ-ერთი მთავარი მიზანი. საერთაშორისო HapMap პროექტმა წინასწარ გამოთვალა LD-ის ნიმუშები გენოტიპურ SNP-ებს შორის. მონაცემთა ნაყარი ჩამოტვირთვა შესაძლებელია HapMap ვებსაიტიდან ან ინტერაქტიულად დათვალიერება HapMap გენომის ბრაუზერის გამოყენებით. ეს უკანასკნელი მეთოდი მკვლევარებს საშუალებას აძლევს დაინახონ LD-ის შაბლონები ინტერესის გენების განაწილების კონტექსტში.

    7. HapMap გენოტიპებიდან წინასწარ გამოთვლილი ხელმისაწვდომი LD მონაცემების სანახავად, დაათვალიერეთ საინტერესო რეგიონი (იხ. საფეხურები 1-4).

    8. აირჩიეთ "Annotate LD plot" დანამატი "ანგარიშები და ანალიზი" მენიუდან.

    9. დააწკაპუნეთ ღილაკზე „კონფიგურაცია“ კონფიგურაციის გვერდის გამოსაჩენად, რომელიც საშუალებას მოგცემთ შეცვალოთ ჩვენების თვისებები თქვენი გემოვნებით.

    ამ გვერდის ძირითადი პარამეტრებია HapMap პოპულაციები, რომლებიც უნდა გამოვიყენოთ, LD-ს რომელი საზომი უნდა იქნას გამოყენებული (არჩევა D′, r 2, ან შანსების ჟურნალი [LOD]), უნდა იყოს თუ არა სამკუთხედის დიაგრამა ორიენტირებული წვეროზე მიმართული ზემოთ ან ქვევით, ფერის სქემა და უნდა იყოს თუ არა დიაგრამაზე ყუთის ზომა მარკერებს შორის გენომიური მანძილის პროპორციული თუ ერთიანი ზომის (იხ. სურ. 3).

    HapMap გენომის ბრაუზერის კონფიგურაციის გვერდი საშუალებას აძლევს მომხმარებელს დააკონფიგურიროს მონაცემთა ჩვენების მრავალი სტილის მახასიათებელი.

    ტრადიციული D′ და r 2 მეტრიკა ასახავს წყვილი LD-ის ხარისხს ორ SNP-ს შორის, მაგრამ განსხვავდება მათი მგრძნობელობითა და სპეციფიკურობით სხვადასხვა ზომის მასშტაბებში. იხილეთ მიულერი (2004) ამ გაზომვების პრაქტიკული გამოყენების შესახებ განხილვისთვის. LOD მეტრიკა, რომელიც გამოიყენება HapMap ვებსაიტის ჩვენებაში, აღწერილია Daly et al. (2001).

    10. დააწკაპუნეთ ღილაკზე “Configure” მთავარ ეკრანზე დასაბრუნებლად, რომელიც ახლა აჩვენებს თითო სამკუთხედის ნახაზს თითოეული არჩეული პოპულაციისთვის (იხ. სურ. 4).

    HapMap გენომის ბრაუზერი აჩვენებს LD მნიშვნელობების სამკუთხედის ნახაზს მრავალ პოპულაციისთვის. ნაჩვენებია LD-ის ტიპიური რეგიონი, რომელიც აჩვენებს მაღალი LD-ის „ნაწერებს“, გამოყოფილი დაბალი LD-ის შედარებით კარგად განსაზღვრული საზღვრებით. სამკუთხედის ნაკვეთი აგებულია SNP-ების ყველა წყვილი ხაზების გასწვრივ 45°-ზე ჰორიზონტალურ ლიანდაგთან შეერთებით. ალმასის ფერი იმ პოზიციაზე, სადაც ორი SNP იკვეთება, მიუთითებს LD-ის რაოდენობაზე უფრო ინტენსიური ფერები მიუთითებს უფრო მაღალ LD-ზე. ნაცრისფერი ბრილიანტი მიუთითებს, რომ მონაცემები აკლია.

    ბევრ გენოტიპირებული SNP-ის მქონე რეგიონებში, LD დანამატი მნიშვნელოვნად ზრდის ვებ გვერდის ჩატვირთვის დროს. თქვენ შეგიძლიათ გამორთოთ LD დისპლეი ნებისმიერ დროს, ბრაუზერის „ტრეკების“ განყოფილებაში შესაბამისი ველის მონიშვნის გაუქმებით. LD დანამატის პარამეტრები ინახება ბრაუზერის ქუქი-ფაილში, ამიტომ არ არის საჭირო კონფიგურაციის გვერდის მონახულება ყოველ ჯერზე დანამატის ჩართვისას.

    ტეგ-SNP-ების არჩევა და ნახვა

    tag-SNP არის SNP-ების შემცირებული ნაკრები, რომელიც იჭერს LD-ის დიდ ნაწილს რეგიონებში, ისინი შეიძლება გამოყენებულ იქნას ასოციაციის კვლევებში, რათა შეამცირონ SNP-ების რაოდენობა, რომლებიც საჭიროა LD-ზე დაფუძნებული კავშირის გამოსავლენად საინტერესო თვისებასა და გენომის რეგიონს შორის. მცირე რეგიონებისთვის შესაძლებელია tag-SNP-ების ხელით არჩევა LD-ის ზემოთ გენერირებული გრაფიკული და რიცხვითი ჩვენების გამოყენებით, მაგრამ საუკეთესო შედეგისთვის რეკომენდებულია, რომ მკვლევარმა გამოიყენოს ალგორითმი, რომელიც ირჩევს tag-SNP-ებს ფორმალური რაოდენობის მაქსიმიზაციის გზით. დაკავშირებული SNP-ები, რომლებიც აღბეჭდილია თეგების ნაკრების მიერ. არ არსებობს ტეგ-SNP-ების ერთი ნაკრები, რომელიც დააკმაყოფილებს ყველა ასოციაციის კვლევის დიზაინის მრავალფეროვან მოთხოვნებს. მკვლევარებს შეიძლება სურდეთ შეარჩიონ SNP-ები, რომლებიც კარგად მუშაობენ კონკრეტულ გენოტიპის სისტემასთან (მაგ. ისინი, რომლებიც ჩართულია კონკრეტულ „SNP ჩიპზე“) და შეიძლება სურდეს დაეთანხმონ სხვადასხვა კომპრომისებს საკვლევი პოპულაციის გენოტიპირების ღირებულებასა და სიძლიერეს შორის. ასოციაცია მათ შეუძლიათ აღმოაჩინონ. ამ მიზეზით, HapMap ვებსაიტი არ გვთავაზობს წინასწარ შერჩეული ტეგ-SNP-ების სტატიკურ კომპლექტს, სამაგიეროდ მკვლევარებს სთავაზობს ინსტრუმენტს ტეგ-SNP-ების ინტერაქტიულად არჩევისთვის მომხმარებლის მიერ მოწოდებული კრიტერიუმების საფუძველზე. Tag-SNP სიები გენერირებულია Tagger პროგრამის ალგორითმებიდან (http://www.broad.mit.edu/mpg/tagger/ დე ბაკერი და სხვ. 2005).

    11. გადადით საინტერესო რეგიონში (იხ. ნაბიჯები 1-4).

    12. მენიუში "ანგარიშები და ანალიზი" აირჩიეთ "Annotate tag SNP Picker" ვარიანტი.

    13. დააჭირეთ „Configure“-ს, რათა აირჩიოთ tag-SNP შერჩევის სასურველი ვარიანტები (იხ. სურ. 5).

    HapMap გენომის ბრაუზერი გრაფიკულად აჩვენებს ტეგ-SNP-ებს, ასევე ეტაპობრივ ჰაპლოტიპებს.

    პოპულაციისა და ალგორითმის შერჩევა

    იტვირთება SNP ID-ების სიის ატვირთვა, რომელიც შედის ტეგ-SNP-ების ნაკრებში

    SNP ID-ების სიის ატვირთვა, რომლებიც გამოირიცხება ტეგ-SNP-ების ნაკრებიდან

    თითოეული SNP-ისთვის დიზაინის ქულების (პრიორიტეტების) სიის ატვირთვა

    ნაწყვეტების შერჩევა მინიმალური მისაღები LD მნიშვნელობისთვის და ალელური სიხშირისთვის SNP-ებისთვის, რომლებიც ჩართული იქნება კომპლექტში

    14. დააწკაპუნეთ ღილაკზე „კონფიგურაცია“ ანალიზის გასაშვებად და მთავარ ეკრანზე დასაბრუნებლად.

    შედეგები ნაჩვენებია ახალ ფუნქციურ ტრეკზე (იხ სურ. 5).

    როგორც ზემოთ მოყვანილი LD დისპლეის შემთხვევაში (ნაბიჯი 10), პარამეტრები ინახება ბრაუზერის ქუქი-ფაილში და დანამატის ჩანაწერი შეიძლება გამორთოთ, როცა ეს არ არის საჭირო.

    ეტაპობრივი ჰაპლოტიპების ნახვა

    მკვლევარს შეუძლია მოისურვოს tag-SNP კომპლექტის კორელაცია tag-SNP ამომრჩევი ალგორითმის მიერ რეგიონის ფუძემდებლურ ჰაპლოტიპურ სტრუქტურასთან. ამის გაკეთების ერთ-ერთი გზაა ერთდროულად ჩართოთ ორივე წყვილი LD და tag-SNP ტრეკები (საფეხურები 7-10 და 11-14, შესაბამისად). თუმცა, ალტერნატივა არის ტრეკის გააქტიურება, რომელიც თავად აჩვენებს ეტაპობრივ ჰაპლოტიპებს. ამ განყოფილებაში აღწერილი ეტაპობრივი ჰაპლოტიპის მონაცემები გენერირებული იქნა საერთაშორისო HapMap პროექტის კონსორციუმის მიერ პროგრამის PHASE ვერსიის 2.1-ის გამოყენებით (Stephens and Donnelly 2003). ფაზირების დროს, გენოტიპში თითოეული ალელი მინიჭებულია ამა თუ იმ მშობლის ქრომოსომაზე, მაქსიმალური ალბათობის ალგორითმის გამოყენებით, რომელიც იყენებს ტრიო (ნაწერის) ინფორმაციას HapMap პოპულაციის ჯგუფებში, ან, თუ ტრიო ინფორმაცია არ არის ხელმისაწვდომი, მონაცემების მორგებით. მოდელი, რომელიც ამცირებს პოპულაციაში ნაგულისხმევი ისტორიული კროსვორდების რაოდენობას. ეტაპობრივი ჰაპლოტიპები ნაჩვენებია როგორც გრაფიკა, რომელშიც პროექტის მიერ ნიმუშის მქონე ინდივიდების თითოეული ქრომოსომა წარმოდგენილია როგორც ერთი პიქსელი სიმაღლის ხაზი, და თითოეული SNP ალელი არის თვითნებურად შეღებილი ლურჯი ან ყვითელი. მაღალი LD-ის რეგიონი გამოჩნდება, როგორც რეგიონი, რომელშიც არის SNP-ების გრძელი რიგები, რომლებიც იზიარებენ ალელებს მრავალ ქრომოსომაში, რაც მიუთითებს, რომ მათ შორის მცირე რეკომბინაციაა. დაბალი LD-ის რეგიონი გამოჩნდება, როგორც ტერიტორია, სადაც გაშვებები უფრო მოკლე და ფრაგმენტულია.

    15. გადადით საინტერესო რეგიონში (იხ. ნაბიჯები 1-4).

    16. აირჩიეთ "Anotate Phased Haplotype Display" მენიუდან "ანგარიშები და ანალიზი".

    17. დააჭირე „კონფიგურაციას“ ჰაპლოტიპის ჩვენების ვარიანტების დასაყენებლად.

    ოფციები გაძლევთ შესაძლებლობას აირჩიოთ პოპულაცია, რომლისთვისაც აჩვენეთ ჰაპლოტიპის ინფორმაცია.

    18. სასურველი პოპულაცი(ების) არჩევის შემდეგ დააწკაპუნეთ ღილაკზე “Configure” მთავარ ეკრანზე დასაბრუნებლად. თითოეული არჩეული პოპულაციისთვის გამოჩნდება ახალი ფუნქციების ჩანაწერი. თითოეული ბილიკი აჩვენებს ამ პოპულაციის ჰაპლოტიპებს ზემოთ აღწერილი ორფერიანი სქემის გამოყენებით (იხ. სურ. 5).

    ქრომოსომების თანმიმდევრობა განისაზღვრება სწრაფი იერარქიული კლასტერიზაციის მეთოდოლოგიით, რომელიც ათავსებს ქრომოსომებს, რომლებსაც აქვთ მსგავსი ჰაპლოტიპები.

    ამ დისპლეის უპირატესობა წყვილი LD „სამკუთხედის ჩვენებასთან“ შედარებით არის ის, რომ ის უფრო კომპაქტურია და, შესაბამისად, უფრო შესაფერისია დიდი რეგიონების ჩვენებისთვის. ეს აადვილებს გრძელი საერთო ჰაპლოტიპების პოზიციის კორელაციას ტეგ-SNP ამომრჩევლის მიერ არჩეულ SNP-ებთან. ამ დისპლეის მინუსი ის არის, რომ ფარავს რეგიონში LD სტრუქტურის დიდ ნაწილს, კერძოდ, ძლიერ LD-ს SNP-ებს შორის, რომლებიც არ არიან ერთმანეთის მიმდებარედ.

    19. დეტალური ეტაპობრივი გენოტიპების მოსაძიებლად დააწკაპუნეთ სასურველი პოპულაციის ტრასაზე.

    ეს გადაგიყვანთ გვერდზე, რომელიც გვაწვდის ჰაპლოტიპის ინფორმაციას ცხრილის სახით. ცხრილის თითოეული მწკრივი არის ინდივიდუალური ქრომოსომა, ხოლო თითოეული სვეტი არის ინდივიდუალური SNP. ცხრილის თითოეული ჩანაწერის ფონი დაყენებულია ფერზე, რომელიც შეესაბამება გრაფიკულ ტრეკზე.


    შედეგები

    გენეტიკური მანძილის გაზომვა MHC-ზე SNP დონის F-ითსტ

    მე-6 ქრომოსომაზე 25 Mb-დან 35 Mb-მდე, სულ 1,607 SNP იყო წარმოდგენილი ჩვენს მონაცემებში, რომელიც მოიცავს რვა იაპონურ პოპულაციას და ოთხ HapMap და SGVP პოპულაციას. გენეტიკური მანძილი ამ 12 პოპულაციის თითოეულ წყვილს შორის გაზომილი იყო საშუალო SNP დონის F-ით.სტ მნიშვნელობები ამ 1607 SNP-ში. იაპონიის რვა პოპულაციას შორის, ოკინავა გამოირჩეოდა, როგორც ყველაზე გამორჩეული მოსახლეობა, აჩვენებდა მინიმუმ F-ს.სტ 0.6% ეჰიმესთან და მაქსიმუმ Fსტ 1.0% ფუკუოკასთან, შიმანესთან და ტოკიოსთან (დამატებითი ცხრილი 1). დანარჩენი შვიდი იაპონური პოპულაცია შედარებით უფრო ჰომოგენური იყო, გენეტიკური მანძილებით 0,1%-დან 0,3%-მდე, ეს უკანასკნელი მაჩვენებელი დაფიქსირდა პოპულაციის წყვილების შედარებაში, რომლებიც ძირითადად ეჰიმეს მოიცავს. გენეტიკური მანძილი გამოთვლილი იგივე 1607 SNP-დან ჩრდილოეთ და სამხრეთ ჩინელებს შორის (CHB, CHS) და ჩრდილოეთ და სამხრეთ ინდოელებს შორის (GIH, INS) გამოიყენებოდა იაპონურ პოპულაციაში დანახული მანძილების შესაფასებლად. მანძილი CHB-სა და CHS-ს შორის იყო 0.4%, ხოლო მანძილი GIH-სა და INS-ს შორის იყო 0.5%, რაც ვარაუდობს, რომ მატერიკზე იაპონური პოპულაციები უფრო ჰომოგენური იყო, ვიდრე ჰან ჩინელები ჩრდილოეთ და სამხრეთ ჩინეთიდან MHC რეგიონში, ხოლო ოკინავა უფრო განსხვავებული იყო. იაპონიის მატერიკული პოპულაციების დანარჩენი ნაწილი, ვიდრე გენეტიკური განსხვავებები გუჯარატსა და ტამილ ინდიელებს შორის.

    მოსახლეობის სტრუქტურის ძირითადი კომპონენტის ანალიზი

    1,833 ნიმუშის წინასწარი PCA-ში გენომის მასშტაბის მონაცემებით 240,332 საერთო SNP-ზე რვა იაპონური და ოთხი საორიენტაციო პოპულაციაში, აშკარა იყო, რომ სამხრეთ აზიის ორი პოპულაცია (GIH, INS) მნიშვნელოვნად განსხვავდებოდა აღმოსავლეთ აზიის პოპულაციებისგან (CHB, CHS, JPT, შვიდი იაპონური პოპულაცია), თუმცა ასევე ცხადი იყო, რომ არსებობდა სამი გენეტიკური ქვეკლასტერი, რომელიც შეესაბამებოდა ოკინავას ნიმუშებს, შესაბამისად, ჰან ჩინურს და მატერიკულ იაპონურს (ნახ. 2A). ოკინავას ნიმუშები აშკარად გამოირჩეოდა ჰან-ჩინისა და კონტინენტური იაპონური ნიმუშებისგან ისე, რომ არ ვარაუდობდნენ, რომ ოკინავას ნიმუშები შერეული იყო მატერიკულ იაპონელებსა და ჰან ჩინებს შორის (ნახ. 2A,B), რადგან ოკინავას ნიმუშები იქნა ნაპოვნი ჰან ჩინურის საპირისპირო სპექტრი შესაბამის ძირითად კომპონენტებში. ეს კარგად ემთხვევა იაპონიის არქიპელაგის ადამიანთა პოპულაციების ისტორიაში არსებულ უამრავ აღმოჩენას, ანუ ორმაგი სტრუქტურის მოდელს იაპონიის არქიპელაგის პოპულაციებზე 40 . თუმცა, 1,285 მატერიკული იაპონიის PCA-ში არ იყო რაიმე დაკვირვებადი ქვესტრუქტურის მტკიცებულება შვიდ პოპულაციას შორის გენომიური მონაცემების ანალიზში (ნახ. 2C).

    სუბიექტის დონის ძირითადი კომპონენტის ანალიზები გენომის მასშტაბით SNP მონაცემებით.

    ბიპლოტები ნაჩვენებია ვარიაციების პირველი ორი ღერძისთვის 240,332 SNP-ის სამი სხვადასხვა ძირითადი კომპონენტის ანალიზიდან (PCA), რომლებიც წარმოდგენილია გენომში იაპონიის რვა პოპულაციაში და ოთხი საორიენტაციო პოპულაცია აღმოსავლეთ და სამხრეთ აზიიდან. შესრულდა სამი განსხვავებული PCA (A) 12-ვე პოპულაცია (B) მხოლოდ რვა იაპონური და ორი ჰანი ჩინეთის მოსახლეობა და (C) მხოლოდ შვიდი მოსახლეობა მატერიკული იაპონიიდან. თითოეული წრე წარმოადგენს ინდივიდს კონკრეტული პოპულაციისგან და ენიჭება უნიკალური ფერი ამ პოპულაციისთვის, რომელიც წარმოდგენილია ლეგენდაში ქვედა მარჯვენა პანელზე.

    ჩვენ ასევე შევასრულეთ პოპულაციის დონის PCA-ების სერია გამოყენებით K × K მანძილის მატრიცები ( წარმოადგენს პოპულაციების რაოდენობას) აგებული 1607 SNP-დან 10 Mb რეგიონში მე-6 ქრომოსომაზე (იხ. Მასალა და მეთოდები დეტალებისთვის). ეს ეფექტურად წარმოადგენდა გენეტიკურ მანძილს F-ის გამოყენებითსტ მეტრიკა, რათა დადგინდეს ალელის სიხშირეების განსხვავებები პოპულაციის წყვილებს შორის. ეს ანალიზები ანალოგიურად განასხვავებდნენ სამხრეთ აზიელებს და ჰან ჩინელებს იაპონური ნიმუშებისგან (ნახ. 3A,B), ისევე როგორც ოკინავას ნიმუშები მატერიკზე იაპონიის ნიმუშებიდან (ნახ. 3B), მაგრამ, როგორც ჩანს, უფრო დიდ გარჩევადობას აძლევდა გენეტიკური განსხვავებების შესახებ შვიდი მატერიკული იაპონური პოპულაცია, სადაც ეჰიმე და შიმანე, როგორც ჩანს, უფრო განსხვავდებიან დანარჩენი ხუთი პოპულაციისგან (ნახ. 3C). ეს დაკვირვებები საოცრად შეესაბამებოდა იმას, რაც ჩვენ ვნახეთ გენომის მასშტაბის მონაცემებთან დაკავშირებით, განსაკუთრებით მაშინ, როდესაც ჩვენ შევაჯამეთ დაკვირვებები 2-ში, ნიმუშის დონის ძირითადი კომპონენტის კოორდინატების საშუალო მნიშვნელობით თითოეულ პოპულაციაში, რათა მივიღოთ ერთი პოპულაციის დონის კოორდინატები ამ პოპულაციისთვის (დამატებითი სურათი 1). Ehime-სა და Shimane-სა და დარჩენილ მატერიკულ იაპონურ პოპულაციებს შორის დაკვირვებული განსხვავება შემდგომი გამოსაკვლევად, ჩვენ გავაერთიანეთ F.სტ მნიშვნელობები გამოითვლება 1,607 SNP-სთვის იაპონიის შვიდი კონტინენტური პოპულაციის ყველა შესაძლო წყვილისთვის, საერთო F-ის შესაქმნელადსტ განაწილება. ფსტ მნიშვნელობები ზედა 1%-ში, ჩვენ დავაკვირდით, რომ იყო მნიშვნელოვანი გადაჭარბებული წარმომადგენლობა პოპულაციის წყვილებისგან, რომლებიც მოიცავდნენ ეჰიმეს (ბინომიალური = 0.0011) და შიმანე (ბინომიალური = 1,38 × 10 −15 ). განსხვავება Ehime-სა და Shimane-სა და დანარჩენ მატერიკზე იაპონიის ნიმუშებს შორის ანალოგიურად დაფიქსირდა ჰაპლოტიპზე დაფუძნებულ PCA-ებში ექვს HLA გენში (დამატებითი სურათი 2). აღსანიშნავია, რომ გენეტიკური განსხვავებები იაპონიის შვიდ მატერიკულ პოპულაციაში უფრო გამოხატული იყო II კლასის გენის რეგიონებში (HLA-DR, -DQ და –DP), ვიდრე I კლასის გენის რეგიონებში (HLA-A, -B და -C) (დამატებითი სურათი 2).

    პოპულაციის დონის ძირითადი კომპონენტის ანალიზები SNP-ებით MHC-ში.

    ბიპლოტები ნაჩვენებია ვარიაციების პირველი ორი ღერძისთვის დისტანციური მატრიცების საკუთრივ დაშლისგან, რომლებიც გამოთვლილი იყო საშუალო F-დან.სტ მნიშვნელობები პოპულაციის წყვილებს შორის 1,607 SNP-ში, ნაპოვნია 25მბ-დან 35მბ-მდე მე-6 ქრომოსომის შორის ინტერვალში რვა იაპონურ პოპულაციაში და აღმოსავლეთ და სამხრეთ აზიის ოთხი საორიენტაციო პოპულაციაში. ჩატარდა სამი განსხვავებული ანალიზი, მათ შორის (A) 12-ვე პოპულაცია (B) მხოლოდ რვა იაპონური და ორი ჰანი ჩინეთის მოსახლეობა და (C) მხოლოდ შვიდი მოსახლეობა მატერიკული იაპონიიდან. თითოეული წრე წარმოადგენს კონკრეტულ პოპულაციას და შეფერილია იმავე უნიკალური ფერით ამ პოპულაციისთვის, როგორც წარმოდგენილია ლეგენდაში ნახ. 2-ზე.

    ჰაპლოტიპური განსხვავებები პოპულაციებს შორის

    1607 SNP-ის ჰაპლოტიპები მიღებულ იქნა გენოტიპის მონაცემების ფაზირებაზე 12 პოპულაციის BEAGLE-ით. ამან საშუალება მოგვცა შეგვემოწმებინა ძირითადი ჰაპლოტიპების განაწილება ექვს HLA გენზე თითოეულ ამ პოპულაციაში (ცხრილი 1). ძირითადი ჰაპლოტიპების განმარტება საკმაოდ თვითნებურია. ჩვენს კვლევაში, ამისთვის HLA-A, HLA-B, HLA-C, HLA-DRჩვენ განვსაზღვრეთ ძირითადი ჰაპლოტიპი, როგორც პოპულაციის სიხშირე მინიმუმ 10% 12 პოპულაციიდან რომელიმეში. მიუხედავად იმისა, რომ HLA-DQ და HLA-DPჩვენ განვსაზღვრეთ ძირითადი ჰაპლოტიპი, როგორც პოპულაციის სიხშირე მინიმუმ 6% 12 პოპულაციიდან რომელიმეში. ეს გამოწვეულია ჰაპლოტიპების დიდი რაოდენობით, რომლებიც გვხვდება SNP-ების უფრო დიდ ნაკრებში HLA-DQ და HLA-DP.

    გასაკვირი არ არის, რომ იყო წინაპრების სპეციფიკური ჰაპლოტიპები, რომლებიც ნაპოვნი იყო მხოლოდ სამხრეთ აზიელებში ან აღმოსავლეთ აზიელებში და იაპონიაში ძირითადი ჰაპლოტიპების უმრავლესობა იყო გაზიარებული იაპონიის სხვადასხვა პოპულაციაში, გარდა იმისა, რომ ჰაპლოტიპების სიხშირე გარკვეულწილად იცვლებოდა პოპულაციებს შორის (ნახ. 4, დამატებითი ნახატები 3–7). მაგალითად, იმ შემთხვევაში HLA-Bმიუხედავად იმისა, რომ იყო 373 განსხვავებული ჰაპლოტიპი 74 SNP-დან ამ ლოკუსში, 12 პოპულაციაში მხოლოდ რვა ძირითადი ჰაპლოტიპი იყო. რვა ძირითადი ჰაპლოტიპიდან ხუთი არ იყო სამხრეთ აზიის პოპულაციაში (H1, H2, H3, H4, H7), ხოლო H8 არ იყო ნაპოვნი იაპონიის რვა პოპულაციაში (ნახ. 4A). ერთ-ერთი ჰაპლოტიპი (H3) აღმოჩნდა უნიკალური იაპონური პოპულაციებისთვის და ჩვენ დავაკვირდით, რომ H4-ის სიხშირე მერყეობდა 1.7%-დან ოკინავაში 14.2%-მდე ფუკუოკას და შიმანეში (ნახ. 4B). თუმცა, უნდა აღინიშნოს, რომ HLA გენებში ნაპოვნი ძირითადი ჰაპლოტიპების უმეტესობა წარმოდგენილი იყო ყველა იაპონურ პოპულაციაში და საერთო იყო სხვა აღმოსავლეთ და/ან სამხრეთ აზიის პოპულაციებთან, რომლებიც გამოიყენებოდა ბენჩმარკინგისათვის (ნახ. 5).

    ძირითადი ჰაპლოტიპების გავრცელება ზე HLA-B.

    ძირითადი ჰაპლოტიპების განაწილება იაპონიის რვა პოპულაციაში და აღმოსავლეთ და სამხრეთ აზიის ოთხ ეტალონურ პოპულაციაში HLA-B, სადაც ილუსტრირებულია სიხშირეები (A) პიეჩარტებში მოსალოდნელი გეოგრაფიული მდებარეობების მიხედვით, რომლებიც შეესაბამება შესაბამისი პოპულაციების წინაპრებს (B) დიაგრამებში 12 პოპულაციის თითოეული ძირითადი ჰაპლოტიპის პროცენტების მითითების მიზნით. რვა ძირითადი ჰაპლოტიპი დაფიქსირდა HLA-B, 373 უნიკალური ჰაპლოტიპიდან, რომლებიც ჩამოყალიბებულია 74 SNP-ით. ძირითადი ჰაპლოტიპების განაწილება თითოეულ პიეჩარტში არ მიუთითებს ჰაპლოტიპების სიხშირის მთლიან ჯამს, რადგან ეტიკეტი „სხვები“ არ იყო ჩართული. ფიგურის რუკა შეიქმნა R პაკეტის "რუქების" 50 და "mapdata" 51 R 52 პროგრამული უზრუნველყოფის გამოყენებით.

    ძირითადი ჰაპლოტიპების განაწილება სამი ძირითადი წინაპრების ჯგუფში.

    რვა იაპონური პოპულაცია და ოთხი საორიენტაციო პოპულაცია აღმოსავლეთ და სამხრეთ აზიიდან დაყოფილი იყო სამ მთავარ წინაპარ ჯგუფად, რომლებიც შეესაბამება იაპონელებს, სამხრეთ აზიელ ინდიელებს და აღმოსავლეთ აზიელ ჩინელებს. ძირითადი ჰაპლოტიპები, რომლებიც დაფიქსირდა ექვს HLA გენში, წარმოდგენილი იყო ვენის დიაგრამაში იმის საილუსტრაციოდ, იყო თუ არა ისინი წინაპრების თითოეულ ჯგუფში, განსაზღვრული, როგორც არანულოვანი სიხშირის გამოვლენა წინაპრების ჯგუფის ერთ პოპულაციაში მაინც.

    ვინაიდან ჰაპლოტიპების მრავალფეროვნების ჩვენი ანალიზი განიხილავს ურთიერთგანსხვავებულ ჰაპლოტიპებს, რომლებიც გვხვდება გენომიურ რეგიონში თითოეულ პოპულაციაში, სასარგებლოა იმის გაზომვა, თუ რამდენად განსხვავდება ეს განსხვავებული ჰაპლოტიპები.SNP ადგილების პროცენტული გამოთვლით, რომლებიც განსხვავდებოდა ნებისმიერ ორ ჰაპლოტიპს შორის ლოკუსზე, ჩვენ დავაკვირდით, რომ HLA ლოკებზე ნაპოვნი ძირითადი ჰაპლოტიპების უმრავლესობა არსებითად განსხვავდებოდა ერთმანეთისგან SNP-ების დონეზე, რომლებიც ქმნიან ცალკეულ ჰაპლოტიპებს, გარდა HLA-A სადაც არსებობდა ოთხი ძირითადი ჰაპლოტიპი, რომლებიც განსხვავდებოდნენ მხოლოდ ერთი SNP-ით (ცხრილი 2). იმპუტაციის შესრულება MHC რეგიონში სხვადასხვა საცნობარო პანელებით.

    ჰაპლოტიპის ვარიაციების უშუალო შედეგი იაპონიის სხვადასხვა პოპულაციას შორის არის გავლენა იმპუტაციის სიზუსტეზე. ჩვენ გამოვიკვლიეთ ეს ორი გზით: პირველი, შეიცვალა თუ არა სიზუსტე, როდესაც გამოიყენებოდა სხვადასხვა ერთი პოპულაციის პანელები SNP მონაცემების დასათვლელად თითოეული იაპონური პოპულაციისთვის და მეორე, იყო თუ არა კომბინირებული აღმოსავლეთ აზიის პანელის გამოყენება, რომელიც შედგება ჩინური, იაპონური და მალაიელებისგან. საჯარო მონაცემთა ბაზებიდან, როგორიცაა HapMap და SGVP, უკეთესი შესრულება იქნება. სხვადასხვა საცნობარო პანელები, გარდა კომბინირებული პანელისა, შეგნებულად იქნა არჩეული შესადარებელი ზომის, რათა თავიდან ავიცილოთ რაიმე დაბნეულობა ნიმუშის ზომის გამო, რათა შესაძლებელი ყოფილიყო ჰაპლოტიპების მრავალფეროვნების ზემოქმედების შესწავლა. ასევე, ზედმეტი მორგების თავიდან აცილების მიზნით, იაპონური თითოეული პოპულაციის 19 დამატებითი ნიმუში (გარდა HapMap JPT-ისა) იქნა გამოყენებული, როგორც სამიზნე მონაცემები იმპუტაციისთვის.

    ჩვენ დავაკვირდით, რომ HapMap JPT პანელის ან კომბინირებული აღმოსავლეთ აზიის პანელის გამოყენებამ გამოიტანა ოდნავ მაღალი შეუსაბამობის მაჩვენებლები, ვიდრე ერთ პოპულაციის პანელების უმეტესობის გამოყენებასთან შედარებით (ნახ. 6, დამატებითი ცხრილი 2). ეს უკანასკნელი შედეგი გასაკვირი იყო, რადგან გაერთიანებული აღმოსავლეთ აზიის პანელი თითქმის ორჯერ აღემატებოდა ერთ პოპულარულ პანელებს. ერთი პოპულაციის პანელებთან დაკავშირებისას, ეჰიმესა და ოკინავას ნიმუშებმა აჩვენეს უმცირესი შეუსაბამობის მაჩვენებლები მხოლოდ მაშინ, როდესაც გამოყენებული იყო შესაბამისი პოპულაციის სპეციფიკური საცნობარო პანელები (დამატებითი ცხრილი 2), რაც ადასტურებს კიდევ ერთ მტკიცებულებას იმის დასადასტურებლად, რომ ეს ორი პოპულაცია უფრო განსხვავებული იყო. სხვა იაპონური მოსახლეობა.

    იმპუტაციის შესრულება საკვლევ პოპულაციებში.

    12 საკვლევ პოპულაციიდან თითოეულში ნიმუშების აღრიცხვის შესრულება გაზომილი იყო შეუსაბამობის კოეფიციენტით, განსაზღვრული როგორც 1 - 2, სადაც 2 შეესაბამება დაკვირვებულ გენოტიპსა და დასახელებულ ალელის დოზას შორის კორელაციას 400 SNP-ზე, რომლებიც ნიღბიანი იყო MHC-ში 1607 SNP-დან. შვიდი იაპონური პოპულაციისთვის (გარდა JPT-ისა), იმპუტაცია განხორციელდა 19 დამატებით ნიმუშზე, რომლებიც არ იყო ძირითადი კვლევის ნაწილი და გამოიყენებოდა პოპულაციის სპეციფიკური საცნობარო პანელის შესაქმნელად. მეორეს მხრივ, CHB, CHS, GIH და JPT-ზე აღრიცხვა განხორციელდა 19 ნიმუშზე ერთი და იგივე პოპულაციის მონაცემებიდან, რომელიც გამოიყენებოდა საცნობარო პანელის შესაქმნელად და, შესაბამისად, ექვემდებარებოდა ზედმეტად მორგებას. გამოყენებული საცნობარო პანელების ანოტაციები შემდეგია: JPTPanel = JPT HAP_SGVPPanel = კომბინირებული პანელი CHB, CHS, JPT ნიმუშების გამოყენებით FukuokaPanel = Fukuoka EhimePanel = Ehime ShimanePanel = Shimane AmaPanel = Amagasaki Kita-NagoyanePanel =OPayokinaKiokta ოკინავა CHBPanel = CHB CHSPanel = CHS.

    სამმა სხვა იაპონურმა პოპულაციამ (შიმანე, ამაგასაკი, კიტა-ნაგოია) ანალოგიურად გამოავლინა ყველაზე დაბალი შეუსაბამობის მაჩვენებლები, როდესაც გამოიყენებოდა შესაბამისი პოპულაციის სპეციფიკური საცნობარო პანელი, თუმცა ეს არ იყო უნიკალური პოპულაციის სპეციფიკური საცნობარო პანელებისთვის. პოპულაციის პანელი, რომელმაც გამოიტანა შეუსაბამობის მაჩვენებლების ექვივალენტური დონე. მაგალითად, ყველაზე დაბალი შეუსაბამობის მაჩვენებელი 2% დაფიქსირდა Shimane-ში, როდესაც ან Shimane პანელი ან Amagasaki პანელი გამოიყენებოდა როგორც მითითება. ასევე აშკარა იყო, რომ ჰან ჩინელებისგან ან ინდიელებისგან აგებული საცნობარო პანელების გამოყენება იაპონური ნიმუშებისთვის შედარებით უარესი იმპუტაციის შესრულებას იძლეოდა.


    LD-ის განთავსება გენომიურ კონტექსტში

    მიუხედავად იმისა, რომ HapMap ვებსაიტზე არსებული ინსტრუმენტები უზრუნველყოფს უახლესი წვდომას HapMap-ის მონაცემებსა და ანალიზზე, ისინი მხოლოდ შეზღუდულ ინფორმაციას გვთავაზობენ რეგიონის ფართო გენომიურ კონტექსტზე. ადამიანის ვარიაციის ბიოლოგიური და ფუნქციური შედეგების სრულად გასაგებად, მნიშვნელოვანია LD და ჰაპლოტიპის ინფორმაცია სრულ გენომურ კონტექსტში მოთავსება. UCSC ადამიანის გენომის ბრაუზერი [40] და Ensembl [41] არის ორი ძირითადი ინსტრუმენტი, რომლებიც ხელმისაწვდომია ამის მისაღწევად და ორივემ ახლა ინტეგრირებულია HapMap LD მონაცემები ვიზუალიზაციისთვის სხვა გენომიურ ინფორმაციასთან ერთად.

    მიუხედავად იმისა, რომ ორივე ინსტრუმენტს ბევრი მსგავსება აქვს, თითოეული შეიცავს განსხვავებულ ინფორმაციას და მონაცემთა ინტერპრეტაციას და ამიტომ, როგორც წესი, ღირს ორივე მაყურებლის კონსულტაცია, თუ მხოლოდ მეორე მოსაზრებისთვის (ორივე მაყურებელი იძლევა საპასუხო ბმულებს). UCSC გენომის ბრაუზერს აქვს ერთი დიდი უპირატესობა როგორც HapMap გენომის ბრაუზერთან, ასევე Ensembl-თან შედარებით, რადგან ის იძლევა LD-ის ვიზუალიზაციას 1 Mb-ზე მეტ რეგიონებში ან თუნდაც მთლიან ქრომოსომებში. ეს ძლიერი LD ვიზუალიზაცია ნამდვილად აქცევს UCSC ბრაუზერს განსაკუთრებულ ინსტრუმენტად ინტეგრირებული LD/გენომის ვიზუალიზაციისთვის [42]. სურათი 3 გვიჩვენებს 1.5 Mb რეგიონს, რომელიც შეიცავს ლაქტაზას გენს (LCT). ეს აჩვენებს მკაფიო განსხვავებებს LD-ში CEU, YRI და JPT-CHB პოპულაციებს შორის, ის ასევე აჩვენებს რეკომბინაციის მაჩვენებლებს, რომლებიც გამოითვლება HapMap-ის მონაცემებიდან (რომლებიც კარგად შეესაბამება LD ბლოკის საზღვრებს) და პოზიტიური შერჩევის მტკიცებულებას სხვადასხვა ეთნიკურ ჯგუფში, გაანგარიშების საფუძველზე. Tajima-ს D SNP გენოტიპის მონაცემებიდან (იხილეთ შემდგომი ტექსტი დეტალებისთვის). LD და ჰაპლოტიპის ინფორმაცია ასევე მოთავსებულია ცნობილი გენებისა და ხერხემლიანების გენომის კონსერვაციის კონტექსტში. თითოეული UCSC მონაცემთა ნაკრების აღწერითი ინფორმაციის მიღება შესაძლებელია თითოეული ტრეკის მარცხნივ ნაცრისფერი ღილაკის დაჭერით. ასევე ხელმისაწვდომია მრავალი კონფიგურირებადი დამატებითი ინფორმაცია, მაგრამ არ არის ნაჩვენები აქ მოკლედ.

    UCSC ბრაუზერი ასევე ძალიან ეფექტურია LD მონაცემების გენომიური კონტექსტის დეტალური ანალიზისთვის. მიზეზობრივი SNP ნაკლებად სავარაუდოა, რომ შემოწმდეს უშუალოდ გენომის სკანირებით, მაგრამ ის შეიძლება იყოს LD-ში შემოწმებული მარკერებით. HapMart-ის მოთხოვნის გამოსავლის გამოყენებით, შედარებით მარტივია (მაგ. Microsoft Excel-ის გამოყენებით) შექმნათ UCSC მორგებული მონაცემთა ბილიკი (იხილეთ UCSC დოკუმენტაცია დეტალებისთვის) SNP-ებზე დაფუძნებული, რომლებიც აჩვენებენ LD-ის მტკიცებულებებს ( 2 > 0.5) ასოცირებულ SNP-თან. სურათი 4 გვიჩვენებს ასეთი ანალიზის მაგალითს. ასოცირებული SNP მდებარეობის და SNP-ების მდებარეობების ჩატვირთვით, რომლებიც აჩვენებენ LD-ს, როგორც მორგებულ ტრასებს, გენომიურ მახასიათებლებთან გასწორება ბევრად უფრო ადვილია, ვიდრე LD ბლოკის ხედის გამოყენება. გენომის მახასიათებლები და SNP-ები შეიძლება პირდაპირ გასწორდეს გადახურვის შესაფასებლად. მთელი დნმ-ის თანმიმდევრობის ექსპორტირება შესაძლებელია თანმიმდევრობაზე ანოტირებული სხვადასხვა ბილიკით, ბრაუზერის ზედა ნაწილში არსებული „დნმ“ ბმულის გამოყენებით. ვიზუალური ინსპექტირების გარდა, UCSC ბრაუზერისთვის შექმნილ პერსონალურ ტრეკებს ასევე აქვს კიდევ ერთი წარმოუდგენლად ძლიერი აპლიკაცია - მათი მოთხოვნილება შესაძლებელია UCSC ცხრილის ბრაუზერის გამოყენებით [43**]. ცხრილის ბრაუზერი, რომელზედაც წვდომა ხდება მთავარ ბრაუზერში „ცხრილების“ ბმულით, არის შესანიშნავი ინსტრუმენტი, რომელიც საშუალებას აძლევს მომხმარებელს შეასრულოს რთული მოთხოვნები მონაცემთა ნაკრებებს შორის, მომხმარებლის მიერ დატვირთული მორგებული ტრეკების ჩათვლით. გადაკვეთის ფილტრის გამოყენებით, მაგალითად, შესაძლებელია ყველა SNP-ის იდენტიფიცირება, რომელიც ადრე იდენტიფიცირებული იყო LD-ით (თქვენი მორგებული ტრეკი), რომლებიც ემთხვევა კონსერვაციული ტრანსკრიფციის ფაქტორის დამაკავშირებელ ადგილებს ან ცნობილ პრომოტორ ელემენტებს ან მიკრო რნმ-ის სამიზნე უბნებს და ა.შ. ეს უაღრესად მოქნილი ფუნქციონირება ხდის UCSC Table ბრაუზერი უნიკალური ძლიერი ინსტრუმენტია, რომელიც რეკომენდირებულია მკითხველისთვის.

    პერსონალური ტრეკების გამოყენება გენომიური კონტექსტის დეტალური ხედვის მისაღებად UCSC გენომის ბრაუზერში. ასოცირებული SNP-ის გენომიური მდებარეობა CARD4 გენთან ახლოს. UCSC გენომის ბრაუზერის მორგებული ბილიკები აჩვენებს SNP-ების მდებარეობას, რომლებიც აჩვენებენ LD-ს ან 2 > 0.5 ბარიერი გენომის ანოტაციის კონტექსტში. დამატებითი ბილიკები აღწერს ცნობილ გენებს, ადამიანის მიერთებული გამოხატული თანმიმდევრობის ტეგებს (ESTs), გაუნაწილებელ EST-ებს, პროგნოზირებულ მარეგულირებელ პოტენციალს და კონსერვაციას ტრანსკრიფციის ფაქტორის დამაკავშირებელ ადგილებს. ქვემოთ მოცემული HapMap LD ინფორმაცია არის CEU ინდივიდებისთვის და ვარაუდობს, რომ ამ რეგიონში ორი შენახული ჰაპლოტიპური კლასტერია. ეს კლასტერები იყოფა რეკომბინაციის ცხელი წერტილით, რომელიც დამოუკიდებლად იდენტიფიცირებულია HapMap და Perlegen მონაცემთა ნაკრებებში.

    პერსონალური ტრეკების გამოყენება გენომიური კონტექსტის დეტალური ხედვის მისაღებად UCSC გენომის ბრაუზერში. ასოცირებული SNP-ის გენომიური მდებარეობა CARD4 გენთან ახლოს. UCSC გენომის ბრაუზერში მორგებული ბილიკები აჩვენებს SNP-ების მდებარეობას, რომლებიც აჩვენებენ LD-ს ან 2 > 0.5 ბარიერი გენომის ანოტაციის კონტექსტში. დამატებითი ბილიკები აღწერს ცნობილ გენებს, ადამიანის მიერთებული გამოხატული თანმიმდევრობის ტეგებს (ESTs), გაუნაწილებელ EST-ებს, პროგნოზირებულ მარეგულირებელ პოტენციალს და კონსერვაციას ტრანსკრიფციის ფაქტორის დამაკავშირებელ ადგილებს. HapMap LD ინფორმაცია ქვემოთ მოცემულია CEU ინდივიდებისთვის და ვარაუდობს, რომ ამ რეგიონში არის ორი შენახული ჰაპლოტიპური კლასტერი. ეს კლასტერები იყოფა რეკომბინაციის ცხელი წერტილით, რომელიც დამოუკიდებლად იდენტიფიცირებულია HapMap და Perlegen მონაცემთა ნაკრებებში.


    Აბსტრაქტული

    ცალკეული ადამიანის გენომის ფუძემდებლური ჰაპლოტიპების დადგენა არის მნიშვნელოვანი, მაგრამ ამჟამად რთული ნაბიჯი გენომის ფუნქციის სრული გაგებისკენ. Fosmid pool-ზე დაფუძნებული შემდეგი თაობის თანმიმდევრობა საშუალებას იძლევა გენომის 40 კბ ჰაპლოიდური დნმ-ის სეგმენტების გენერირება, რომელიც შეიძლება გადაიზარდოს მომიჯნავე მოლეკულურ ჰაპლოტიპებად გამოთვლით Single Individual Haplotyping (SIH) მეშვეობით. შემოთავაზებულია მრავალი SIH ალგორითმი, მაგრამ ასეთი მეთოდების სიზუსტის შეფასება რთული იყო რეალური საორიენტაციო მონაცემების არარსებობის გამო. ამ პრობლემის გადასაჭრელად, ჩვენ შევქმენით მთელი გენომის ფოსმიდური თანმიმდევრობის მონაცემები HapMap ტრიო ბავშვისგან, NA12878, რომლისთვისაც უკვე შეიქმნა სანდო ჰაპლოტიპები. ჩვენ შევკრიბეთ ჰაპლოტიპები SIH-სთვის რვა ალგორითმის გამოყენებით და ჩავატარეთ მათი სიზუსტის, სისრულისა და ეფექტურობის პირდაპირი შედარება. ჩვენი შედარება მიუთითებს, რომ ფოსმიდზე დაფუძნებული ჰაპლოტიპირებას შეუძლია მაღალი სიზუსტის შედეგების მიწოდება დაბალი დაფარვის დროსაც კი და რომ ჩვენს SIH ალგორითმს, ReFHap, შეუძლია ეფექტურად აწარმოოს მაღალი ხარისხის ჰაპლოტიპები. ჩვენ გავაფართოვეთ NA12878-ის ჰაპლოტიპები ამჟამინდელი ჰაპლოტიპების კომბინაციით ჩვენს ფოსმიდზე დაფუძნებულ ჰაპლოტიპებთან, წარმოქმნით თითქმის დასრულებამდე ახალ ოქროს სტანდარტის ჰაპლოტიპებს, რომლებიც შეიცავს ჰეტეროზიგოტური SNP-ების თითქმის 98%-ს. ეს გაუმჯობესება მოიცავს დაავადებასთან დაკავშირებულ და GWA SNP-ების მნიშვნელოვან ფრაქციებს. სხვა მოლეკულურ ბიოლოგიურ მონაცემთა ნაკრებებთან ინტეგრირებული, ამ ფაზის ინფორმაცია ხელს შეუწყობს დიპლოიდური გენომიკის განვითარებას.


    დასკვნები

    ჩვენ შევიმუშავეთ ParaHaplo 3.0, კომპიუტერული პროგრამების ნაკრები, ჰაპლოტიპის შეფასებისა და ზუსტი P მნიშვნელობების პარალელური გამოთვლისთვის ჰაპლოტიპზე დაფუძნებულ GWAS-ებში. ParaHaplo განკუთვნილია სამუშაო სადგურების კლასტერებში გამოსაყენებლად Intel MPI-ის გამოყენებით. ParaHaplo-ს გამოყენებით, ჩვენ ჩავატარეთ JPT და CHB გენოტიპის მონაცემების ჰაპლოტიპური შეფასება, აღებული HapMap 3.0 მონაცემთა ნაკრებიდან [12].

    ეს შედეგები მიუთითებს, რომ როდესაც პროცესორების რაოდენობა საკმარისია, ParaHaplo-ს პარალელური გამოთვლითი შესაძლებლობები 20-ჯერ უფრო სწრაფია, ვიდრე არაპარალელური პროგრამების. ზუსტი და სრული გენოტიპები მიღებულია მილიონზე მეტი SNP-ისთვის [15] და ახლა მიმდინარეობს >10,000 ინდივიდის გენოტიპირება [21]. პარალელური გამოთვლის გამოყენებით ჰაპლოტიპის სწრაფი შეფასების საჭიროება სულ უფრო მნიშვნელოვანი გახდება, რადგან პროექტის მონაცემების ზომები კვლავ იზრდება.


    შეყვანის ფაილის ფორმატები

    Haploview ამჟამად იღებს შეყვანის მონაცემებს ხუთ ფორმატში, სტანდარტული კავშირის ფორმატში, მთლიანად ან ნაწილობრივ ეტაპობრივ ჰაპლოტიპებში, HapMap Project მონაცემთა ნაგავსაყრელში, PHASE ფორმატში და PLINK გამოსავალში. პროგრამას ასევე შეუძლია ეტაპობრივი HapMap მონაცემების ავტომატურად მიღება HapMap ვებსაიტიდან. ის ასევე იღებს ცალკეულ ფაილს მარკერის პოზიციის შესახებ ინფორმაციას, ასევე რამდენიმე დამხმარე შეყვანის ფაილს, რომლებიც აღწერილია ქვემოთ. ოთხი ფორმატი დეტალურად არის აღწერილი ქვემოთ.

    კავშირის ფორმატი

    კავშირის მონაცემები უნდა იყოს Linkage Pedigree (pre MAKEPED) ფორმატში, ოჯახის, ინდივიდის, მამის, დედის, სქესის, დაზარალებული სტატუსისა და გენოტიპების სვეტებით. ფაილს არ უნდა ჰქონდეს სათაურის ხაზი (ანუ პირველი ხაზი უნდა იყოს პირველი ინდივიდისთვის და არა სვეტების სახელები). გთხოვთ გაითვალისწინოთ, რომ Haploview-ს შეუძლია მხოლოდ ორზე მეტი ალელის მქონე ბიალელური მარკერების ინტერპრეტაცია (მაგ. მიკროსატელიტები) არ იმუშავებს სწორად. ნიმუშის ხაზი ასეთი ფაილიდან შეიძლება გამოიყურებოდეს ასე:

    უნიკალური ალფანუმერული იდენტიფიკატორი ამ ინდივიდის ოჯახისთვის. უნათესავმა პირებმა არ უნდა გაიზიარონ საგვარეულო სახელი.

    ალფანუმერული იდენტიფიკატორი ამ ინდივიდისთვის. უნდა იყოს უნიკალური მის ოჯახში (იხ. ზემოთ).

    იდენტიფიკატორი, რომელიც შეესაბამება მამის ინდივიდუალურ ID-ს ან „0“, თუ უცნობი მამა. შენიშვნა
    რომ თუ მამის ID მითითებულია, ფაილში მამაც უნდა გამოჩნდეს.

    იდენტიფიკატორი, რომელიც შეესაბამება დედის ინდივიდუალურ ID-ს ან "0", თუ უცნობი დედა. გაითვალისწინეთ, რომ თუ დედის ID მითითებულია, დედა ასევე უნდა გამოჩნდეს ფაილში.

    ინდივიდის სქესი (1=მამაკაცი, 2=ქალი).

    აფექტის სტატუსი, რომელიც გამოყენებული იქნება ასოციაციის ტესტებისთვის (0=უცნობი, 1=უმოქმედო,2=დაზარალებული).

    თითოეული მარკერი წარმოდგენილია ორი სვეტით (თითო თითოეული ალელისთვის, გამოყოფილი ინტერვალით) და კოდირებულია ან ACGT ან 1-4 სადაც: 1=A, 2=C, 3=G, T=4. 0 რომელიმე მარკერის გენოტიპის პოზიციაზე (როგორც ზემოთ მესამე მარკერის გენოტიპებში) მიუთითებს დაკარგული მონაცემების შესახებ.

    ასევე აღსანიშნავია, რომ ამ ფორმატის გამოყენება შესაძლებელია ოჯახზე დაფუძნებული მონაცემებით. უბრალოდ გამოიყენეთ მოჩვენებითი მნიშვნელობა მემკვიდრეობის სახელისთვის (1, 2, 3. ) და შეავსეთ ნულები მამისა და დედის ID-სთვის. მნიშვნელოვანია, რომ პედის სახელის "მცდარი" მნიშვნელობა უნიკალური იყოს თითოეული ინდივიდისთვის. აფექტის სტატუსი შეიძლება გამოყენებულ იქნეს შემთხვევების წინააღმდეგ კონტროლის (2 და 1, შესაბამისად).

    ფაილები ასევე უნდა მიჰყვეს შემდეგ მითითებებს:

    • ოჯახები თანმიმდევრულად უნდა იყოს ჩამოთვლილი ფაილში (ანუ ყველა ხაზი იგივე მემკვიდრეობის ID უნდა იყოს მიმდებარე)
    • თუ ინდივიდს ჰყავს არანულოვანი მშობელი, მშობელი უნდა იყოს ჩართული ფაილში საკუთარი ხაზით.

    ეტაპობრივი ჰაპლოტიპები

    Haploview-ის შეყვანისთვის ჰაპლოტიპის მონაცემები უნდა იყოს ფორმატირებული საოჯახო, ინდივიდუალური და გენოტიპების სვეტებში. თითოეული ინდივიდისთვის უნდა იყოს ორი ხაზი (ქრომოსომა). ეს არის Genehunter-ის TDT გამომავალი სტანდარტული ფორმატი. იხილეთ ნიმუში ქვემოთ:

    მონაცემთა ფორმატი იყენებს ციფრებს 1-4 გენოტიპების წარმოსადგენად, ნულის რიცხვს გამოტოვებული მონაცემების წარმოსაჩენად და ასო "h" ჰეტეროზიგოტური ალელის წარმოსაჩენად. ანუ, თუ ინდივიდი ლოკუსზე ჰეტეროზიგოტურია, ორივე ალელი უნდა იყოს "h", თუ ფაზირება (რომელ ქრომოსომაზე მოდის ალელი) გაურკვეველია.

    HapMap Project Data Dumps

    HapMap პროექტის მონაცემების გადაყრა შესაძლებელია რეგიონის მიხედვით GBrowse ინტერფეისის გამოყენებით. შენახული მონაცემთა ფაილი არის მარკერის-თითო ხაზის ფორმატში, რომელიც შეიძლება ჩაიტვირთოს Haploview-ში.

    GBrowse ათავსებს მხოლოდ ერთ ფაილს, რომელსაც აქვს თითო მარკერი თითო სტრიქონზე და რომელიც მოიცავს ოჯახურ ურთიერთობებს HapMap ნიმუშებს შორის, ასევე მარკერის პოზიციის ინფორმაციას. ფაილის ფორმატს აქვს რამდენიმე სათაურის სტრიქონი (დაწყებული "#"-ით), რომლებსაც Haploview აანალიზებს. გახსენით ფაილი "Browse HapMap Data" ოფციის არჩევით და გადმოწერილი ფაილის არჩევით.

    თუ გსურთ ჩატვირთოთ მონაცემები სხვა წყაროდან HapMap სტილის ფორმატში, თქვენ უნდა მიუთითოთ მემკვიდრეობის ინფორმაცია თქვენ მიერ შექმნილი ფაილის სათაურში. ეს შეიძლება გაკეთდეს შემდეგი ფორმატის ხაზების შექმნით თქვენი ფაილის ზედა ნაწილში:

    ეს მონაცემები იგივეა, რაც ზემოთ განხილული პედფაილის ფორმატი. სფეროებია ოჯახი, ინდივიდუალური, მამა, დედა, სქესი, დაზარალებული სტატუსი. ამის შემდეგ თქვენ შეცვლით NAXXXX იდენტიფიკატორებს HapMap ფაილის სათაურ მწკრივში თქვენი იდენტიფიკატორებით, ექვემდებარება ორ მნიშვნელოვან შეზღუდვას: ისინი უნდა იყვნენ უნიკალური მთელ მონაცემთა ბაზაში და არა მხოლოდ ოჯახის შიგნით და უნდა იწყებოდეს NA სიმბოლოებით.

    HapMap PHASE ფორმატი

    მონაცემები ში HapMap ფაზა ფორმატის ჩატვირთვა შესაძლებელია Haploview-ში სამი ცალკეული ფაილის გამოყენებით. პირველი არის მონაცემთა ფაილი, რომელიც შეიცავს ბინარულ ალელურ ინფორმაციას. მეორე არის ნიმუშის ფაილი, რომელიც შეიცავს მონაცემთა ნაკრებში გამოყენებული ინდივიდუალური ID-ების ერთ სვეტს. მესამე არის ლეგენდის ფაილი, რომელიც შეიცავს ოთხ სვეტს: მარკერი, პოზიცია, 0 და 1. მხოლოდ ლეგენდის ფაილს სჭირდება სათაური და გამოიყენება მონაცემთა ფაილში ინფორმაციის გაშიფვრისთვის. ამ ფაილების ჩატვირთვა შესაძლებელია როგორც GZIP შეკუმშული ფაილები, საწყის ჩატვირთვის ეკრანზე ჩამრთველი ველის „ფაილები არის GZIP შეკუმშული“ გამოყენებით. დამატებითი ინფორმაციისთვის HapMap PHASE ფორმატის შესახებ იხილეთ HapMap PHASE readme.

    HapMap ჩამოტვირთვა

    მონაცემები ში HapMap ფაზა ფორმატი ასევე შეიძლება ავტომატურად გადმოიწეროს Haploview-ში ჩატვირთვის ეკრანზე "HapMap Download" ჩანართის გამოყენებით HapMap-ის გამოშვების, ქრომოსომის, ანალიზის პანელის და საწყისი და დასასრული პოზიციების მითითებით (კბ). ეს პარამეტრები ასევე შეიძლება ავტომატურად შეივსოს GeneCruiser მონაცემთა ბაზაში გენის ან SNP ID-ით შეკითხვით. დამატებითი ინფორმაცია GeneCruiser-ის მონაცემთა ბაზის შესახებ შეგიძლიათ იხილოთ GeneCruiser-ის ვებსაიტზე.

    მარკერის საინფორმაციო ფაილი

    მარკერის ინფორმაციის ფაილი არის ორი სვეტი, მარკერის სახელი და პოზიცია. პოზიციები შეიძლება იყოს აბსოლუტური ქრომოსომული კოორდინატები ან ფარდობითი პოზიციები. შეიძლება ასე გამოიყურებოდეს:

    არასავალდებულო მესამე სვეტი შეიძლება შეიტანოს ინფორმაციის ფაილში, რათა გააკეთოთ დამატებითი შენიშვნები კონკრეტული SNP-ებისთვის. დამატებითი ინფორმაციის მქონე SNP-ები მწვანედ არის მონიშნული LD ეკრანზე. მაგალითად, შეგიძლიათ გაითვალისწინოთ, რომ პირველი SNP არის კოდირების ვარიანტი შემდეგნაირად:

    PLINK ფორმატი

    გამომავალი ფაილები PLINK შეიძლება ჩაიტვირთოს Haploview-ში PLINK ჩანართის გამოყენებით საწყისი ჩატვირთვის ეკრანზე. PLINK ფაილები უნდა შეიცავდეს სათაურს და მინიმუმ ერთი სვეტის სათაური უნდა იყოს სათაური "SNP" და შეიცავდეს მარკერის ID-ებს ფაილში შედეგებისთვის. PLINK ჩატვირთვა ასევე მოითხოვს სტანდარტულ PLINK რუკას ან ორობითი რუკის ფაილს, რომელიც შეესაბამება გამომავალი ფაილის მარკერებს. რუკის ფაილი შეიძლება იყოს სამი ან ოთხი უთავო სვეტი (მორგანის მანძილის სვეტი არჩევითია). რუკის ფაილი ასევე შეიძლება იყოს ჩასმული შედეგების ფაილში, როგორც ფაილის პირველი რამდენიმე სვეტი "ინტეგრირებული რუქის ინფორმაციის" ჩამრთველის გამოყენებით. თქვენ ასევე შეგიძლიათ ჩატვირთოთ არა SNP-ზე დაფუძნებული ფაილები „არა-SNP“ ველის მონიშვნით. ამ ფაილებს არ სჭირდებათ რუკის ფაილი. თქვენ შეგიძლიათ აირჩიოთ მხოლოდ ერთ ქრომოსომაში ჩატვირთვა თქვენი შედეგების ფაილიდან „მხოლოდ შედეგების ჩატვირთვა ქრომოსომიდან“ მოსანიშნი ველის გამოყენებით და ჩამოსაშლელი სიიდან ქრომოსომას არჩევით. თქვენ ასევე შეგიძლიათ აირჩიოთ, რომელი სვეტები ჩაიტვირთოთ თქვენი შედეგების ფაილიდან „სვეტების არჩევის“ ველის მონიშვნით. PLINK-ის შედეგების შესახებ მეტი ინფორმაციისთვის იხილეთ შონ პერსელის PLINK ვებსაიტი.

    სურათების ჩატვირთვა ფაილი

    ბრძანების სტრიქონზე "-batch" დროშა საშუალებას გაძლევთ გაუშვათ Haploview ავტომატურად (nogui რეჟიმში) რამდენიმე ფაილზე. ჯგუფური შეყვანის ფაილებს უნდა ჰქონდეთ ერთი გენოტიპის ფაილი თითო სტრიქონში, ინფორმაციის ფაილთან ერთად (თუ სასურველია) გამოყოფილი ინტერვალით. ფაილების სახელები უნდა შეესაბამებოდეს შემდეგ წესებს:

    • პედფაილის სახელები უნდა დასრულდეს „.ped“-ით
    • ეტაპობრივი ჰაპლოტიპის ფაილის სახელები უნდა დასრულდეს „.haps“-ით
    • HapMap ფაილის სახელები უნდა დასრულდეს ".hmp"-ით
    • საინფორმაციო ფაილების სახელები უნდა დასრულდეს „.info“-ზე

    შემდეგი მაგალითი გვიჩვენებს 2 პედფაილს (ინფორმაციული ფაილებით) და hapmap ფაილს:


    მასალა და მეთოდები

    შვიდსაფეხურიანი პროცესების ნაკადის სქემა, რომელსაც HaploShare იყენებს ჰაპლოტიპის გაზიარების IBD-ს გამოვლენისა და შეფასებისას, ნაჩვენებია ნახაზ 1-ში.

    ნაბიჯი 1. პოპულაციის ჰაპლოტიპების კატალოგის აგება

    თითოეული საკონტროლო სუბიექტის მთელი გენომი დაყოფილია LD ბლოკების რეგიონებად და რეკომბინაციის ცხელ წერტილებად, რომლებიც დაფუძნებულია LD-ზე SNP-ებს შორის ჯანმრთელ კონტროლში, ადრინდელი მეთოდის მოდიფიკაციის გამოყენებით [23]. SNP-ების წყვილს ითვლება ძლიერი ან სუსტი LD, თუ D'-ის ცალმხრივი ზედა 95% ნდობის ზღვარი არის >0.98 ან <0.90. ამ მნიშვნელობებს შორის წყვილი არ განიხილება. თუ ("ძლიერი LD" წყვილი) / ("ძლიერი LD" წყვილი + "სუსტი LD" წყვილი) >0.95 რეგიონში, ეს ითვლება LD ბლოკად. წინააღმდეგ შემთხვევაში, ის განიხილება, როგორც რეკომბინაციის ცხელი წერტილი და ეს SNP განიხილება ინდივიდუალურად. LD ბლოკების და ცხელ წერტილების შეფასება იწყება ქრომოსომაში ყველაზე 5′ SNP-დან. მას შემდეგ, რაც პირველი წყვილი მომიჯნავე SNP-ების ძლიერი LD-ით იდენტიფიცირებულია, ქვედა დინების SNP-ები ემატება ბლოკს თითოეული დანამატის LD-ის შეფასებით რეგიონის ყველა SNP-თან, სანამ LD ბლოკის განმარტება აღარ იქნება დაკმაყოფილებული ან ორი მიმდებარე SNP გამოყოფილი >50 კბ-ით. PHASE პროგრამული უზრუნველყოფა [24,25] შემდეგ გამოიყენება ჰაპლოტიპების კატალოგის გენერირებისთვის თითოეული წინასწარ განსაზღვრული LD ბლოკისთვის მათი პოპულაციის სიხშირეებთან ერთად.

    თუ არ არის ხელმისაწვდომი საკონტროლო მონაცემები, LD ბლოკები და რეკომბინაციის ცხელ წერტილები განისაზღვრება გენეტიკური მანძილებიდან SNP მარკერებს შორის, რომლებიც მიღებულია HapMap-დან. გენეტიკური მანძილი 0.001 ცენტიმორგანზე (სმ) ორ მიმდებარე SNP-ს შორის 10 კბ-ის ფარგლებში აფართოებს LD ბლოკს. ეს ორი მეთოდი, როგორც წესი, ქმნის LD ბლოკების და რეკომბინაციის ცხელ წერტილების მსგავს შედეგებს (დამატებითი ფაილი 1: სურათი S1). HapMap-ის შესაბამისი პოპულაციის ეტაპობრივი მონაცემები გამოყენებული იქნება ამ შემთხვევაში ჰაპლოტიპების კატალოგის შესაქმნელად.

    ნაბიჯი 2. გენოტიპების ფაზირება პოპულაციის ჰაპლოტიპების კატალოგზე დაფუძნებულ შემთხვევებში

    გენოტიპები თითოეულ LD ბლოკში გადანაწილებულია ჰაპლოტიპებად, პოპულაციის ჰაპლოტიპების კატალოგის საფუძველზე. შეიძლება გამოყენებულ იქნას რამდენიმე სცენარი. (A) კატალოგში ჰაპლოტიპების მხოლოდ ერთ წყვილს შეუძლია ახსნას გენოტიპები ბლოკში. (B) თუ ჰაპლოტიპების ერთზე მეტი წყვილი შეესაბამება ბლოკის გენოტიპებს, ჰაპლოტიპების ყველა შესაძლო წყვილი ჩაიწერება და გამოყენებული იქნება შემდგომ ეტაპებზე ჰაპლოტიპის გაზიარების იდენტიფიცირებისთვის. (C) გენოტიპის ახსნა შესაძლებელია მხოლოდ ცნობილი ჰაპლოტიპით ჰაპლოტიპთან ერთად, რომელიც კატალოგში არ არსებობს. მოსახლეობის დაბალი სიხშირე, რომელიც შეფასებულია როგორც

    ვარაუდობენ გამოუცნობ ჰაპლოტიპს. Აქ არის ჰაპლოტიპის კატალოგის გენერირებისთვის გამოყენებული კონტროლის ნიმუშის ზომა და 95% ალბათობაა, რომ ჰაპლოტიპი არ იყოს კონტროლში. (დ) გენოტიპები არ შეესაბამება კატალოგში არსებულ რომელიმე ცნობილ ჰაპლოტიპს. ამ შემთხვევაში, ვარაუდობენ გენოტიპის შეცდომებს და LD ბლოკი არ იქნება გამოყენებული ჰაპლოტიპის გაზიარების საწყისი გამოვლენისთვის. თუმცა, ეს ხელს არ შეუშლის მასში არსებული საერთო ჰაპლოტიპის გაფართოებას.

    ნაბიჯი 3. წყვილის მიხედვით ჰაპლოტიპის გაზიარების გამოვლენა შემთხვევებში

    ყველა შემთხვევისთვის ფაზირების შედეგების მიღების შემდეგ, ინდივიდების წყვილი სკანირებულია და შედარებულია პოტენციური ჰაპლოტიპის გაზიარებისთვის თითოეულ ქრომოსომაზე. დამთხვევის დასაწყებად გამოიყენება მხოლოდ LD ბლოკში გაზიარებული ჰაპლოტიპები (არა SNP-ები რეკომბინაციის ცხელ წერტილებში). გაზიარებული რეგიონი გაფართოვებულია ორივე მიმართულებით, ხოლო მხარს უჭერს ჰაპლოტიპებს LD ბლოკებში ან SNP-ებს ცხელ წერტილებში, რაც იძლევა გენოტიპის პოტენციურ შეცდომებს. გენოტიპის შეცდომები დაშვებულია, თუ გაფართოებულ ჰაპლოტიპში 1% ან ნაკლები SNP არ შეესაბამება ჰაპლოტიპის გაზიარებას. არ არის ნებადართული შეუთავსებლობა გაფართოებული საერთო ჰაპლოტიპის პირველ და ბოლო 20 SNP-ში, რათა თავიდან იქნას აცილებული ცრუ გაფართოებები. გაფართოებული ჰაპლოტიპები, რომლებიც წყვილ-წყვილად უფრო გრძელია, ვიდრე წინასწარ დაყენებულ გენეტიკურ მანძილს (როგორიცაა 0,5 ან 1 სმ, როგორც გამოიყენება ამ კვლევაში ნაჩვენები სიმულაციებში) შერჩეულია და შეფასებულია მრავალ ინდივიდს შორის გაზიარებისთვის.

    ნაბიჯი 4. ჰაპლოტიპის გაზიარების გამოვლენა მრავალი ნიმუშით

    წყვილების მიერ გაზიარებული ჰაპლოტიპები შედარებულია ერთმანეთთან, რათა დადგინდეს ის, ვინც იზიარებს გაფართოებული ჰაპლოტიპის ნაწილს მაინც. ისინი შერწყმულია, როდესაც სხვადასხვა წყვილი ნაწილობრივ მაინც გადაფარავს ერთსა და იმავე ალელზე გაზიარებულ რეგიონს. გაფართოებული ჰაპლოტიპი, რომელიც იზიარებს რამდენიმე ინდივიდს, განისაზღვრება, როგორც ჰაპლოტიპი, რომელიც იზიარებს მინიმუმ ორ ინდივიდს ნებისმიერ მოცემულ წერტილში და შეიცავს ბირთვულ ჰაპლოტიპს, რომელიც უნდა მოიცავდეს მინიმუმ ერთ LD ბლოკს და გაზიარებული იყოს ყველა ინდივიდისთვის. ამის მაგალითი ილუსტრირებულია სურათზე 4. მეთოდმა შეიძლება გამოტოვოს ინდივიდები, რომლებიც იზიარებენ გაფართოებული ჰაპლოტიპის ნაწილს, მაგრამ ვერ აკმაყოფილებენ შერჩევის ზღურბლს წყვილით გაზიარებისთვის ამ ჯგუფის სხვა ნიმუშებთან. შემდგომ ანალიზში მათ ჩასართავად, დარჩენილი ნიმუშები სკანირებულია იმ ნიმუშებისთვის, რომლებიც იზიარებენ ბირთვის მთელ ჰაპლოტიპს და აქვთ საერთო ჰაპლოტიპის საერთო სიგრძე, რომელიც არის მინიმუმ ნახევარი იმ ზღურბლის, რომელიც თავდაპირველად იყო გამოყენებული (იხ. ნაბიჯი 3 ზემოთ).

    RET მუტაციის მატარებელი ჰაპლოტიპების გამოვლენა. RET მუტაციის რეგიონი მოიცავს 7 Mb ფიზიკურ მანძილზე, მაგრამ მხოლოდ 1 სმ გენეტიკურ მანძილზე, რომელიც შეიცავს 17 LD ბლოკს. 14-ვე შემთხვევა იზიარებს ბირთვის ჰაპლოტიპს, რომელიც შედგება 8-დან 11-მდე ბლოკებისგან, ხოლო დანარჩენ რეგიონს იზიარებს მინიმუმ ორი შემთხვევა ნებისმიერ მოცემულ მომენტში. საერთო ჰაპლოტიპების სიხშირე სხვადასხვა ბლოკში მერყეობს 1%-დან 60%-მდე ჩინურ მოსახლეობაში.

    ნაბიჯი 5. IBD-ის მიერ გაზიარებული ჰაპლოტიპის ალბათობის თანაფარდობის შეფასება შემთხვევით გაზიარების წინააღმდეგ

    საერთო პოპულაციის საერთო ჰაპლოტიპების უმეტესობა მოკლე და გავრცელებულია, თუმცა ფიზიკური სიგრძე შეიძლება იყოს ცუდი მაჩვენებელი [26]. თუმცა, რეალური ბოლო დამფუძნებელი ჰაპლოტიპები, სავარაუდოდ, უფრო გრძელი იქნება და შეიძლება შეიცავდეს პოპულაციაში დაბალი სიხშირის მრავალ ბლოკის ჰაპლოტიპს. აქ ჩვენ წარმოგიდგენთ გაზიარების ალბათობის შეფასებას IBD-ს გამო ან შემთხვევით და ვიყენებთ მათი თანაფარდობის ლოგარითმს ჰაპლოტიპის გაზიარების მოვლენების შესაფასებლად.

    თუ გაზიარება ხდება შემთხვევითი შანსის გამო, მაშინ სხვადასხვა ბლოკიდან ჰაპლოტიპების მემკვიდრეობა დამოუკიდებელი მოვლენა უნდა იყოს, ბლოკებს შორის სუსტი LD უგულებელყოფით. ამრიგად, მისი ალბათობა შეიძლება შეფასდეს, როგორც სხვადასხვა LD ბლოკში ჰაპლოტიპების მემკვიდრეობის ალბათობის პროდუქტი. ჰაპლოტიპის გაზიარების ალბათობა მე LD ბლოკში შემთხვევითი შემთხვევით მიერ პირები დასახელებულია როგორც , რომელიც, საერთო ჰაპლოტიპის პოპულაციის სიხშირისა და ჰაპლოტიპის გაზიარებული ინდივიდების რაოდენობის მიხედვით, შეიძლება შეფასდეს როგორც:

    ჰაპლოტიპის პოპულაციის სიხშირე მე ბლოკში არის ჯი. Აქ არის ინდივიდების რაოდენობა, რომლებიც იზიარებენ გაფართოებულ ჰაპლოტიპს და არის ინდივიდების რაოდენობა რომლებიც იზიარებენ ჰაპლოტიპს მე ბლოკში და . ( მარცხნივ(დაიწყებაhfill 2khfill <>hfill khfill end ight) ) ნიშნავს შესაძლო კომბინაციების რაოდენობას ქრომოსომა სულ 2-დან ქრომოსომები და ( hfill 2hfill <>hfill 1hfill endმარჯვნივ)>^ ) მიუთითებს, რომ ორი ჰაპლოტიპიდან ერთი იზიარებს თითოეულს პირები. გაფართოებული ჰაპლოტიპის შემთხვევითი შემთხვევით გაზიარების ალბათობაა:

    სადაც არის განხილული პირების საერთო რაოდენობა (მაგალითად, შემთხვევების ნიმუშის ზომა) და არის LD ბლოკების საერთო რაოდენობა ამ გაფართოებულ საერთო ჰაპლოტიპში. ამგვარად L(H ) წარმოადგენს ალბათობას ინდივიდები, რომლებიც იზიარებენ გაფართოებულ ჰაპლოტიპს შემთხვევითი შემთხვევით, და გაფართოებულ ჰაპლოტიპს აქვს LD ბლოკები შესაბამისი ჰაპლოტიპური სიხშირით ჯი. ალბათობის შეფასებისთვის განიხილება მხოლოდ ბლოკის ჰაპლოტიპები.

    თუ რეგიონი გაზიარებულია უახლესი საერთო წინაპრისგან მემკვიდრეობის გამო, ალბათობა შეიძლება შეფასდეს, როგორც საერთო ჰაპლოტიპის (თაობების) სავარაუდო ასაკის, n-ის ფუნქცია, რომელიც ეფუძნება რეგიონის გენეტიკური სიგრძეს და k-ს რაოდენობას. პირები, რომლებიც იზიარებენ გაფართოებულ ჰაპლოტიპს:

    Ისე × წარმოადგენს მეიოზის საერთო რაოდენობას საერთო გაფართოებული ჰაპლოტიპის ფორმირებაში და 0.5 არის შანსი, რომ ჰაპლოტიპი მემკვიდრეობით გადავიდეს თითოეულ მეიოზში. მას შემდეგ, რაც სხვადასხვა ინდივიდს შეიძლება ჰქონდეს გაფართოებული ჰაპლოტიპის სხვადასხვა სიგრძე, ფასდება საშუალო გენეტიკური მანძილით (სმ) საერთო ჰაპლოტიპის თითოეული პირები:

    მემკვიდრეობითი ჰაპლოტიპი 2 სმმ საშუალოდ მიუთითებს იმაზე, რომ დაახლოებით 50 მეიოზა შეიძლება მომხდარიყო მიმდებარე რეგიონში, რაც მიუთითებს საერთო წინაპრის გაზიარებაზე დაახლოებით 50 თაობის წინ. IBD-ით გაზიარებისა და შემთხვევით გაზიარების ალბათობის თანაფარდობის ლოგარითმი შემდეგ შეფასებულია როგორც:

    ნაბიჯი 6. ემპირიული ნულოვანი განაწილების შეფასება კონტროლის გამოყენებით

    ალბათობის თანაფარდობა შეიძლება იყოს გაბერილი სუსტი LD-ის გამო ჰაპლოტიპურ ბლოკებს შორის. გენომის დაფარვის განსხვავებები, განსაკუთრებით იშვიათ გენეტიკურ ვარიანტებზე, შეიძლება გამოიწვიოს უზუსტობები. ამრიგად, აუცილებელია გენომის მასშტაბის კორექტირება, რათა ალბათობის თანაფარდობა შედარებადი იყოს სხვადასხვა რეგიონში. მონტე კარლოს სიმულაციური პროცესი გამოიყენება ჯანსაღი კონტროლის ჯგუფში საერთო ჰაპლოტიპების განაწილების გამოსაკვლევად.

    თუ რეგიონი გაზიარებულია ინდივიდებს შორის სულ შემთხვევები, მაშინ ნიმუშები შერჩეულია შემთხვევითი კონტროლის მთლიანი ჯგუფიდან. ამ პიროვნებებისთვის გამოვლენილია ჰაპლოტიპის გაზიარება და IBD-ით გაზიარებისა და შემთხვევით გაზიარების ალბათობის კოეფიციენტები გამოითვლება როგორც ზემოთ აღწერილი. თითოეულ სიმულაციაში, ყველაზე დიდი ალბათობის თანაფარდობა ყველა გაფართოებული ჰაპლოტიპიდან მთელ გენომში გაზიარებული ან ნაკლები ინდივიდი არის დაფიქსირებული. ყოველი გამეორებიდან ყველაზე დიდი ალბათობის კოეფიციენტის გამოყენების მიზეზი პოპულაციაში ნულოვანი განაწილების გამოსათვლელად, ვიდრე ყველა შეფასებული გაფართოებული ჰაპლოტიპიდან, არის ალბათობის ნულოვანი განაწილების შეფასების სირთულის ასახვა მრავალჯერადი ტესტირების საკითხის მიღებისას. მხედველობაში. ვინაიდან ძალიან რთულია ალბათობის კოეფიციენტებზე გავლენის მოდელირება გაფართოებული ჰაპლოტიპის ასაკისა და მასში გაზიარებული ინდივიდების რაოდენობის მიხედვით, ეს შეზღუდვა უზრუნველყოფს გაფართოებული ჰაპლოტიპების აღმოჩენას ისტორიაში უფრო უახლესი შემთხვევებისთვის. ეს პროცესი მეორდება მინიმუმ 1000-ჯერ საკონტროლოებიდან შემთხვევითი შერჩევით ნიმუშების სხვადასხვა ნაკრები. თუ კონტროლერებში არსებული ნიმუშები 2-ზე ნაკლებია , ვირტუალური ნიმუშები გენერირებულია SNP ალელის მიხედვით და არსებული ნიმუშების ჰაპლოტიპის სიხშირეების ბლოკირების მიხედვით, როგორც ქვემოთ მოცემულია. თითოეული სიმულაციური რაუნდი იყენებს მთელ საკონტროლო ნიმუშს, გარდა უკვე შერჩეული და ჩაწერილი გაფართოებული ჰაპლოტიპებისა, რათა თავიდან აიცილოს იგივე ჰაპლოტიპების განმეორებითი შერჩევა სიმულაციებს შორის. ეს არის მიდგომა, რომელიც ეხება იმ საკითხს, რომ საკონტროლო ნიმუშები ხშირად არ არის საკმარისად დიდი იმისათვის, რომ განმეორებითი სიმულაცია მოხდეს სხვადასხვა რაუნდებს შორის ინდივიდების ერთი და იგივე ქვეჯგუფის შერჩევის გარეშე.

    ეს წარმოქმნის ალბათობის კოეფიციენტების უკიდურესი მნიშვნელობების კრებულს კონტროლებიდან ჰაპლოტიპის გაზიარებაზე, რომელიც მიჰყვება გუმბელის განაწილებას, მორგების სიკეთე ყოველთვის აღწევს 0.99-ს ან უფრო მაღალს Matlab-ში შესრულებული ანდერსონ-დარლინგის ტესტის მიხედვით ( >0.01, მიიღე H0, რაც მიუთითებს, რომ მონაცემები შეესაბამება განაწილებას). ამიტომ, ეს განაწილება განიხილება, როგორც ემპირიული გენომის მასშტაბით ნულოვანი განაწილების ალბათობის კოეფიციენტები ჰაპლოტიპის გაზიარებისთვის საინტერესო პოპულაციაში (გამოსახულია როგორც წყვეტილი მრუდები სურათზე 2 და დამატებით ფაილში 1: სურათი S2), საიდანაც არის I ტიპის შეცდომა. შეიძლება შეფასდეს და ზღურბლები განისაზღვროს მარჯვენა კუდის მრუდის ქვეშ არსებული ფართობის მიხედვით.

    თუ საკონტროლო ნიმუშები არ არის ხელმისაწვდომი ან ორჯერ ნაკლებია, ვიდრე ორჯერ ნაკლებია, HaploShare წარმოქმნის ვირტუალურ საკონტროლო მონაცემთა ნაკრების ჰაპლოტიპებზე და მათ პოპულაციის სიხშირეებზე დაყრდნობით HapMap მონაცემებზე ან მოწოდებულ კონტროლებზე. მოკლედ, ბლოკებში არსებული გენოტიპებისთვის, ორი ჰაპლოტიპი შემთხვევით შეირჩევა მათი პოპულაციის სიხშირის პროპორციული ალბათობით. გენოტიპებისთვის რეკომბინაციის ცხელ წერტილებში, SNP ალელები არჩეულია მარკოვის მოდელის მიერ მისი სუსტი LD-ის პროპორციულად მისი 5′ SNP-ის პროპორციულად, როგორც აღწერილია ადრე [26]. ეს პროცედურა უზრუნველყოფს, რომ ბლოკის მიხედვით ჰაპლოტიპის სიხშირეები და LD რეკომბინირებული ცხელ წერტილების SNP-ებისთვის დარჩება იგივე, რაც თავდაპირველ HapMap-ის ნიმუშებში ან მოწოდებულ შეზღუდულ კონტროლებში.

    ნაბიჯი 7. ჟურნალის ალბათობის კოეფიციენტების მნიშვნელოვნების შეფასება

    მნიშვნელობები განისაზღვრება, როგორც ნულოვანი ჰიპოთეზის მიხედვით დაკვირვებული სტატისტიკის გადაჭარბების ალბათობა. როგორც ზემოთ აღინიშნა, ამ მეთოდით (ნაბიჯი 6) გენერირებული ნულოვანი ჰიპოთეზა ეფუძნებოდა არა ყველა შეფასებულ გაფართოებულ ჰაპლოტიპს, არამედ საუკეთესოებს გამეორებებიდან. ამიტომ, დაბნეულობის თავიდან ასაცილებლად, ჩვენ გამოვიყენეთ ტერმინი "კვაზი". ღირებულება" ნაცვლად " მნიშვნელობა“ ამ მეთოდით. კვაზი მნიშვნელობა პირდაპირ არ ასახავს მეთოდის ცრუ პოზიტიურ მაჩვენებელს, არამედ მხოლოდ აფასებს თითოეული ჰაპლოტიპის გაზიარების მნიშვნელობას. მე-6 საფეხურზე გენერირებული განაწილება გამოყენებული იქნა "კვაზი"-ს მოსაძებნად შემთხვევებს შორის გამოვლენილი ჰაპლოტიპის გაზიარების მნიშვნელობები. დამატებითი ფაილი 1: ცხრილი S10 აჩვენებს ცრუ დადებითი მაჩვენებლების გამოთვლის გზას გარკვეული კვაზიდან ღირებულებები.

    ნაბიჯი 8. გაფართოებული ჰაპლოტიპების ამოღება, რომლებიც გაზიარებულია ორივე შემთხვევის და კონტროლის მიერ, სიხშირეების მნიშვნელოვანი განსხვავებების გარეშე

    ცრუ დადებითი აღმოჩენების შემდგომი შემცირების მიზნით, მნიშვნელოვნად გაზიარებული ჰაპლოტიპები შემდეგ შედარებულია კონტროლში გაზიარებულ ჰაპლოტიპებთან, რათა იპოვონ ისინი, რომლებიც გადახურულია როგორც ლოკაციაში, ასევე ალელში და მნიშვნელოვანი განსხვავებების გარეშე ინდივიდების რაოდენობაში, რომლებიც იზიარებენ ჰაპლოტიპს. თითოეული გაზიარებული ჰაპლოტიპისთვის, რომელიც აღმოჩენილია მნიშვნელოვანი შემთხვევებისთვის, HaploShare იკვლევს ნიმუშებს ყველა იმ საკონტროლოში, რომლებიც ატარებენ ერთსა და იმავე ჰაპლოტიპს შემდეგი კრიტერიუმებით: (1) არის სრული გადაფარვა ძირითადი ჰაპლოტიპზე ქეისებსა და კონტროლებს შორის (2) ნიმუშები საკონტროლო ჯგუფში ასევე იზიარებს მთლიანი გაფართოებული ჰაპლოტიპის 50%-ზე მეტს, რომელიც გაზიარებულია შემთხვევებში და (3) არ არის მნიშვნელოვანი განსხვავება საერთო ჰაპლოტიპის სიხშირეში შემთხვევებსა და კონტროლებს შორის Chi Square ტესტის საფუძველზე ( >0.05). ჰაპლოტიპები, რომლებიც გაზიარებულია როგორც შემთხვევებში, ასევე ასე განსაზღვრულ კონტროლში, ჩაითვლება, როგორც ძირითადი დაავადებასთან ასოცირების მტკიცებულების გარეშე და ამოღებულია დასკვნებიდან.

    მონაცემთა ნაკრების გენერირება HaploShare და სხვა პროგრამების შესაფასებლად

    ამ მეთოდოლოგიის შესაფასებლად გამოყენებული იქნა ჰონგ კონგის ჩინური ნიმუშების გენოტიპირებული გენოტიპირებული ჰონგ კონგის ჩინური ნიმუშების რეალური მონაცემთა ნაკრები (>2800 ინდივიდი იხილეთ დამატებითი ფაილი მონაცემების შესახებ). მონაცემები პირველად იქნა გამოყენებული HaploShare-ში დანერგილი ფაზირების მეთოდის შესაფასებლად. 1000 ინდივიდის ერთი ნაკრების გენოტიპები გამოიყენეს პოპულაციის ჰაპლოტიპების კატალოგის გენერირებისთვის, ხოლო 1000 ინდივიდისგან შემდგარი სხვა ნაკრები შემთხვევითად აირჩიეს ფაზირების პროცესის შესამოწმებლად. მარკერების დაახლოებით 91% მდებარეობდა LD ბლოკებში, დანარჩენი კი რეკომბინაციის ცხელ წერტილებში. ბლოკის გენოტიპების ოთხმოცდაშვიდი პროცენტი შეიძლება აიხსნას ჰაპლოტიპების უნიკალური წყვილით. 2.7% აიხსნება ერთზე მეტი წყვილი ჰაპლოტიპით და ბლოკის გენოტიპების 0.2% შეიძლება აიხსნას მხოლოდ ერთი ცნობილი ჰაპლოტიპით და უცნობით. ჰაპლოტიპი. ძალიან იშვიათად, ბლოკის გენოტიპები (<0.01%) არ იყო თავსებადი რომელიმე ცნობილ ჰაპლოტიპთან ამ მონაცემთა ბაზაში, თუმცა ეს დამოკიდებული იქნება გამოყენებული საკონტროლო ნიმუშის ზომაზე და გენოტიპის პლატფორმის შეცდომის სიხშირეზე.

    უახლესი დამფუძნებელი ჰაპლოტიპების შესაქმნელად, მეიოზის პროცესის სიმულაცია მოხდა, როგორც ადრე იყო აღწერილი [27]. თითოეულ სიმულაციაში, ერთი ნიმუში შეირჩა როგორც "წინაპარი" და რამდენიმე ნიმუში, როგორც ბოლო თაობის "შთამომავლები". შერჩეული ნიმუშების გენოტიპები LD ბლოკებში ეტაპობრივად განხორციელდა ზემოთ წარმოდგენილი ბლოკის ჰაპლოტიპის კატალოგის მიხედვით (ან BEAGLE-ის მიერ ფაზირებული ოჯახის წევრების გენოტიპების გამოყენებით, იხილეთ ქვემოთ). LD ორ მიმდებარე SNP-ს შორის რეკომბინაციის ცხელ წერტილებში ან LD ბლოკებს შორის იყო მოდელირებული, როგორც ზემოთ აღწერილი. ამიტომ, LD როგორც ბლოკებს შორის, ასევე ბლოკებს შორის მხედველობაში მიიღეს ფაზირების პროცესში.

    ფაზირების შემდეგ, ერთი "წინაპრის" SNP შემთხვევით იქნა არჩეული, როგორც "დამფუძნებელი მუტაცია". იმიტირებული მეიოზის პროცესში, მუტაციის მატარებელი გაფართოებული ჰაპლოტიპი შემცირდა ყოველი იმიტირებული რეკომბინაციის მოვლენის მეშვეობით [27]. მას შემდეგ, რაც განისაზღვრა „დამფუძნებელი მუტაციის“ მატარებელი ჰაპლოტიპის დიაპაზონი, ბოლო თაობის თითოეულ „შთამომავალში“ მის მდებარეობის ერთ-ერთი ალელი შეიცვალა მუტაციის მატარებელი დამფუძნებელი ჰაპლოტიპით, რათა გენოტიპები წარმოექმნათ ამ წინაპართა ჰაპლოტიპის მატარებელი. ამ გზით შექმნილი „დაზარალებული შთამომავლები“ ​​შერეული იყო სხვა შემთხვევით არჩეულ პირებთან „საქმის“ ჯგუფში HaploShare-ისა და სხვა პროგრამების შესამოწმებლად. დამატებითი ფაილი 1: სურათი S3 გვიჩვენებს ამ კვლევაში სიმულირებული დამფუძნებელი ჰაპლოტიპების გენეტიკური მანძილის და ასაკის (თაობების) კორელაციას.

    ამ კვლევაში ასევე გამოყენებული იყო დამფუძნებელი ჰაპლოტიპების გენერირების ალტერნატიული მეთოდი, რომელიც ნაკლებად ჰგავს HaploShare-ის მიერ გამოყენებულ ალგორითმს. მან გამოიყენა მონაცემები 192 წყვილის გენოტიპიდან Illumina 610-Quad Beadchip-ის გამოყენებით. რეგიონები, რომლებიც პოტენციურად იზიარებენ IBD და-ძმებს შორის, განისაზღვრა, როგორც ნებისმიერი რეგიონი 10 სმ-ზე მეტი გენეტიკური მანძილით და შეიცავს მარკერებს 0,1%-ზე ნაკლებს გენოტიპის სრული შეუსაბამობით (არათანაბარი ჰომოზიგოტური გენოტიპები). თითოეული წყვილისთვის შემთხვევითი არჩევით იქნა შერჩეული 960 ასეთი პოტენციური IBD რეგიონი სხვადასხვა სიგრძით (1, 2, 3, 4 და 5 სმ გენეტიკურ მანძილზე). IBD რეგიონების ფაზირება განხორციელდა BEAGLE-ის გამოყენებით [16]. ჰაპლოტიპები, რომლებიც იზიარებდა IBD-ს და-ძმებს შორის, შემდეგ გამოიყენებოდა როგორც "დამფუძნებელი ჰაპლოტიპები" ზემოთ აღწერილი სიმულაციის პროცესში და შედარება მოხდა HaploShare-ის მგრძნობელობა დამფუძნებელი ჰაპლოტიპების გამოვლენისას, რომლებიც გენერირებულია ორი განსხვავებული მეთოდით.

    შეფასებული იყო ცრუ დადებითი მაჩვენებელი და სიმულირებული დამფუძნებელი ჰაპლოტიპების რანგი ყველა მნიშვნელოვან გაფართოებულ ჰაპლოტიპს შორის, რომლებიც გაზიარებულია მთელ გენომში. ათასი ადამიანი შემთხვევით იქნა არჩეული ჰონგ კონგის ჩინური ნიმუშების რეალური მონაცემთა ნაკრებიდან, როგორც ტესტირების მონაცემები თითოეულ სიმულაციაში. 100 გამეორებაში, 1000 ინდივიდიდან თითოეულში ორი, ხუთი ან 10 იყო ჩასმული 10-დან 50-მდე თაობის სიმულირებული ბოლო დამფუძნებელი ჰაპლოტიპით. HaploShare-ის მიერ იდენტიფიცირებული ყველა გაზიარებული გაფართოებული ჰაპლოტიპი (სიმულირებული და არასიმულირებული) მნიშვნელობის კვაზი დონეზე <0.05 იყო დათვლილი და რანჟირებული მათი კვაზით ღირებულებები. იდენტიფიცირებული საერთო ჰაპლოტიპების საშუალო რაოდენობა და სიმულირებული დამფუძნებელი ჰაპლოტიპების წოდება გამოყენებული იქნა ცრუ დადებითი გამოვლენის შესაფასებლად. მისი დიზაინის შეზღუდვების გამო, BEAGLE fastIBD-ს შეუძლია გამოიყენოს მხოლოდ ამ სიმულაციებიდან მიღებული ჰაპლოტიპების სიმულირებული წყვილური გაზიარება, როგორც ცრუ პოზიტივის ტესტი.

    მონაცემთა ხელმისაწვდომობა

    პროგრამა და პროგრამების შესამოწმებლად გამოყენებული მონაცემები ხელმისაწვდომია შემდეგ ვებსაიტებზე:


    Უყურე ვიდეოს: The race to sequence the human genome - Tien Nguyen (აგვისტო 2022).