레이블이 PacBio인 게시물을 표시합니다. 모든 게시물 표시
레이블이 PacBio인 게시물을 표시합니다. 모든 게시물 표시

토요일, 11월 16, 2024

희귀 질환 진단의 새로운 희망; HiFi

오늘은 최근에 medrxiv에 올라온 논문을 가져와봤습니다. 미래 진단은 결국 Long-read로 해야지 정확도든 찾고싶은거든 다 할 수 있을 것 이라는 믿음이 있는바 가져와봤습니다. :) 제목은 HiFi long-read genomes for difficult-to-detect clinically relevant variants 입니다.

DOI: 10.1101/2024.09.17.24313798

조만간 좋은 저널지로 둥지를 옮기기전에 잽싸게 LLM에 물어보았습니다. 


gemini

## 희귀 질환 진단의 혁신: Long-Read 시퀀싱 기술

안녕하세요, 저는 Long-Read 시퀀싱 분석 전문가입니다. 오늘은 희귀 질환 진단에 혁신을 가져올 수 있는 Long-Read 시퀀싱 기술에 대한 최신 연구 논문을 소개하고자 합니다. 특히, 이 논문에서는 "HiFi"라는 Long-Read 시퀀싱 방법을 사용하여 기존의 Short-Read 방식으로는 찾기 어려웠던 희귀 질환 관련 유전자 변이를 찾아내는 가능성을 평가했습니다.

### 희귀 질환 진단, 왜 어려울까요?

우리 몸의 유전 정보는 DNA라는 아주 긴 사슬에 담겨 있습니다. 희귀 질환은 이 DNA 사슬에서 아주 작은 부분이 변형되어 발생하는 경우가 많습니다. 이러한 변형을 '변이'라고 부르는데, 마치 방대한 책 속에서 오타를 찾는 것처럼 희귀 질환의 원인이 되는 변이를 찾아내는 것은 매우 어려운 일입니다.

기존에는 Short-Read라는 기술을 사용하여 DNA를 짧게 잘라서 읽어냈습니다. 이는 마치 책을 몇 글자 단위로 잘라서 읽는 것과 같아서, 문맥 파악이 어렵고 오타를 놓칠 가능성이 높았습니다. 특히, DNA의 복잡한 구조나 반복적인 부분에서는 더욱 그렇습니다.

### Long-Read 시퀀싱, 희귀 질환 진단의 새로운 희망

Long-Read 시퀀싱은 DNA를 훨씬 길게 읽어내는 기술입니다. 책을 문장이나 문단 단위로 읽는 것처럼 더 긴 맥락에서 유전 정보를 파악할 수 있기 때문에 Short-Read 방식보다 정확하게 변이를 찾아낼 수 있습니다.

이번 연구에서는 HiFi라는 Long-Read 시퀀싱 방법을 사용하여 희귀 질환 환자 100명의 유전 정보를 분석했습니다. 그 결과, 기존 Short-Read 방식으로는 찾기 어려웠던 145개의 변이 중 83%에 해당하는 120개를 HiFi 기술로 찾아내는 데 성공했습니다! 

### HiFi 기술, 얼마나 정확하고 실용적일까요?

HiFi 기술은 높은 정확도를 보여주었지만, 아직 몇 가지 해결해야 할 과제도 남아있습니다. 145개의 변이 중 7%는 여전히 HiFi 기술로도 찾아내기 어려웠습니다. 특히, DNA의 특정 반복 구조에서는 기술적인 어려움이 있었습니다.

하지만 희망적인 것은 HiFi 기술의 정확도가 매우 높다는 것입니다. 분석 결과, HiFi 기술로 찾아낸 변이 중 89%는 적은 양의 DNA 데이터만으로도 식별이 가능했습니다. 이는 검사 비용을 절감하고 더 많은 환자에게 검사 기회를 제공할 수 있다는 것을 의미합니다.

### Long-Read 시퀀싱, 희귀 질환 진단의 미래를 밝히다

Long-Read 시퀀싱 기술은 희귀 질환 진단에 혁신적인 변화를 가져올 잠재력이 있습니다. HiFi 기술은 아직 완벽하지는 않지만, 희귀 질환의 원인을 밝히고 환자들에게 더 나은 치료법을 제공하는 데 중요한 역할을 할 것으로 기대됩니다. 

앞으로 더 많은 연구와 기술 개발을 통해 Long-Read 시퀀싱 기술이 희귀 질환으로 고통받는 환자들에게 희망을 줄 수 있기를 바랍니다.



clova-x

안녕하세요, 여러분. 오늘은 희귀질환 진단에 있어서 새로운 분석 방법인 Long-read 기반의 HiFi 분석 방법에 대해 이야기해 보려고 합니다.

희귀질환은 매우 드물고 특별한 질병으로, 대부분의 경우 유전적인 요인에 의해 발생합니다. 이러한 질환을 진단하고 치료하기 위해서는 정확한 유전 정보가 필요한데, 지금까지는 이를 얻기 위해 복잡하고 비용이 많이 드는 검사가 필요했습니다. 하지만 최근에는 차세대 시퀀싱 기술인 NGS, 즉 게놈 시퀀싱이 등장하면서 보다 빠르고 정확한 진단이 가능해졌습니다.

그러나 NGS에도 한계가 있습니다. 짧은 리드 길이를 가진 시퀀싱 방법으로는 일부 변이를 검출하기 어렵다는 것입니다. 특히, 반복 서열이나 구조적 변이, 그리고 유사한 서열을 가진 유전자에서의 변이 등을 찾아내기가 쉽지 않았습니다.

이에 반해, Long-read 기반의 HiFi 분석 방법은 훨씬 더 긴 리드 길이를 사용하여 유전 정보를 읽어냅니다. 이 방법은 기존의 방법으로는 검출하기 어려웠던 변이들을 탐지하는 데 매우 효과적입니다. 실제로, 이번에 발표된 논문에 따르면, HiFi 분석 방법을 사용하여 83%의 변이를 자동으로 탐지할 수 있었고, 추가적인 시각적 검사를 통해 나머지 변이도 탐지할 수 있었다고 합니다.

특히, 이 방법은 구조적 변이와 짧은 반복 서열 확장을 포함한 복잡한 변이를 정확하게 탐지할 수 있다는 장점이 있습니다. 이러한 변이는 희귀질환의 진단에 있어서 매우 중요한 역할을 하는데, 기존의 방법으로는 이러한 변이를 정확하게 찾아내기 어려웠습니다. 하지만 HiFi 분석 방법을 사용하면 이러한 변이를 놓치지 않고 찾아낼 수 있습니다.

물론, 이 방법에도 몇 가지 어려움이 있습니다. 우선, Long-read 시퀀싱은 상대적으로 새로운 기술이기 때문에 아직은 실험실에서 널리 사용되고 있지 않습니다. 또한, 데이터를 분석하는 데 있어서도 전문적인 지식과 기술이 필요합니다.

하지만 이러한 어려움에도 불구하고, HiFi 분석 방법은 희귀질환의 진단에 있어서 매우 유용한 도구가 될 것으로 기대됩니다. 이미 많은 연구에서 그 가능성을 보여주고 있으며, 앞으로 기술이 더욱 발전하고 실험실에서의 사용이 보편화되면 더욱 정확하고 빠른 진단이 가능해질 것입니다.

또한, 이 방법은 단순히 진단에만 사용되는 것이 아니라, 치료에도 큰 도움을 줄 수 있습니다. 유전 정보를 더욱 정확하게 파악함으로써, 환자에게 맞는 맞춤형 치료를 제공할 수 있기 때문입니다.

마지막으로, 이 기술이 보편화되기 위해서는 여전히 많은 연구와 개발이 필요합니다. 우리 모두가 이 분야의 발전에 관심을 가지고 지원함으로써, 희귀질환으로 고통받는 환자들에게 희망을 줄 수 있을 것입니다. 감사합니다.



chatGPT

### 장기 시퀀싱을 통한 희귀 질환 진단: 왜 필요한가요?

최근 연구에서 장기 시퀀싱을 활용한 희귀 질환 진단의 가능성을 평가했습니다. 기존에 주로 사용되던 단일 염기서열 분석(short-read sequencing, SRS)은 DNA 조각을 짧게 잘라서 분석하는 방식입니다. 하지만 이 방식은 유전체 내 복잡한 변이(예: 구조적 변이, 반복적 서열)에 대한 탐지가 어려울 수 있습니다. 반면, HiFi라는 새로운 장기 시퀀싱(long-read sequencing, LRS) 방식은 DNA 조각을 길게 읽어 더 복잡한 변이까지 파악할 수 있습니다. 이번 연구는 이 HiFi 기술이 희귀 질환 진단에 얼마나 유용할지를 확인하기 위해 진행되었습니다.

### 왜 희귀 질환에 장기 시퀀싱이 필요한가요?

희귀 질환의 대부분은 유전적 변이에 의해 발생하며, 환자와 가족의 정확한 진단은 치료와 예후 관리에 중요합니다. 하지만 희귀 질환의 원인을 규명하려면 다양한 유전 변이를 탐지해야 하는데, SRS는 짧은 조각들만 제공하기 때문에 긴 구조적 변이, 특정 반복 서열 등의 검출이 제한됩니다. 이러한 구조적 변이나 특수한 유전자 영역에서 발생하는 변이는 SRS로는 식별하기 어려운 경우가 많으며, 그로 인해 일부 환자는 정확한 진단을 받지 못할 수 있습니다. HiFi와 같은 장기 시퀀싱 기술은 이러한 문제를 해결할 수 있는 대안으로 주목받고 있습니다.

### HiFi 장기 시퀀싱의 정확도는 얼마나 높은가요?

이번 연구는 100개의 샘플에서 임상적으로 중요한 145개의 변이를 대상으로 HiFi 장기 시퀀싱을 수행했으며, 그 결과 약 83%의 변이를 자동으로 탐지하는 데 성공했습니다. 또 다른 10%는 전문가가 데이터를 수동으로 확인함으로써 발견할 수 있었습니다. 이는 약 93%의 변이를 확인할 수 있었음을 의미하며, 기존의 단일 염기서열 분석 방식에 비해 높은 검출률을 보여줍니다. 특히, 장기 시퀀싱은 구조적 변이나 특정 반복 서열처럼 복잡한 변이를 더 잘 탐지하는 데 유리했습니다.

### 어려운 점은 무엇인가요?

장기 시퀀싱이 유망한 기술임에도 불구하고 몇 가지 도전 과제가 있습니다. 예를 들어, HiFi 장기 시퀀싱은 일부 반복 서열(예: GA 반복 서열)을 정확히 탐지하는 데 어려움을 겪었으며, 이러한 경우 변이 검출률이 떨어졌습니다. 또한, 일부 특정한 복잡한 구조적 변이는 여전히 검출이 어렵거나 오류가 발생할 수 있었습니다. 따라서 기술적 개선이 필요하며, 특히 반복 서열의 품질 문제를 해결하는 것이 장기 시퀀싱 기술 발전에 중요한 과제로 남아 있습니다.

### 실제로 사용 가능할까요?

이 연구는 장기 시퀀싱이 실제 임상에서 희귀 질환 진단을 위한 주요 도구로 활용될 가능성을 시사합니다. 자동화된 소프트웨어가 약 93%의 주요 변이를 탐지할 수 있었기 때문에, 높은 정확도를 유지하면서도 진단의 신뢰성을 확보할 수 있습니다. 또한, 시퀀싱 비용이 더 낮아지거나 더 많은 샘플을 분석할 수 있다면, 실제 진단 환경에서도 비용 대비 효과적인 선택지가 될 수 있습니다. 다만, 특정 변이에 대한 검출의 한계는 여전히 남아 있으므로, 장기 시퀀싱을 보완할 추가적인 분석 방식도 필요할 수 있습니다.

### 다른 문제점은 없을까요?

장기 시퀀싱은 비교적 새로운 기술이기 때문에 데이터 분석 소프트웨어와 기술적 지원이 아직 발전 중에 있습니다. 또한, 이 기술을 임상에서 본격적으로 활용하기 위해서는 추가 연구와 데이터가 필요하며, 다양한 환자 그룹에 대해 검증이 이루어져야 합니다. 예를 들어, 분석을 위해 필요한 데이터 양이 많기 때문에 장기 시퀀싱의 효율성을 높이기 위해서는 더 높은 처리 속도와 비용 절감이 필요합니다.

### 결론

이번 연구는 HiFi 장기 시퀀싱이 희귀 질환 진단의 새로운 표준이 될 가능성을 제시합니다. 기존의 진단 방법이 가지는 한계를 넘어 다양한 유전적 변이를 탐지할 수 있어 많은 희귀 질환 환자들에게 새로운 진단 기회를 제공할 수 있습니다. 물론 기술 발전과 추가 연구가 필요하지만, 장기 시퀀싱은 유전 질환 진단에서 큰 도약을 가져올 중요한 도구임이 확실해 보입니다.



NotebookLM

## 희귀 질환 진단의 새로운 희망, 롱리드 시퀀싱: HiFi 기술을 중심으로

  희귀 질환은 그 이름처럼 환자 수가 적어 진단이 어렵고, 진단까지 오랜 시간이 걸리는 경우가 많습니다. 하지만 유전자 분석 기술의 발전은 희귀 질환 진단에 새로운 가능성을 열어주고 있습니다. 특히 롱리드 시퀀싱이라는 기술은 기존의 숏리드 방식보다 더욱 정확하고 효율적인 진단을 가능하게 합니다.

### 숏리드 방식의 한계와 롱리드 시퀀싱의 등장

  우리의 유전 정보를 담고 있는 DNA는 아데닌(A), 구아닌(G), 사이토신(C), 티민(T)이라는 네 가지 염기의 조합으로 이루어져 있습니다. 유전자 분석은 이 염기 서열을 읽어내는 과정입니다. 기존에 널리 사용되던 숏리드 방식은 DNA를 짧게 잘라 분석하는 방식이었기 때문에 염기 서열이 복잡하게 반복되거나  길이가 긴 변이를 정확히 탐지하기 어려웠습니다. 

  반면에 **롱리드 시퀀싱은 DNA를 훨씬 길게 읽어낼 수 있어 숏리드 방식으로는 놓치기 쉬웠던 변이까지도 정확하게 파악할 수 있습니다.**  특히 HiFi라는 롱리드 시퀀싱 기술은 높은 정확도를 자랑하며 희귀 질환 진단에 획기적인 발전을 가져올 수 있습니다.

### HiFi 롱리드 시퀀싱, 희귀 질환 진단의 정확성을 높이다

  HiFi 기술을 이용한 롱리드 시퀀싱은 숏리드 방식으로는 탐지하기 어려웠던 다양한 유형의 변이를 식별할 수 있습니다.  연구 결과에 따르면 HiFi 롱리드 시퀀싱은 숏리드 방식으로 탐지하기 어려웠던 145개의 변이 중 83%에 해당하는 120개를 자동으로 찾아냈습니다. 여기에는 구조적 변이, 짧은 염기 서열의 반복적인 확장, 상동 서열의 변이 등이 포함됩니다.

  **HiFi 롱리드 시퀀싱은 희귀 질환 진단에 필요한 여러 검사들을 하나의 검사로 대체할 수 있는 가능성을 제시합니다.**  기존에는 염색체 분석, FISH, 마이크로어레이, 서던 블롯, MLPA, Sanger 시퀀싱 등 다양한 검사를 순차적으로 진행해야 했습니다.  하지만 HiFi 롱리드 시퀀싱은 **단 한 번의 검사로 다양한 유형의 변이를 정확하게 분석할 수 있어 진단 과정을 단축하고 비용을 절감할 수 있습니다.**

### HiFi 롱리드 시퀀싱, 극복해야 할 과제들

  HiFi 롱리드 시퀀싱은 희귀 질환 진단에 혁신적인 기술이지만, 아직 몇 가지 과제가 남아있습니다.  

*   첫째, HiFi 시퀀싱은 GA 염기 반복이 많은 특정 유전자 영역에서는 정확도가 떨어지는 문제가 있습니다.  GA 염기 반복이 많은 영역에서는 DNA 구조가 변형되어 시퀀싱 과정에 어려움을 겪기 때문입니다.  

*   둘째, 염기 서열이 복잡하게 반복되는 영역이나 매우 유사한 유전자들이 모여 있는 영역에서는 변이를 정확히 식별하기 어려울 수 있습니다.

### HiFi 롱리드 시퀀싱, 희귀 질환 진단의 미래를 밝히다

 HiFi 롱리드 시퀀싱은 희귀 질환 진단의 정확성과 효율성을 획기적으로 높일 수 있는 잠재력을 가진 기술입니다. 

*  HiFi 롱리드 시퀀싱은 기존의 숏리드 방식으로는 탐지하기 어려웠던 다양한 유형의 유전적 변이를 정확하게 식별할 수 있습니다.  

*  HiFi 롱리드 시퀀싱은 희귀 질환 진단에 필요한 여러 검사를 하나의 검사로 대체할 수 있어 진단 과정을 단축하고 비용을 절감할 수 있습니다.  

  물론 아직 극복해야 할 과제들이 남아있지만, **HiFi 롱리드 시퀀싱은 희귀 질환 환자들에게 더 빠르고 정확한 진단을 제공하여 희망을 줄 수 있을 것으로 기대됩니다.** 


HiFi Long-read라고 해도 PacBio라는 플랫폼 한계로 긴 길이(수십Kb 이상이 되는)의 구조 변이는 탐지하기 쉽지 않다고 얘기하네요. 그래도 기존에 short-read 방식으로 탐지하기 어려운 구조 변이는 더 확인 할 수 있다고 하고 있습니다. 최근에 일루미나에서 DRAGEN과 Pangenome Reference로 우리도 기다란 SV 탐지할 수 있다고 하고 있는데, 아직 갸우뚱... 

여튼 기존에 잘 알려진 혹은 잘 정의된 변이들 이외에도 rare하게 나오는 변이나 구조적 변이들은 Long-read로 잘 잡을 수 있다고 하니 미래는 밝은데.. 이게 상용화, 상품화가 되는 영역은 또 다른 문제이다보니, 많은 생각이 듭니다. :)


출처: @ye._.vely618


화요일, 5월 14, 2024

롱리드냐 숏리드냐 그것이 문제로다! 그냥 둘 다 써!

23년에 효모를 사용해서 여러 플랫폼 데이터의 어셈블리 성능을 테스트한 논문이 있어서 한번 가져와봤습니다.

DOI는 10.26508/lsa.202201744 입니다.

조금 더 복잡한 genome을 사용했으면 좋았을 것 같지만, 그러면 genome에서 오는 복잡도로 결과를 명확하게 분석하기 어려운 면이 있어서 yeast를 선정한 것은 좋은 선택인 것 같았습니다. 어설프게 다배체 생물 건드리면 나는 어딘가? 여기는 누군가? 하고 있었을 수 도 있으니깐요 :)

논문 장수와 용량이 적절해서 clova-x, gemini와 더불어 claude에게 까지 물어보았습니다.

질문: 블로그에 이 연구 내용으로 글을 하나 작성해주세요. 읽는 대상은 차세대 시퀀싱은 알지 못하지만 공립 중고등학교에서 가르치는 생물에 대한 지식이 있는 사람들 입니다.


clova-x

이 논문에서는 Debaryomyces hansenii KCTC27743 yeast species의 전체 유전체를 4개의 다른 시퀀싱 플랫폼을 사용하여 시퀀싱하고 조립하는 방법을 설명하고 있습니다. 이 방법은 차세대 시퀀싱 기술을 사용하여 유전체를 분석하는 것으로, 생물학 연구에서 중요한 역할을 합니다.

이 논문에서는 PacBio Sequel, ONT MinION, Illumina NovaSeq 6000, MGI DNBSEQ-T7 등 4개의 시퀀싱 플랫폼을 사용하여 유전체를 분석하였습니다. 각각의 플랫폼은 서로 다른 장단점을 가지고 있으며, 이를 고려하여 적절한 플랫폼을 선택해야 합니다.

조립 과정에서는 Flye, WTDBG2, Canu, MaSuRCA, WENGAN, SPAdes, ABySS 등 7개의 조립 프로그램을 사용하였습니다. 이 프로그램들은 각각의 특성과 장단점을 가지고 있으며, 이를 고려하여 적절한 프로그램을 선택해야 합니다.

이 논문에서는 유전체 분석 결과를 바탕으로 다양한 유전체 구조를 분석하였습니다. 유전체 구조는 생물학적 특성과 밀접한 관련이 있으며, 이를 분석함으로써 생물학적 연구에 유용한 정보를 얻을 수 있습니다.

이 논문에서는 차세대 시퀀싱 기술을 사용하여 유전체를 분석하는 방법과, 이를 위한 다양한 플랫폼과 프로그램을 소개하고 있습니다. 이는 생물학 연구에 관심이 있는 사람들에게 유용한 정보가 될 것입니다. 또한, 공립 중고등학교에서 가르치는 생물에 대한 지식이 있는 사람들도 이 논문을 통해 차세대 시퀀싱 기술에 대한 이해를 높일 수 있을 것입니다.




claude

안녕하세요. 오늘은 차세대 시퀀싱 기술과 유전체 조립에 대한 재미있는 연구 결과를 소개하겠습니다.

여러분도 학교에서 DNA의 구조, 유전자, 염기서열 등을 배웠을 텐데요. 현대 생명과학에서는 생물체의 전체 유전정보인 게놈(genome)을 해독하는 것이 매우 중요합니다. 게놈을 알면 그 생물의 유전적 특성과 진화 과정을 이해할 수 있기 때문입니다.

게놈은 DNA가 긴 가닥으로 이어진 것인데, 이를 조각조각 읽어서 다시 맞춰 전체 구조를 복원하는 것이 바로 '유전체 조립(genome assembly)' 작업입니다. 마치 퍼즐을 맞추는 것과 비슷하죠.

과거에는 DNA를 직접 읽는 시퀀싱 기술의 한계로 유전체 조립이 쉽지 않았습니다. 하지만 최근 '차세대 시퀀싱(Next-Generation Sequencing)' 기술이 발달하면서 좀 더 정확하고 효율적인 유전체 조립이 가능해졌습니다.

이번에 소개할 연구는 여러 차세대 시퀀싱 플랫폼과 조립 프로그램을 활용해 효모 게놈 조립을 시도한 결과입니다. 연구팀은 PacBio, 옥스퍼드 나노포어, 일루미나, MGI 등 4가지 플랫폼으로 효모를 시퀀싱했습니다. 그리고 Flye, WTDBG2, Canu 등 7가지 조립 프로그램을 사용해 총 212개의 효모 유전체 조립체를 만들었습니다.

결과적으로 가장 완성도 높은 조립체는 옥스퍼드 나노포어 플랫폼의 긴 염기서열을 사용하고, Canu 프로그램으로 조립한 뒤 MGI 플랫폼의 데이터로 오류를 수정한 것이었습니다. 하지만 각 플랫폼과 프로그램마다 장단점이 있었는데요.

옥스퍼드 나노포어는 긴 염기서열을 얻을 수 있었지만 오류율이 높았고, 일루미나 플랫폼은 정확도가 높았지만 짧은 염기서열 때문에 반복 영역을 해결하기 어려웠습니다. 조립 프로그램 중에서는 Canu가 반복 영역 해결력이 좋았지만 느린 편이었고, WTDBG2는 빨랐지만 정확도가 낮았습니다.

이렇게 시퀀싱 플랫폼과 조립 프로그램의 특성을 고려하면 생물 종류나 상황에 맞춰 최적의 조합을 선택할 수 있습니다.

유전체 조립은 생명과학 분야에서 아주 기초적이지만 중요한 작업입니다. 앞으로 더 나은 기술이 개발되면 다양한 생물체의 게놈을 해독하고 분석할 수 있을 것입니다. 이를 통해 생명현상에 대한 이해를 넓힐 수 있을 거예요.

이상으로 생소한 주제였지만 재미있게 읽으셨나요? 다음에는 더 알기 쉽고 흥미로운 주제로 찾아오겠습니다.




gemini

차세대 시퀀싱 기술: 효모 게놈의 비밀을 밝히다!

안녕하세요, 생물 선생님들! 오늘은 여러분의 생물 수업을 더욱 풍성하게 만들어 줄 차세대 시퀀싱 기술에 대해 이야기 나누려고 합니다. 차세대 시퀀싱은 단순히 DNA를 읽는 기술을 넘어, 우리가 살아있는 세상에 대한 이해를 혁신하는 강력한 도구입니다.

차세대 시퀀싱이란 무엇일까요?
과거에는 DNA를 읽는 데 오랜 시간과 노력이 필요했지만, 차세대 시퀀싱 기술은 단 며칠 만에 수백억 개의 염기 서열을 읽을 수 있게 해줍니다. 이는 마치 거대한 책을 한 번에 읽는 것과 같습니다!

차세대 시퀀싱으로 무엇을 할 수 있을까요?
효모 게놈 비밀 탐구: 오늘 소개하는 연구는 차세대 시퀀싱 기술을 사용하여 효모 게놈의 완벽한 지도를 만들었습니다. 이는 효모가 어떻게 작동하고, 우리에게 어떤 영향을 미치는지 이해하는 데 큰 도움이 될 것입니다.
질병 진단: 차세대 시퀀싱 기술은 암, 유전 질환 및 감염성 질환 등 다양한 질병을 진단하는 데 사용될 수 있습니다. 이는 더 정확하고 개인 맞춤형 치료법 개발에 기여할 것입니다.
새로운 약물 개발: 차세대 시퀀싱 기술은 질병의 원인을 파악하고 새로운 약물 개발에 도움을 줄 수 있습니다. 이는 더 효과적이고 안전한 치료법 개발로 이어질 것입니다.
진화 연구: 차세대 시퀀싱 기술은 다양한 생물 종의 DNA를 비교 분석하여 진화 과정을 이해하는 데 도움을 줄 수 있습니다.

차세대 시퀀싱 기술이 생물 교육에 미치는 영향
차세대 시퀀싱 기술은 생물 교육에도 혁신을 가져올 수 있습니다.
실제 데이터 활용: 학생들은 실제 과학 연구에서 사용되는 DNA 데이터를 분석하고 해석하는 방법을 배울 수 있습니다.
개인 맞춤형 학습: 학생들의 DNA를 시퀀싱하여 개인의 유전적 특성에 맞는 학습 경험을 제공할 수 있습니다.
창의적인 과학 프로젝트: 학생들은 차세대 시퀀싱 기술을 사용하여 자신의 과학 프로젝트를 진행하고 새로운 생물학적 발견을 할 수 있습니다.

차세대 시퀀싱 기술은 생명 과학의 미래를 바꿀 잠재력을 지닌 강력한 도구입니다. 생물 선생님들은 이 기술을 활용하여 학생들에게 더욱 흥미롭고 의미 있는 학습 경험을 제공할 수 있습니다.


clova-x와 claude는 꽤 괜찮은 내용의 글을 작성해주었습니다. 반면에 gemini는 제목은 멋드러지게 뽑은 반면에 내용은... 무슨말을 하는지 알맹이가 없었습니다.

물론 질문이 모호하긴 했죠, 공립 중고등학교라니, 한국이냐 미국이냐에 따라 대도심 지역이나 지방소도시간의 차이도 있을 텐데... 그런것은 그냥 무시하고 글을 작성한 것 같기도 합니다. ㅎㅎ 



출처: @ye._.vely618


수요일, 3월 13, 2024

Long-read 시대의 정렬 알고리즘

사실 아직 Long-read 시대라고 하기에는 전세계 적으로 생산되는 시퀀싱 데이터의 비율로 보면 꼬꼬마이긴 하나 그래도 비용이나 지금까지의 축적된 자료 활용이라는 몇몇 점들을 제외하면 짧은 애들시대는 조만간 저물지 않을까 합니다.

물론 짧은 애들 또한 계속 필요는 합니다. 그러나 Long read 이전과는 같지 않을 것이기에 Long read 시대를 준비해서 나쁘지는 않을겁니다.

그래서 "A survey of mapping algorithms in the long-reads era" 라는 논문 하나 준비해봤습니다.

DIO: 10.1186/s13059-023-02972-3

시대가 시대이고 영어 읽기 귀찮으니 구글에게 한번 맡겨보았습니다.


Q: 내 드라이브에서"s13059-023-02972-3.pdf" 파일을 읽고 자세히 한글로 요약해줘

서론:

DNA 염기서열 분석은 생명과학 분야의 핵심 기술이며, 롱리드 시퀀싱 기술의 발전은 이 분야에 큰 변화를 가져왔습니다. 롱리드 기술은 기존의 짧은 리드 시퀀싱 기술에 비해 훨씬 더 긴 염기서열 정보를 얻을 수 있지만, 이에 따라 데이터 분석 과정에서도 새로운 문제들이 발생했습니다. 그 중 하나가 롱리드 데이터를 참고 유전체에 매핑하는 과정입니다. 

본 논문에서는 롱리드 시대의 DNA 염기서열 분석에 사용되는 다양한 매핑 알고리즘에 대한 조사 연구 결과를 제시합니다.


1. 롱리드 기술 개요:

롱리드 기술은 10kb 이상의 긴 염기서열 정보를 얻을 수 있는 기술입니다.

롱리드 기술의 장점은 다음과 같습니다.

  • 유전체 구조 변형 (SV) 분석에 유리
  • 단일 분자 haplotyping 가능
  • 염기서열 조립 (assembly) 과정 개선

롱리드 기술의 단점은 다음과 같습니다.

  • 높은 오류율
  • 높은 컴퓨팅 비용


2. 매핑 알고리즘 종류:

롱리드 매핑 알고리즘은 크게 씨앗-확장 (seed-and-extend) 프레임워크와 씨앗-체인 (seed-and-chain) 프레임워크로 나눌 수 있습니다.

씨앗-확장 프레임워크는 짧은 리드 매핑 알고리즘에서 사용되는 기본적인 방법입니다.

씨앗-체인 프레임워크는 롱리드 데이터의 특징을 고려하여 개발된 새로운 방법입니다.


3. 주요 매핑 알고리즘 비교 분석:

본 논문에서는 다음과 같은 주요 매핑 알고리즘을 비교 분석했습니다.

  • Minimap2
  • NGMLR
  • GraphMap
  • LSC
  • BWA-MEM
  • LAST
  • BLASR
  • RapMap
  • SMALT

비교 분석 기준은 다음과 같습니다.

  • 정확도
  • 속도
  • 메모리 사용량
  • 특징


4. 매핑 알고리즘 선택 가이드:

연구 목적에 따라 적절한 매핑 알고리즘을 선택해야 합니다.

정확도가 가장 중요한 경우 Minimap2 또는 NGMLR을 사용하는 것이 좋습니다.

속도가 가장 중요한 경우 LSC 또는 BWA-MEM을 사용하는 것이 좋습니다.

메모리 사용량이 가장 중요한 경우 GraphMap 또는 LAST를 사용하는 것이 좋습니다.


5. 향후 연구 방향:

  • 롱리드 기술 발전에 따라 새로운 매핑 알고리즘 개발
  • 멀티 샘플 데이터 분석을 위한 효율적인 알고리즘 개발
  • 염기서열 변형 (variant) 분석을 위한 정확한 알고리즘 개발


결론:

본 논문은 롱리드 시대의 DNA 염기서열 분석에 사용되는 다양한 매핑 알고리즘에 대한 종합적인 개요를 제공합니다. 각 알고리즘의 특징, 장단점, 성능 비교 등을 분석하여 연구 목적에 맞는 최적의 알고리즘 선택에 도움을 줍니다.

오... 비약도 있고 생략도 많지만 (물론 클로드 3에 비해서는 아직 갈길이 멀듯합니다)그래도 pdf파일을 요약해줍니다. 근데.. 추가 정보에 롱리드 시퀀싱 기술의 url이..  신박한 링크를 넣어놨네요;; Orz


출처: @ye._.vely618

일요일, 11월 12, 2023

Long Read Sequencing을 전적으로 믿으셔야 합니다.

항상 느끼는것이지만 사람들은 익숙한것에 익숙하다는...
물론 이 글을 쓰는 본인도 별반 차이 없다는게 현실
그럼에도 불구하고 세상에는 익숙한것을 거부하고 한 걸음 나아가는 분들이 있어서 발전한다는...

오늘은 유전체분야에서 다들 익숙한 짧은길이의 시퀀싱 플랫폼 대신 Long read 시퀀싱 플랫폼을 왜 써야하는지 보여주는 논문이 있어 들고와봤습니다.

The blooming of long-read sequencing reforms biomedical research

DOI: 10.1186/s13059-022-02604-2


Long read 시퀀싱의 대표주자인 PacBio와 Nanopore가 나온지도 꽤 된것 같으나, 아직 주류 시퀀싱 플랫폼으로서는 자리매김을 하지 못한... 조명받지 못하고 있지만.. 그 진가를 하나둘씩 알게되고 안쓸수 없지 않을까 합니다.

물론 이 Long read 플랫폼을 안 쓸수 없지만 PacBio/Nanopore 플랫폼을 이용해서 진단 키트를 개발하여 돈을 벌 수 있게 된다는 것은 아닙니다. 오해 없으시기 바랍니다. Long read 플랫폼에서 기존 NGS 시스템에서 해온 것 같이 하려고 하면 개인적인 생각으로는 그냥 하지 마세요 라고 말하고 싶네요. 그런 생각이라면..


여튼 Long read 플랫폼은 genome assembly과 transcriptome 분야에서 활약을 하고 있다고 하는데 이는 기존 NGS의 짧은 read로 인한 한계를 극복하였기 때문에 가능한 당연한 결과였을 듯 합니다.

genome assembly를 설명하면서 이런 저런 설명을 하였는데 사실 T2T genome이 세상에 나왔는데 무슨 설명이 더 필요할지... 물론 다배체면서, repeat 서열이 엄청 긴 식물과 같은 다양한 생물의 유전체 연구에서는 아직 할일이 많이 남아있을듯 합니다.

그리고 더불어 transcriptome, 전사체에서도 두각을 나타내고 있다고 합니다. 이전에 PcaBio사에서 나온 Iso-Seq이라는 플랫폼이 있었는데 기존 숏리드 플랫폼으로는 할 수 없었던 full-length 유전자 서열을 확인하여, 다양한 gene의 isoform 을 확인 할 수 있었는데, 이제는 이는 당연한것이고, read count를 활용하여 정확한 발현 측정까지도.. 가능하다고 합니다. 또한 이 논문에서 처음 보았는데 exitron이라는 것도 확인하였다고 하네요.

더불어 당연히 암연구에서도 long-read 플랫폼이 중요한 역할을 하고 있는데, 시퀀싱을 위해 dna나 rna가닥을 증폭시키지 않은 특징 때문에 가능 응용법이긴하죠. 특히 nanopre 플랫폼을 사용하여 급성 골수성 백혈병 (AML) 환자의 RNA변이와 fusion gene 구조를 확인하기도 하였고, 대장암 세포주에서 5mC 위치와 양을 정량하여 각각 AML와 대장암 연구에 도움이 되고 있다고 합니다.

이렇듯 Long Read Seq 플랫폼은 이제 쓰지 않을 이유가 없는 플랫폼으로 우리 곁에 생각보다 가깝게 다가왔으나 생각에는 Long이든 Short든 정확하게 내 병의 이유를 빠르고 "싸게" 알아낼 수 있으면 모두 행복한 것 아니겠습니까?

그럴 수 있는 방법이 어딘가에 있겠죠, 없으면, 언제나 그러했듯이 우리는 또 해답을 찾아내겠죠. :)




출처: @ye._.vely618


금요일, 10월 27, 2023

롱리드 시퀀싱을 쓰지 않을 이유가 있는가?

이번 논문은 제가 참여한 논문입니다.. 흠흠..

이름하여 Two long read-based genome assembly and annotation of polyploidy woody plants, Hibiscus syriacus L. using PacBio and Nanopore platforms

DOI: 10.1038/s41597-023-02631-z

Hibiscus syriacus, 쉽게말해 무궁화 genome을 assembly하는데 어떤 데이터를 어떤 assembly 도구로하면 그래도 가성비가 좋은지에 대해서 확인한 논문 되겠습니다.

무궁화는 full genome은 이미 몇해전에 나와있는 상태고요, 아마 무궁화가 2배체가 아니라 4,6배체로 기억됩니다. 그래서 숏리드가지고 assembly가 만만치 않았는데 그 데이터를 바탕으로 이전에는 short리드로 어렵싸리 했었는데 이번에는 롱리드 시퀀싱으로 하면 어떻게 되는지 확인 해보자 입니다.

이전 무궁화 genome project 논문에서 핸들링하는 데이터 양을 정확히는 모르겠으나 어마무시했던것으로 알고 있습니다. 거기다가 숏리드라서 양쪽 로우 퀄리티 좀 정리해주고, scaffold용 mate-paired 데이터 정리작업하는데도 아마 꽤나 시간이 걸릴겁니다.

나노포어 데이터(ONT)와 PacBio data가 있었는데, 솔까말 ONT 데이터로만 해도... 사실 갠춘합니다.

그런데 여기서 중요한것은 ONT가 중요하기도 하지만 ONT의 장점을 십분 발휘할 수 있게 해주는 DNA 뽑는게 ART되겠습니다. ONT가 길게 읽을 수 있는거지 template가 짧으면 ONT도 길게 읽고 싶어도 못읽습니다.

결국 실험자의 손이 중요합니다. 손 똥손이면 ONT도 해결 못해줍니다.

그 똥손도 가능하게 해주는게 commercial prep kit이긴한데 현재 기준으로 그런 kit이 있는지는 저는 모르겠습니다. 


여튼 그래서 ONT 데이터를 앞뒤없이 다 때려박고 assembly하지 않았습니다.

cell 하나, cell 2개, 결과가 어떻게 달라지는지 확인해고, assembly tool마다 결과는 어떻게 나오는지 확인하면서 테스트 하였고, 이거쓰세요는 하지 못했지만 그럭적럭 요정도 생산해서 이 tool쓰면 평타 칩니다 라고 가이드는 해드릴 수 있는 논문되겠습니다.

다음에는 테스트하는 code를 간지나게 git에 올려놓고 논문에 url하나 올려둘 수 있도록 해봐야겠습니다. :)


그럼 또 쓸만한 논문을 찾아 돌아오도록 하겠습니다.




일요일, 7월 25, 2021

Omniome 넌 누구냐

광고?뉴스?기사?글이 하나 포착되어 보는데

Pacific Biosciences signs a definitive agreement to acquire Omniome

Omniome이라는 처음보는 회사가 보여서 잠깐 검색 하는데 캐서린 우드의 ARK가 여기서 나오네.. ㄷㄷㄷ

여하튼 PacBio의 Long Read와 Omniome의 (길이는 언급하지 않겠다) 정확도가 만나 일루미나의 SBS(sequencing-by-synthesis)대항하여 SBB(sequencing-by-binding)라는 기술로 PacBio랑 잘 해보겠다? 정도인듯한데..

SBB가 무엇인지 한번 찾아보는것에 의의를 두도록 하겠습니다.

Omniome에서 SBB에 대한 논문과 특허는 이미 등록되었고 논문은 요기에 특허는 요기에 등록되어 있어보이고...


아.. 일단 갱장히 본인들을 잘 설명해놓았다고 생각하겠지만.. (아니면 본인들도 어떻게 설명해야 할지 잘 모르고 있다는것에 한표.. 이과놈들이란...)

여튼.. 한개 base를 읽기 위해 4개의 염기가 모두 필요하고..
올바른 base면 감지 가능한 신호(복합체)가 생기고...

이거... 복합체와 센서를 이온으로 변경하면 Ion Proton이랑 좀 비슷한듯....

여튼 SBB기술을 이해하려고 내가 알고있는 기술로 단순화하해서 접근해보니.. ion proton이랑 비슷한듯하네요..


처음에 미지의 서열에 A,C,G,T가 binding하고 이 서열이 올바른지 아닌지는 binding하여 만들어진 복합체의 양?에 따라 올바른 서열인지 아닌지 확인하는.. 모 그런 기술로 보여지는데..


추후에 더 이 기술에 알게 되면...
물론 나는 SBS, SBB같은 SRS(Short Read Sequencing이라고하는..)들은 별로 관심안가지지 않을까하는 생각이....


근데 ARK 실망..... 관심있어하는게 PacBio와 Omniome이라니.. 

옥스포드의 나노포어가 있는데....


출처: @ye._.vely618
출처: @ye._.vely618




토요일, 12월 26, 2020

Long read는 Long read alignment로....

간만에 글 투척합니다.

오늘은 Long read align관련된 내용 투척 하도록 하겠습니다.

시퀀싱 기술이 좋아져서 PacBio와 함께 nanopore가 (최근 covid도 있었고) 함께 많이 이용되고 있는데 질좋은 long read를 생산하셨다면 bwa/bowtie와 같은 short read alignment보다는 long read에 최적화된 long read alignment인 minimap2같은 tool를 사용하시는게 정신건강에 좋을 것 같습니다.

최근 제가 별생각없이 long read서열을 human genome에 aling할때 bwa mem의 -x ont2d옵션을 사용하여 진행했었는데...

통수를 후려 갈기는... (원래 통수는 후려 갈기는 맛이 좋다능)


bwa mem -x ont2d를 사용하는 경우 원래 생산된 read(raw read 개수)보다 더 많은 read 들이 aligned되는 것 처럼 보인다는... (?? 생산된게 100개 read인데 align된 read는 200개라고?)

근데 minimap2를 사용하였을 때에는 reference에 align된 read의 개수와 생산된 read 개수(raw 리드 개수)가 유사한(aka 생산된 read 개수보다 적은) read 개수를 확인 할 수 있었습니다.

개발자도 같고(Heng Li), 같은 align하는 tool인데 왜 이렇게 차이가 나느냐 

음... bwa와 minimap2를 자세히 까보지는 않았지만(못하지만) bwa의 경우 mem -x ont2d를 사용한다고 하더라도 태생부터가 short read를 위해서 만들어진 alginment이고 nanopore의 경우 마음먹고 시퀀싱이 된다면 수십 kb의 길이가 나오는 관계로 bwa mem에서 seed를 기준으로  align할때 mismatch나 error에 대해서 관대하게 조건을 잡으면서 확장을 한다로 하더라도 수십 kb까지 확장하지 못하는 경우가 발생 하고 그 경우 split이 되어 다른 reference에 align되는 경우가 발생하는것으로 보였습니다.

대신 minimap2의 경우 long read를 고려해서 만들다 보니 확장이 비상식적으로 read가 길더라도 확장을 하지 split하지 않아서 bwa의 경우와 같이 생산된 read보다 많은 read가 align된 것 처럼 보이는 이상한 문제는 발생하지 않는 것 처럼 보였습니다.

결론은 내 데이터에 맞는 mapper를 사용해서 분석하자 되겠습니다. ㅠ.ㅜ


추신: 2018년도 이런 글(Minimap2 and the future of BWA)도 있었군요;; 



출처: @ye._.vely618


수요일, 3월 08, 2017

PacBio Sequel System


Sequel에 대한 자세한 내용은 Here 를 보시면 더 자세히
알수 있을 것이고...

2017년 3월 8일 기준 어제인 3월 7일 K호텔에서 PacBio 워크샵이 있었는데
Sequel 출시 이후 다양한 업그레이들이 진행되고 있었네요..

그리고 국내에 Sequel이 3?대인지는 모르겠으나 3개의 site에는 들어와서
데이터가 생산되고 있다능..

여튼 기존에 150만개 hole에서 생산되던걸 1천만개 hole에서 생산해서
생산량이 좀 되서 multiplexing이 된다는게 엄청나진 않지만 나름 진일보..

RSII는 생산량이 적은 관계로 multiplexing의 필요와 이유도 없었는데
Sequel은 RSII 6-7Cell을 한번에 돌리는거니깐 multiplexing이 필요해진듯
근데 multiplexing에 이용되는 barcode가 384개라는게 (Barcode 관련 웹페이지) ㅋ
모 종류가 384개지 이걸 꼭 다 써야하는건 아니니... 혹시 몰라서 여분의 barcode를... (여분이 좀 많은게.. ㅎㅎ)

저는 휴알못인 관계로 Non にんげん 기준으로 Sequel 장점은 3가지정도..

- de novo Bacteria는 Sequel에 5개 pooling해서 시퀀싱해도 나름 괜찮은 결과가 나올듯  물론 RSII 1 Cell과 Sequel 1 Cell과 가격을 비교해봐야겠지만..

- 곰팡이는 1 Cell만 돌려도 de novo하기에 충분한 output이 나오게된 상황 (대신 라이브러리를 2-3개 만들어서 pooling해서 sequencing). 가격을 봐야겠지만 곰팡이 community는 충분한 매리트가 생긴듯...

- Iso-seq은 RSII는 최소 3개 cell 가지고 시퀀싱써야했는데 이제 multiplexing되니깐 3종류 만들어서 Sequel 1 Cell에 넣어버리면 OK 된듯.. 3반복하려면 단지 3개 셀!! (이라고 쓰고 라이브러리는 3개 아닙니다 고갱님 ㅋ)

여튼 NovaSeq과 MinION이 계속 PacBio의 똥꾸멍을 찔러대고
투자자는 돈 회수하고 있어도 기술적으로 봤을때는
아직까지는 쓸만한...

그리고 현 시점에서 대한민국에 국한되어있지만
PacBio 인기가 시들하다고 할 수 있을까...
PacBio 시퀀싱 의뢰하면 지금이 3월 8일인데 4월 중순이후에야 raw data를 받을 수 있는 현실!!!

대규모 과제에서 PacBio sequencing 요청이나
누군가 휴먼급 genome을 RSII Only로 de novo을 하거나...
아님 둘 모두...

아놔 좀 큰놈들은 Sequel 쓰라고 Sequel 만들었는데 왜 RSII 쓰냐고 ㅋ


목요일, 1월 19, 2017

HGAP parameter 비교 결과

우선 PacBio에서 사용되는 용어에 대해서
잘 정리된 문서가 있어 링크 합니다.
>PacBio Term<

작년 말에 PacBio SMRT portal 에서 HGAPv2와 HGAPv3비교를 해보려고 했는데 해보신분은 아시다싶이 HGAPv2의 **맞은 속도로인해 HGAPv2의 parameter 비교는 skip하고 HGAPv3를 기준으로 parameter마다 bacteria genome이 어떤 변화가 있는지 비교해보았습니다.

-그렇다고 제가 HGAPv3를 사용한다는것은 아니라는 점! ;)

HGAPv3은 기존의 다른 de novo assembly 프로그램과 유사하게 Filtering/ Assembly/ Mapping/ Consensus 단계를 거쳐 진행합니다.
대게 de novo assembly 메뉴얼 작업을 하신 분들의 경우 filtering/trimming하고 assembly 무한 반복? 하고 mapping해서 insert size대로 mapping이 되는지 확인을 해보셨을 겁니다. ㅎㅎ
근데 PacBio Portal에서 스스로 잘 해줍니다. @.@

다음은 step마다 있는 parameter와 값들을 한번 정리 해봤습니다.

StepProtocolParameterValue
FilteringPreAssemblerSFilter.1.xmlMin. Subread Length500
Min. Polymerase Read Quality0.8
Min. Polymerase Read Length100
Control FilteringKeepControlReads.1.xmlNoneNone
AssemblyAssembleUnitig.1.xmlGenome Size5000000
Target Coverage25
Overlapper Error Rate0.06
Overlapper Min Length40
Overlapper K-Mer14
PreAssemblerHGA.3.xmlMin. Seed Read Length6000
Num. of Seed Read Chunks6
Alignment Candidates Per Chunk10
Total Alignment Candidates24
BLASR Options-noSplitSubreads -minReadLength 200 -maxScore -1000 -maxLCPLength 16
Min Coverage For Correction6
MappingBLASR_Resequencing.1.xmlMax. Divergence30
Min. Anchor Size12
ConsensusAssemblyPolishing.1.xmlNoneNone



위의 옵션들 중에서 제가 직접 조정해본 parameter들은 Filtering단계인 Min Subread Length, Min Polymerase Read Quality,  Min Polymerase Read Length, Assembly단계중 AssebleUnitig단계인 Genome Size, Target Coverage, 그리고 같은 Assembly단계인 PreAssemblerHGA단계의 Min. Seed Read Length정도를 고려해봤습니다. 건드린 옵션 이름보시면 매뉴얼 de novo assembly해보신 분들이라면 예상 가능하시리라 봅니다.
-음.. 가끔 이런 거 보다 더 잘 정리해서 논문으로 출판되는 경우가 있긴하지만....

그리고 추가적으로 더 손대면 결과가 좋아질 수 있을만한 옵션들이 있겠지만 시간관계상 (제가 주구장창 이것만 돌릴 수 있는 처지는 아닌지라... 모 여러 조건의 샘플과 무한한 서버를 제공해주신다면 테스트는 해드릴 수 있습니다. ;) )

여튼 결과부터 말씀드리자면 조건 변경(aka 최적화)해서 결과 얻으면 좀더 좋아질거 같죠?
시간낭비하지 마셈 되겠습니다. >_<

너님 나랑 장난하냐? 너 이자식 지금 결과보여주기 귀찮아서(이건 부정 못하겠네요ㅋ) 주작질 하는거지? 하실 수도 있는데 제가 테스트한 기준이 보통 bacteria genome을 진행하는데 사용되는 1 Cell 이라서 그런 탓도 있겠지만 알고있던 정보와 실제 나온결과와 10%이상 차이 안 나면 옵션 암만 최적화 해봤자 그 나물의 그 밥입니다.

그리고 옵션마다 값을 조절하면 그에 따라 그 다음 스텝의 input이 바뀌어 영향을 받지만 한정된 데이터에서 옵션값 조절해서 데이터의 결과가 다이내믹하게 바뀐다면 그건 최적화를 잘한 것이 아니라 시퀀싱데이터가 이상할거라는 느낌적인 느낌이 드시죠?

Filtering단계에서 read길이 올리고, 줄이고, 조금 떨어지는 데이터를 확보한다는 계획으로 read quality를 낮추더라도 어차피 서로 계속 영향을 줘서 default parameter로  생성된 데이터와 큰 차이 안 납니다.

결론: 1 contig 안 나오고 circluar형성 안되는 애들은 parameter 최적화 해봤자 안됩니다. 스트레스 받지말고 추가 시퀀싱하세요. 

샘플 좋고 시퀀싱 잘되면 분석툴이 개 이상하지 않으면 reasonable한 결과 나옵니다. :) 
default 의외로 성능 괜찮습니다. 내가 연구하는 건 나처럼 변태스러운 녀석이야! 하지 않는 이상 default쓰시면 평타는 칩니다. 

ps. 믿거나 말거나 조건 변경하면서 20번정도 테스트 해봤습니다. PacBio에서 제시하는 것 중에 추천하는 Genome Size 옵션이 영향을 많이 줄 수 있습니다. Genome Size를 기준으로 데이터를 정리하기 때문에 그런 것 같습니다. 그리고 Target Coverage는 bacteria의 경우 1 cell만 해도 대중 100x가 나오는데 target coverage (15-30) 조절해봤자 의미 없는 것 같습니다. bacteria말고 다른 종들은 의미가 있을지도...

화요일, 12월 06, 2016

HGAP 버전 비교


PacBio에서 assembly를 담당하고 있는 HGAP과 Falcon을 주로 사용하고 있는것으로 알고 있는데 오늘 그 중에서 HGAP을 잠시 확인 하도록 하겠습니다.
왜 HGAP만 확인하느냐?
제가 HGAP을 많이 쓸 예정이거든요 ㅋ
Falcon궁금하시면 직접 하시면됩니다!! :)

우선 HGAP 버전을 한번 살펴보겠습니다.
























HGAP버전을 보시면 3개가 존재합니다. 그러나 HGAPv1의 경우 이미 이번 SMRT버전에서 퇴출당했습니다. 당시에는 long read로 어셈블리해서 획기적으로 계산량을 줄이긴 했으나 Celera Assembler 자체가 시간이 많이 걸리기 때문에  (CA자체라기 보다는 특정 모듈들이겠죠?) 자체 프로그램을 고안해서 HGAPv2외에 추가로 HGAPv3까지 내놓은 상황입니다.

근데 보통 New버전 나오면 예전거 갈아치우는데(한국이 그런 경향이 많긴하지만.. 모 특정 위치에 있는 분들은 상당히 잘 안바뀌긴하죠..) HGAPv2와 HGAPv3를 계속 사용하고 있습니다. 두개의 큰차이는 consensus 부분인데 이것에 따라 속도와 결과물 차이가 나기때문에 두개 결과중에 좋은거 사용해라하는 느낌이 있습니다.

그래서 현재 HGAPv2와 HGAPv3에 대해서 테스트를 계획중이고
각 단계별로 parameter를 바꿔주면 어떻게 바뀌는지 비교해볼 계획입니다.
PacBio를 사용하시는 업자분들께서는 어떤 버전을 최적화해서 사용하는지는 잘 모르겠으나 아마 각각의 장단점이 있을겁니다. 그래서 직접 테스트를 해보겠다능~ :)

그럼 HGAP 비교글은 내년에 좀 더 볼만한 내용을 찾아뵙도록 하겠습니다. :)

월요일, 12월 05, 2016

16S rRNA와 시퀀싱플랫폼

블로그에 쓰는 내용이 16S rRNA에 많이 집중되고 있긴하죠? ㅎㅎ
하는일이 이거다보니.. :)

여튼 오늘은 16S rRNA와 시퀀싱플랫폼에 대해서 잠시 이야기 하도록 하겠습니다.

최근 16S rRNA sequencing의 최강자 454가 서비스를 bye bye한 관계로
많은 연구자들이 MiSeq체제로 변환하고 있는데 (물론 Ion도 있고, PacBio도 있습니다.)
기존에 454를 사용했을 때와 다른 V region을 사용하고 다소 다른 결과들을 보이는 것들이
있을 것 입니다. 그래서 이리저리 검색하다가 걸린 논문 두 개를 가지고 잠시 얘기해보고자 합니다.

Nucl. Acids Res. (2010) 38 (22): e200.

PeerJ (2016) 4:e1869

논문을 찾아보기 시작한 이유는 454가 막을 내린 후 다른 시퀀싱 플랫폼에서는 왜 다른 region을 target하고 있고 왜 diversity에 차이를 보이는지... (내가 분석을 잘못했나.. ㅎㄷㄷㄷ)

우선 V region, 454는 V1-V2였는데 MiSeq은 V4 region을, Ion은 4개 region? 7개 region? 을 동시에target하고 있다는..

모 논문보면 아시겠지만
2010년 논문은 454 vs MiSeq을 비교했습니다. 두 플랫폼이 차이가 날까? 어떤것이 차이가 날까?

2010년도 논문을 한장 figure 요약하자면 이거죠



상단은 phylum abundance/ 하단은 genus abundance 그리고 좌측에 있는 V4는 이전 연구에서 사용되었던 기준이라고 생각되는 참고용 분포입니다. 실험 결과가 V4 region이 저 분포를 나타내면 실험이 잘됐다고 확인하는 용도로 사용됩니다.

사실 phylum은 크게 차이없죠, 차이가 있기도 쉽지않습니다.
관심사는 genus되겠습니다. 일루미나 데이터의 대부분은 unclassified입니다. 논문에서는 error때문에 이렇게 나왔으니 error좀 낮아지면 일루미나가 output이 많으니 sequence error 문제점을 개선된다면 미생물 분석에 적합한 킹왕짱 시퀀서가 될거라고 하는데 개인적인 생각으로는 sequence error(454가 일루미나가 한테 sequence error ㅋㅋ 좀 웃겼다능..
systematic error는 눈에 안뵈냐라고 한다면 눼눼, 하긴 이 논문이 2010년이란 것을 감안한다면 무리는 아니긴 합니다.)보다는 db선택이 unclassified문제는 보정할 수 있지 않을까 합니다.

그렇다면 이제 16s rRNA 입문한지 얼마안된 님께서 그렇게 느끼는 느낌적인 이유는
무엇인가?

바로 2016년 논문되겠습니다.

2016년 논문은 PacBio로 시퀀싱한 것을 db에 따라 분석 결과가 달라지는냐에 대한 내용으로
다음 한 장으로 요약 할 수 있겠습니다.




동일한 시료를 가지고 시퀀싱한 데이터를 16S rRNA db에 따라 classification되는 정도를 확인해본 그래프 입니다. 느낌 딹오시죠?
다만 나중에 뒤통수 맞았다는 느낌 안 받게 하나 말씀드리자면 RDP와 Silva의 경우 genus까지만 확인했고 gg는 genus와 genus+species 두가지로 확인한 것 입니다.

이제 PacBio의 Sequel에서 CCS로 생산된 16S rRNA 서열가지고 연구해도 나쁘지 않을 것 같다는..

아.. 이제 돈만 많으면 되는건가!!! 


월요일, 4월 04, 2016

Long-read sequence assembly of the gorilla genome

서부저지고릴라(Western Lowland Gorilla, Gorilla gorilla gorilla) 중 하나인 Susie의 genome이 PacBio를 이용해서 좀더 high resolution으로 만들어졌다는 아름다운 논문입니다.

Long-read sequence assembly of the gorilla genome

왼쪽 녹색은 Susie, 오른쪽 아이보리색은 gorGor3의 contig size
각각 전체 Genome에서 10% 서열을 나타내는데 사용되는 contig 개수를 보여주는 그림으로 PacBio로 시퀀싱하여 어셈블리한 Susie가 short read assembly로 하는것보다 월등함을 확인시켜주고 있다(300M를 보여주는데 susie는 contig개수가 10개 남짓이면 되는것에 비해 gorGor3는 세어보시길;;;).

그리고 첫장 Table1에서 기존에 short read assembly한 결과보다 이번 결과가 더 월등하다는것을 여실히 보여주고 있는데 스캣폴드 개수가 554개 무슨 곰팡이 contig 개수인줄..
contig 최대 길이 서열은 36M bp, scaffold 최대 길이 서열은 110M bp. orz

그밖에 논문에서
기존 genome에서보다 gap 더 줄였구요
기존에 짧게밖에 못봤던 mobile element들 거의 full length로 확인할수있었구요
수kb에 달하는 insertion 확인해서 유전자 없는것도 확인할수 있었습니다라는
다양한 잘난척을 시전해 주고 계시는데...


결국 사용한 SMRT cell이 236개라는...
이거 PacBio 시퀀싱가격만... ㄷㄷㄷㄷ

이 논문보시고 우리도 genome 향상시킬수있어!! 라고 핑크빛 바램을 가지고 있으시는분들..  여러분들도 원래부터 좋은 genome가지고 연구할수 있었습니다.
다만 연구비가 귀여워서 못한것 뿐이고 그리고 모든 동물에 대해서 이렇게
드라마틱하게 genome 품질이 향상되지는 않습니다.
척추동물정도면 이정도 연구비 때려부으면 가능하지만 그 이하에서는 아직
해결해야할 것들이 좀 있습니다.

다 아시는 분들께서 모르시는척 하시기는... :)

그리고 PacBio의 Sequel 출시로 기존에 RSII로 했을때 보다는 반값에 가능하지 않을까합니다.
일단 SMRT cell개수를 줄일수 있으니... ㅋㅋ
그거 노리고 일단 RSII기준으로 시퀀싱비용 비싼듯보이게하고 Sequel로 하면 싼것처럼 느끼게 하려는 고도의 노림수인가;;;

여튼... 잘 따져보시고 시퀀싱하시기 바랍니다.

너도나도 앞다투어 시퀀싱하면 거지꼴 못면합니다.

월요일, 3월 21, 2016

Widespread Polycistronic Transcripts in Fungi Revealed by Single-Molecule mRNA Sequencing


Widespread Polycistronic Transcripts in Fungi Revealed by Single-Molecule mRNA Sequencing

간만에 읽은 저널 한편...
어느 지구정복을 꿈꾸시는 과학자분께서 운영하시는 것에 비하면 그냥 트윗터 수준임을
미리 알려드립니다.

자세히 안파해칩니다.

필요한것만 읽습니다.(제목만 보고 대충 때려맞추겠다는 심본데? 정답!!)

곰팡이중 basidiomycete fungi를 Iso-Seq을 이용하여 transcriptome 분석을 수행하였고, 우리는 기존의 short read가지고 깨작대던 님들이 못찾는거 찾는 기승전시퀀싱자랑하는 논문되겠습니다.

일단 이 논문은 JGI와 Pac이 손잡고 만들었습니다.
이 말은 곧 SMRT 비용 신경안쓰고(는 아니고 다른 연구자들보다 적게 신경썪을..) 분석에 사용하기 좋은 고 퀄러티 read들을 넉넉히 생산했을 것이기에 이런거 하고 싶다고 그냥 무작정 논문에 나온 SMRT cell 만큼 시퀀싱하시면 거지꼴 못면합니다.
suppl보시면 아시겠지만 SMRT cell 두자릿수 입니다. 앞자리가 10이 아닌건 안비밀 Orz..

복잡하고 어려운거 직접 보시면되니깐 쉬운거 말씀드리고 끝내겠습니다.

기존에 분석한 basidiomycete fungi중 Plicaturopsis crispa를 집중으로 파해쳤는데 이전까지 알고 있는 isoform 비율 10%가 아닌 한 20%정도 된다. 그리고 곰팡이도 isoform 3개 이상짜리도 엄청 많이 있음. 우리 곰팡이 무시하지 마셈.

그리고 비교셋으로 일루미나 숏-리드도 시퀀싱해서 ToFU (Transcript isOforms: Full-length and Unassemble,의 약자로 iso-seq을 분석하는 파이프라인? 시퀀싱 전략? iso-seq 결과물? 논문 보시면 아시겠지만 다양하게 사용되는것을 알수 있음)와 비교해봤는데
기승전 풉 짧은 것들은 안됨.
(하..... 지금까지 짧은것가지고 한것도 서러운데.....  ㅠ.ㅜㅋ)

여튼.. 모 검증은 해봐야하는거고 이 논문에는 RT-PCR해서 polycistronic 검증을 하긴했는데 좀더 확인해봐야 할것 같고..
새로운것 찾았다고 하고싶은 분들은 Iso-Seq 관심가지고 해보시는것도 나쁘지 않을것 같습니다.

근데 왜 너는 PacBio 관계자도 아니면서 PacBio로 실험한 논문 소개 하냐?

제 비록 제가 몸담고 있는 곳에는 PacBio가 주력이 아니지만
저는 언제나 연구자분들이 좀더 멋진 연구를 하실수 있도록 아낌없이
조언을 해드리고자 고심하는 연구자아니깐요 (캬~ 멋있다)

금요일, 9월 14, 2012

파일의 포맷을 변환하는데 필요한 것들

내가 아니란 말이닷!!! ㅋㅋ

python에서 Biopython을 이용하여
간단하게 convert하는 샘플 코드를 제공하고 있으니
여러분들도 쉽게 만들수 있어요~ :)
Biopython에서 제공하는 Tutorial 


오늘 문의가 들어온 파일은 sff파일
Roche의 454 GS FLX? sequencing 결과파일로....
ABI와 함께 illumina한테 밀려서 뒷방으로 들어앉은 파일 포맷입니다.
그러나 아직도 쓰는 이유는 read 길이가 길기때문 :)

그렇습니다. PacBio도 Nanopore다 디립다 길게 sequencing해준다는
애들이 있습니다. 그런데 왜 옛날꺼 쓰냐?? PacBio는 base quality가 안습이고,
Nanopore는.... 언제 출시일지 전 잘 모르겠습니다. 업자가 아닌관계로 ㅎㅎ

그래서 위의 길게 sequencing 해준다는 시퀀서를 제외하고는 Roche의 454가 read 길이가 가장 길다고 할 수 있겠습니다. NGS중에선 말이죠

그런데 sff파일을 보려고 하면 문제가 생깁니다.
권모씨께서 문의를 한것이 그것때문인지는 모르겠지만 걍 일반인이
sff파일을 걍 직접 볼수가 없습니다. 왜냐 binary파일이니깐요(sff파일이 binary라고
알고 있는데  직접 다뤄본적이 없어서... ㅎㅎ )

그래서 사람이 볼수 있게 파일을 변환시켜줘야 한다는 겁니다.

convertSff.py
#!/usr/bin/python

import os, sys
from Bio import SeqIO

try:
inputSFF = sys.argv[1]
outputPREFIX = sys.argv[2]

except:
print "Usage: python convertSFF <input.sff> <output_name>"
print ""
exit(1)


SeqIO.convert(inputSFF,"sff","%s.fasta"%(outputPREFIX), "fasta")
SeqIO.convert(inputSFF,"sff","%s.quality"%(outputPREFIX), "qual")
SeqIO.convert(inputSFF,"sff","%s.fastq"%(outputPREFIX), "fastq")


권모씨의 요청으로 급조한 날림 convert python 코드 ㅋㅋ
이 스크립트를 수행하면 세개의 파일이 나오게 될것으로 예상됩니다. ㅎㅎ
안나오면 어쩔수없고... ㅎㅎ


아.. 그리고 사족으로 LT사의 SOLiD의 경우 우리가 알고 있는 서열과 달리
첫 염기 서열만 서열이고 그 다음부터는 A/G/T/C 알파벳이 아닌 숫자로 되어있는데..
이걸 굳이 변환해서 reference geneome에 mapped 작업하지 말라고 합니다.
Re-sequencing하는 경우라면 변환해서 mapping하지 말고 원래 원본 파일 그대로를
input으로 하는 align 프로그램을 사용해서 mapped한 다음에 그 다음 작업을
일반적으로 사용하는 samtools나 GATK같은 프로그램을 사용하라고 합니다.
(다들 알고있는거 한번더 상기 시켜드렸습니다. 혹시 아나요 SOLiD 포맷을 분석하게 될지.. ㅎㅎ)

분석시 raw 파일을 사용해야 하는 이유는 SOLiD만의 월등한 quality 효과를 볼수 있어서
그러지 않겠나하는....  믿거나 말거나 저 혼자만의 생각입니다.. ㅎㅎ
다만, 타사 제품과 다르게 복잡하게 숫자로 표현한건 아니겠죠...
나름의 숨은 뜻이.... 쿨럭.. (설마... 간지용;;;;; )

Re-sequencing이 아닌 denovo일 경우 모 어쩔수 없이 fastq파일로 변환을 해야 하지 않을까 합니다. assembly 프로그램을 작동시키려면 아무래도 SOLiD format보다는 fastq 포맷이
수월하니깐요.. :)

그럼....