레이블이 leeHom인 게시물을 표시합니다. 모든 게시물 표시
레이블이 leeHom인 게시물을 표시합니다. 모든 게시물 표시

일요일, 5월 12, 2024

이번에는 누가누가 어답타 제거를 잘할까?

오늘도 Tool 벤치마킹하는 자료를 한번 가져와봤습니다.

제목은 Benchmarking software tools for trimming adapters and merging next-generation sequencing data for ancient DNA 이고,

DOI는 10.3389/fbinf.2023.1260486 입니다.

음... 비교하는 툴이긴 한데 그 목적이 고대의 DNA, 음... 쥬라기공원과 같은 공룡의 DNA를 복원하려는 분들도 있겠지만... 아마 여기서 얘기하는 고대의 DNA는 유적지들에서 발견되는 DNA들을 얘기하지 않을까 합니다.

여튼 어렵게 얻은 샘플로 시퀀싱을 했는데 분석의 전처리 격인 adpater와 같은 불필요한 데이터 처리를 잘못해서 잘못된 결과나 정작 우리가 필요로 했던 데이터가 유실되면 안되기 떄문에 기존에 알려져 있는 trimming이나 QC하는 tool 중에서 적합한 것을 찾아보려고 했던 것 같습니다.

그래서 7개 tool을 사용해서 정확하게 adpater를 제거하는지, 시퀀싱 오류도 잘 수정하는지 성능을 상호비교 해봤다고 합니다.

gemini

제목: 고대 DNA 분석의 미래를 여는 NGS 데이터 트리밍 기술

**역사 속 비밀을 밝히는 고대 DNA**

고대 유물에서 추출된 DNA, 즉 고대 DNA(aDNA)는 과거 생명체의 유전 정보를 담고 있어 진화, 역사, 그리고 인류의 기원을 이해하는 데 매우 중요한 역할을 합니다. 그러나 수천 년, 수만 년 전의 유물에서 추출된 aDNA는 짧고 손상된 상태로 인해 분석하기가 매우 어렵습니다.

**NGS 기술의 등장: 새로운 가능성**

NGS(Next-Generation Sequencing) 기술의 등장은 aDNA 분석에 새로운 가능성을 열었습니다. NGS는 이전 기술보다 빠르고 저렴하게 대량의 DNA 데이터를 분석할 수 있기 때문에, 과거에는 불가능했던 방대한 양의 aDNA 데이터를 분석하는 것이 가능해졌습니다.

**하지만 여전히 남아있는 과제: 데이터 정제의 중요성**

NGS 기술은 aDNA 분석에 획기적인 발전을 가져왔지만, 여전히 해결해야 할 과제가 있습니다. 바로 aDNA 데이터의 정제 문제입니다. aDNA는 짧고 손상된 상태로 인해 시퀀싱 오류가 많이 발생하며, 어댑터(NGS 분석 과정에서 사용되는 인공 DNA) 잔여물도 존재합니다. 이러한 오류와 잔여물은 분석 결과의 정확성을 크게 떨어뜨릴 수 있기 때문에 제거해야 합니다.

**NGS 데이터 트리밍 기술: 정확한 분석을 위한 필수 도구**

NGS 데이터 트리밍 기술은 시퀀싱 오류와 어댑터 잔여물을 제거하여 aDNA 데이터의 정확성을 높이는 데 사용됩니다. 다양한 NGS 데이터 트리밍 도구들이 개발되었으며, 각 도구마다 장단점이 존재합니다.

**최근 연구: NGS 데이터 트리밍 도구의 성능 비교**

최근 연구에서는 7가지 일반적으로 사용되는 NGS 데이터 트리밍 도구의 성능을 비교 분석했습니다. 연구 결과, 모든 도구가 템플릿 길이가 10bp보다 큰 경우 높은 정확도로 시퀀싱 오류를 수정했습니다. 하지만 일부 도구가 특정 조건에서 더 나은 성능을 보였습니다. 예를 들어, AdapterRemoval, fastp, leeHom은 다른 도구들보다 강력한 성능을 보였고, 다양한 품질 점수 계산 방법에서 가장 정확한 품질 점수를 계산했습니다.

**NGS 데이터 트리밍 기술의 중요성: 더욱 정확하고 신뢰할 수 있는 분석 결과**

NGS 데이터 트리밍 기술은 고대 DNA 분석의 정확성을 높이는 데 필수적인 역할을 합니다. 이 기술을 통해 과거 생명체에 대한 더욱 정확하고 신뢰할 수 있는 정보를 얻을 수 있게 됩니다. 앞으로 NGS 데이터 트리밍 기술의 발전은 고대 DNA 분석의 가능성을 더욱 확대하고, 과거의 비밀을 밝히는 데 더욱 큰 도움이 될 것으로 기대됩니다.

**참고:**

* 이 글은 NGS 데이터 트리밍 기술에 대한 기본적인 정보를 제공하는 데 목적이 있습니다. 더 자세한 내용은 관련 전문가나 연구 자료를 참조하시기 바랍니다.



제목도 "고대 DNA 분석의 미래를 여는 NGS 데이터 트리밍 기술" 라고 잘 뽑고.. 좋은듯 합니다. 알잘딱깔센으로 결론은 AdapterRemoval, fastp, leeHom 이 것 들중에서 알아서 잘 쓰세요. 라고 합니다. 논문에는 leeHom이 좋다고 한 거 같은데, 스스로 판단 했을 때 3가지 크게 차이가 없었다고 판단해서 그렇게 설명한것이지 않을까 하네요.

clova-x를 사용하지 않은 이유는 pdf를 업로드하는데 10M 미만의 파일만 업로드 할 수 있다고 안내문을 내놔서 이번에는 clova-x는 사용하지 않았습니다. 
물론 pdf파일은... 9.5M 였었는데... 계산하는 식을 1M가 1024K가 아닌 1M는 1000K라고 잘못 생각한게 아닐까 싶네요.


또 이런저런 내용으로 글을 올려보도록 하겠습니다.


출처: @ye._.vely618