레이블이 Arin인 게시물을 표시합니다. 모든 게시물 표시
레이블이 Arin인 게시물을 표시합니다. 모든 게시물 표시

일요일, 5월 19, 2024

정렬 프로그램들에 대해서

정렬 프로그램은 NGS를 사용하는 현재 뿐만 아니라 이전부터 갱장히 중요한 문제였습니다.

21년도에 이 정렬 프로그램에 관련하여 정리를 한 논문이 있어 한번 읽어보려다 걍 가져와봤습니다. :) 

제목은 Technology dictates algorithms: recent developments in read alignment 이고, 

DOI는 s13059-021-02443-7 입니다.

Table 1에 지금까지 나왔었던 정렬 프로그램들이 정리 되었습니다. 잠깐 추억 속으로 ㄷㄷ

오늘도 세 친구들에게 기본적인 내용들에 대해서 상기시켜주고 "자, 이제 블로그에 올릴 글을 내놔봐라" 했습니다.

gemini

서열 정렬 프로그램: 어떤 것을 선택해야 할까요?

생명과학 연구에서 서열 정렬은 필수적인 작업입니다. DNA, RNA, 단백질 등 다양한 생체 분자의 서열을 비교하여 유전적 관계, 기능적 유사성, 진화적 과정 등을 분석하는 데 사용됩니다. 하지만 수많은 서열 정렬 프로그램들이 존재하기 때문에 어떤 프로그램을 선택해야 할지 고민이 될 수 있습니다.

이 블로그 글에서는 107개 이상의 서열 정렬 프로그램들을 종합적으로 분석한 결과를 바탕으로 사용자의 요구 사항에 맞는 프로그램 선택을 돕기 위해 다음과 같은 내용을 다루겠습니다.

1. 서열 정렬 프로그램 종류

서열 정렬 프로그램은 크게 동적 계획법과 heuristic 알고리즘 기반으로 나눌 수 있습니다.

동적 계획법 기반 프로그램: 가장 정확한 결과를 제공하지만, 계산 비용이 많이 드는 단점이 있습니다. 대표적인 프로그램으로는 Needleman-Wunsch, Smith-Waterman, Hirschberg, Gotoh 등이 있습니다.

heuristic 알고리즘 기반 프로그램: 동적 계획법 기반 프로그램보다 빠른 속도를 제공하지만, 정확도가 다소 떨어질 수 있습니다. 대표적인 프로그램으로는 BLAST, FASTA, BLAT, PatternHunter 등이 있습니다.

2. 다중 서열 정렬 프로그램

다중 서열 정렬 프로그램은 세 개 이상의 서열을 동시에 비교하여 가장 유사한 부분을 찾아 배열하는 프로그램입니다. 진화적 관계를 고려하여 서열을 정렬하기 때문에 높은 정확도를 제공합니다. 대표적인 프로그램으로는 Clustal W, MAFFT, T-Coffee, MUSCLE 등이 있습니다.

3. 기타 서열 정렬 프로그램

문자열 정렬, 구조 기반 정렬, 유장 동물 서열 정렬 등 다양한 특수 목적의 서열 정렬 프로그램들이 존재합니다.

4. 프로그램 선택 가이드

정확도가 가장 중요한 경우: 동적 계획법 기반 프로그램 (Needleman-Wunsch, Smith-Waterman) 사용

속도가 가장 중요한 경우: heuristic 알고리즘 기반 프로그램 (BLAST, FASTA) 사용

다중 서열 정렬: Clustal W, MAFFT, MUSCLE 사용

특정한 요구 사항: DALI, TM-align, LAST, PHYLIP 등 적합한 프로그램 선택

5. 11개 프로그램 상세 평가 결과

저는 11개의 대표적인 서열 정렬 프로그램을 인공 및 실제 데이터 세트를 사용하여 엄격하게 평가했습니다. 평가 결과는 다음과 같습니다.

정확도:

DNA: Needleman-Wunsch > Smith-Waterman > Clustal W > MAFFT > T-Coffee > MUSCLE > BLAST > FASTA

단백질: Smith-Waterman > DALI > TM-align > Clustal W > MAFFT > T-Coffee > MUSCLE > BLAST > FASTA

다중 서열: Clustal W > MAFFT > MUSCLE

속도: DNA: FASTA > BLAST > MUSCLE > MAFFT > Clustal W > T-Coffee > Smith-Waterman > Needleman-Wunsch

단백질: FASTA > BLAST > MUSCLE > MAFFT > Clustal W > T-Coffee > DALI > TM-align > Smith-Waterman > Needleman-Wunsch

다중 서열: MUSCLE > MAFFT > Clustal W > T-Coffee

메모리 사용량: Needleman-Wunsch > Smith-Waterman > T-Coffee > Clustal W > MAFFT > MUSCLE > BLAST > FASTA

6. 결론

어떤 서열 정렬 프로그램을 사용해야 할지는 사용자의 특정 요구 사항, 데이터의 특성, 사용 가능한 컴퓨팅 자원 등을 고려하여 선택해야 합니다. 여러 프로그램을 사용해 보는 것도 좋은 방법입니다.


clova-x

제목: 생물정보학에서 사용되는 서열 정렬 프로그램의 종류와 특징

생물정보학에서는 DNA나 RNA 등의 생물학적 서열을 분석하기 위해 다양한 서열 정렬 프로그램을 사용한다. 대표적인 서열 정렬 프로그램으로는 다음과 같은 것들이 있다.

1.해싱 기반 방법: 해싱 기반 방법은 서열을 일정한 크기의 블록으로 나누고, 각 블록의 해시 값을 계산하여 정렬하는 방법이다. 이 방법은 빠른 속도와 높은 정확도를 제공하며, 대표적인 프로그램으로는 Bowtie, BWA, HISAT2 등이 있다.

2.스트링 매칭 기반 방법: 스트링 매칭 기반 방법은 서열을 하나의 문자열로 간주하고, 다른 서열과의 문자열 매칭을 통해 정렬하는 방법이다. 이 방법은 정확도가 높지만, 속도가 느릴 수 있다. 대표적인 프로그램으로는 BLAST, FASTA 등이 있다.

3.하이브리드 방법: 하이브리드 방법은 해싱 기반 방법과 스트링 매칭 기반 방법을 결합하여, 속도와 정확도를 모두 높이는 방법이다. 대표적인 프로그램으로는 SOAP2, Maq 등이 있다.

각 프로그램은 사용하는 목적에 따라 적절한 프로그램을 선택하여 사용하는 것이 중요하다. 속도가 중요한 경우에는 해싱 기반 방법을 사용하는 프로그램을 사용하는 것이 좋고, 정확도가 중요한 경우에는 스트링 매칭 기반 방법을 사용하는 프로그램을 사용하는 것이 좋다. 대용량 데이터를 처리해야 하는 경우에는 대용량 데이터 처리에 특화된 프로그램을 사용하는 것이 좋다.

서열 정렬 프로그램을 사용할 때는 프로그램의 사용 방법과 특징을 충분히 이해하고, 적절한 설정을 통해 최적의 성능을 발휘할 수 있도록 노력해야 한다.


chatGPT

서열 정렬 알고리즘: 최적의 도구 선택 가이드

서열 정렬(read alignment)은 현대 유전체학 연구의 핵심 단계입니다. 다양한 시퀀싱 기술이 발전함에 따라, 효율적이고 정확한 서열 정렬 도구의 필요성이 커지고 있습니다. 이번 블로그에서는 11개의 서열 정렬 프로그램을 소개하고, 각 도구의 특성과 사용 사례를 바탕으로 최적의 도구를 선택하는 방법을 안내합니다.

서열 정렬 프로그램 선택 기준

1. 설치 용이성: 프로그램이 쉽게 설치 가능해야 합니다. Bioconda와 같은 패키지 관리 도구를 통해 설치할 수 있는 프로그램들이 우선적으로 선택되었습니다.

2. 다양한 기술 반영: 최신 기술과 다양한 알고리즘을 반영한 도구들을 포함하여, 광범위한 연구 목적에 적합하도록 선택되었습니다.

3. 대표성: 짧은 읽기와 긴 읽기 서열 정렬을 모두 포함하여 다양한 생물학적 연구 도메인을 대표할 수 있도록 했습니다.

테스트된 서열 정렬 도구

다음 11개의 서열 정렬 프로그램이 선택되어 테스트되었습니다:

- RMAP, Bowtie, BWA, GSNAP, SMALT, LAST, SNAP, Bowtie2, Subread, HISAT2, minimap2

테스트 결과

테스트는 CPU 시간과 RAM 사용량을 기준으로 수행되었습니다. 1000 Genomes Project의 10개의 WGS 샘플을 사용하여 도출된 결과는 다음과 같습니다:

1. CPU 시간: BWT-FM 기반 도구들이 해싱 기반 도구들보다 평균적으로 3.8배 적은 컴퓨팅 자원을 사용했습니다. Smith-Waterman 알고리즘을 사용하는 SMALT는 가장 높은 실행 시간을 기록했습니다. 2013년 이후 출시된 도구들이 이전 도구들보다 더 나은 성능을 보였습니다.

2. RAM 사용량: 해싱 기반 도구들이 BWT-FM 기반 도구들보다 더 많은 메모리를 사용했습니다. BWT-FM과 접미사 배열을 사용하는 도구들 간에도 메모리 사용량 차이가 있었습니다.

도구별 권장 사용 사례

다음은 각 서열 정렬 도구의 사용 사례와 장단점입니다:

1. RMAP: 짧은 읽기 서열 정렬에 적합. 설치 용이성 높지만 성능은 평균 수준.

2. Bowtie: 속도가 중요한 짧은 읽기 서열 정렬에 적합. 빠른 CPU 시간과 적은 메모리 사용.

3. BWA: 짧은 읽기 및 중간 길이 읽기 서열 정렬에 적합. 매우 효율적이고 높은 정확성.

4. GSNAP: 짧은 읽기 서열 정렬 및 스플라이싱 변이 탐지에 유용. 높은 CPU 시간.

5. SMALT: 짧은 읽기 서열 정렬에 적합. Smith-Waterman 알고리즘 사용으로 인해 높은 CPU 시간.

6. LAST: 긴 읽기 서열 정렬에 유리. 적당한 메모리 사용량.

7. SNAP: 속도와 메모리 효율이 중요한 짧은 읽기 서열 정렬에 적합.

8. Bowtie2: 짧은 읽기 및 중간 길이 읽기 서열 정렬에 적합. Bowtie의 후속 버전으로 더 나은 성능 제공.

9. Subread: RNA-Seq 데이터 정렬에 특화. WGS에서도 좋은 성능.

10. HISAT2: 짧은 읽기 서열 정렬 및 변이 탐지, RNA-Seq에 유용. Bowtie2 기반으로 효율성 높음.

11. minimap2: 긴 읽기 서열 정렬 및 WGS 데이터 정렬에 뛰어난 성능. 속도와 메모리 효율성 높음.

최적의 서열 정렬 도구 선택

서열 정렬 도구를 선택할 때는 연구 목적, 데이터 유형, 정확성, 속도, 메모리 사용량 등을 고려해야 합니다. 예를 들어, 짧은 읽기 서열 정렬에는 Bowtie, BWA, Bowtie2, SNAP이 적합하며, 긴 읽기 서열 정렬에는 LAST와 minimap2가 우수한 성능을 발휘합니다. RNA-Seq 데이터 정렬에는 HISAT2와 Subread가 추천됩니다.

최적의 도구를 선택하는 것은 연구의 성공에 중요한 요소이므로, 각 도구의 특성과 사용 사례를 잘 이해하고 선택하는 것이 중요합니다. 이를 통해 효율적이고 정확한 유전체 분석을 수행할 수 있을 것입니다.

---

이 블로그 포스트를 통해 다양한 서열 정렬 도구의 특성과 사용 사례를 이해하고, 최적의 도구를 선택하는 데 도움이 되기를 바랍니다. 각 도구의 최신 정보를 지속적으로 확인하고, 연구 목적에 맞게 적절히 활용하세요.


gemini는 제가 물어봤을 때, 생각보다 헛소리를 많이 했는데... 정작 블로그에 올릴 글을 작성해줘 하니깐 나름 제대로된 내용을 적어줬습니다. clova-x는... 말이 많이 짧아졌네요. 이제 한계 일까요? 우리의 희망 chatGPT 생각만큼의 답변을 해준것 같습니다. 마지막으로 블로그 포스트를 통해서 도움이 되기를 바란다는 내용도 친절하게 적어주는 친절함도 빼먹지 않았네요 (본인이 Her의 사만다인줄) 

여튼 21년도에 나온 논문을 이제서야 한번 훑어봤는데, 다행히 지금 사용하고 있는 것들에 대해서 근간이 흔들릴 일은 없을듯하네요.

BWA, Minimap2, HISAT2 Rock'n'Roll!!




출처: @ye._.vely618

토요일, 5월 18, 2024

건강한 음식은 장에서 끝나지 않습니다.

오늘은 기존에 제가 올렸던 내용에서는 살짝 벗어난 후성 유전체학 얘기를 잠깐 하려고합니다.

이 논문은 20년도에 나온 논문이고 제목은 Nutritional Epigenomics and Age-Related Disease 입니다. 

DOI는 10.1093/cdn/nzaa097 입니다.

내용은 식단(좀더 정확하게는 영양소)에 따라 우리 몸속의 genome의 DNA methylation의 패턴이 변화하는데 이 methylation 변화가 영양소마다 특징이 있었고 나이(노화)와 관련된 질병과 관계있으니 건강한 노후 생활을 제공하고 공중 보건 정책에  긍정적인 영향을 미칠 수 있으면 좋겠다 정도로 요약할 수 있을 듯합니다.

좀더 자세하고 읽기 쉬운 내용은 clova-x와 chatGPT에 맡겨보았습니다. 이제 chatGPT에 URL 대신에 file을 업로드 할 수 있으니 헛소리를 덜하게 되어서 좋은것 같더라구요 ㅎㅎ 


clova-x

제목: 식단과 DNA methylation의 관계

최근 연구에 따르면, 식단이 DNA methylation에 영향을 미칠 수 있다는 사실이 밝혀졌습니다. DNA methylation은 유전자의 발현을 조절하는 중요한 역할을 하며, 암, 당뇨병, 심혈관 질환 등 다양한 질병과 관련이 있습니다.

엽산, 비타민 B12, 비타민 D, 오메가-3 지방산, 식이섬유 등의 영양소는 DNA methylation에 영향을 미치는 것으로 알려져 있습니다. 이러한 영양소가 부족하면 DNA methylation에 변화가 생겨 암 발생 위험이 증가할 수 있습니다.

식단을 통해 DNA methylation을 조절하는 것은 암이나 노화를 예방하는 데 도움이 될 수 있습니다. 예를 들어, 엽산이 풍부한 시금치, 브로콜리, 아보카도 등을 섭취하거나, 비타민 D가 풍부한 연어, 참치, 계란 등을 섭취하는 것이 좋습니다.

식단을 조절하는 것은 쉽지 않은 일입니다. 개인의 체질과 건강 상태에 따라 적절한 식단을 구성해야 합니다. 전문가의 조언을 듣는 것이 중요합니다.

DNA methylation의 변화를 모니터링하여 질병의 예방 및 치료에 활용할 수 있습니다. 예를 들어, DNA methylation 검사를 통해 암 발생 위험을 예측하거나, DNA methylation을 조절하는 약물을 개발하는 것이 가능합니다.

식단과 DNA methylation의 관계는 아직까지 많은 연구가 필요한 분야입니다. 앞으로 더 많은 연구가 진행되어, 더욱 정확한 정보가 제공될 것으로 기대됩니다.


chatGPT

## 식단과 DNA 메틸화: 건강을 위한 맞춤형 영양

현대 과학은 우리의 식단이 단순히 영양 공급을 넘어 유전자 발현에도 영향을 미칠 수 있음을 밝혀냈습니다. 특히, 식단을 통해 조절할 수 있는 **DNA 메틸화**는 유전자 발현을 조절하는 중요한 메커니즘으로, 암이나 노화와 같은 질병 예방에 중요한 역할을 합니다. 이번 글에서는 DNA 메틸화와 식단의 관계, 그리고 이를 통해 건강을 유지하고 질병을 예방하는 방법에 대해 알아보겠습니다.

## DNA 메틸화란?

DNA 메틸화는 DNA 분자 내 시토신 염기에 메틸기가 붙는 과정입니다. 이 과정은 유전자의 발현을 조절하며, 정상적인 세포 기능 유지와 발달에 중요한 역할을 합니다. 메틸화 패턴의 변화는 암, 노화, 심혈관 질환 등 다양한 질병과 연관이 있습니다.

## 식단과 DNA 메틸화

다양한 연구에 따르면, 특정 영양소는 DNA 메틸화 패턴에 영향을 미칠 수 있습니다. 다음은 DNA 메틸화를 조절하는 주요 영양소들입니다:

1. **엽산 (Folate)**: 엽산은 DNA 메틸화에 필요한 메틸기를 제공하는 중요한 영양소입니다. 엽산이 풍부한 식단은 정상적인 메틸화 패턴을 유지하는 데 도움을 줍니다.

   - **음식 소스**: 녹색 잎 채소, 콩류, 감귤류 과일, 곡물.

2. **비타민 B-12**: 비타민 B-12는 메티오닌 생성에 필요한 보조 인자로, DNA 메틸화에 직접적인 영향을 미칩니다.

   - **음식 소스**: 육류, 생선, 유제품, 강화 시리얼.

3. **비타민 B-6**: 이 비타민은 1-탄소 대사 경로에서 중요한 역할을 하며, 메틸기 전환에 관여합니다.

   - **음식 소스**: 닭고기, 생선, 감자, 병아리콩, 바나나.

4. **메티오닌**: 메티오닌은 필수 아미노산으로, S-아데노실메티오닌(SAM)의 전구체입니다. SAM은 주요 메틸 기부체로 작용합니다.

   - **음식 소스**: 육류, 생선, 유제품, 콩류, 견과류.

5. **콜린**: 콜린은 세포막 구조와 신경전달물질 합성에 중요한 역할을 하며, 메틸기 공급원으로 작용합니다.

   - **음식 소스**: 계란, 육류, 생선, 견과류, 콩류.

6. **베타인**: 베타인은 호모시스테인을 메티오닌으로 전환하는 데 사용되는 메틸기 공급원입니다.

   - **음식 소스**: 밀기울, 시금치, 비트, 퀴노아.

## 실질적인 식단 권장 사항

- **다양한 식품 섭취**: 균형 잡힌 식단을 통해 다양한 영양소를 충분히 섭취하는 것이 중요합니다.

- **가공 식품 피하기**: 가공 식품은 영양소가 부족할 수 있으므로 신선한 채소, 과일, 견과류, 육류 등을 섭취하세요.

- **영양 보충제**: 특정 영양소의 결핍이 우려되는 경우, 의사와 상담 후 보충제를 섭취할 수 있습니다.

## 결론

식단을 통해 특정 영양소를 충분히 섭취하면 DNA 메틸화를 조절하여 암, 노화, 심혈관 질환 등의 예방에 도움을 줄 수 있습니다. 균형 잡힌 식단이 건강 유지와 질병 예방에 핵심적인 역할을 하므로, 우리의 식단을 다시 한번 점검해 볼 필요가 있습니다.

## 참고 문헌

- 논문: "Nutritional Epigenomics and Age-Related Disease"

- 기타 관련 자료

이 글이 도움이 되셨다면, 댓글로 여러분의 생각을 공유해주세요! 건강한 식단으로 더 나은 미래를 함께 만들어 봅시다.


chatGPT는 claude처럼 진짜 누군가가 작성하는 것 같아보입니다.

그리고 블로그에 올릴 글을 작성해줘 라고 하니 자연스럽게 제목도 함께 제시해주고 있네요 ㅎㅎ  



출처: @ye._.vely618


목요일, 5월 16, 2024

식단과 신체활동이 진짜 메틸레이션에 변화에 효과가 있을까

오늘은 메틸레이션에 관련된 내용을 한번 들고와봤습니다. 제목은 Impact of a diet and activity health promotion intervention on regional patterns of DNA methylation 으로 2019년에 출판된 논문입니다.

DOI: 10.1186/s13148-019-0707-0 입니다.

일루미나의 EPIC 850K 어레이를 이용해서 DNA 메틸화 수준을 확인하였고, Make Better Choices 2 라는 프로그램에 등록된 340명의 사람들 대상으로 식단과 신체활동 전후에 따라 differentially methylated regions (DMR) 즉 메틸화 차이가 보이는 영역들을 확인했다고 합니다.

이 DMR에는 세포주기 조절, 발암 관련된 유전자들이 포함되어있었다고하니!!! 먹는것도 중요한듯합니다

오늘은 clova-x, claude와 chatGPT-3.5에 "파일 내용을 바탕으로 블로그에 게시할 내용의 글을 A4 2장 분량으로 작성해주세요" 라고 요청했습니다. :)


clova-x

이 연구는 건강한 식단과 신체 활동이 DNA methylation에 미치는 영향을 조사했다.

건강한 식단과 신체 활동은 만성 질환의 위험을 감소시키며, DNA methylation과 같은 유전적 메커니즘이 질병의 위험에 영향을 미친다. 신체 활동 중재는 생리적 효과를 포함하며, reduced DNA methylation은 inflammation, oxidative stress, immune function에 영향을 준다.

MBC2 연구는 combined physical activity와 dietary intervention의 영향을 조사한 첫 번째 연구이다. MBC2 다이어트와 신체 활동 중재는 세포 주기 조절과 암 발생에 관련된 유전자 영역의 DNA 메틸레이션 패턴에 영향을 미쳤다. DNA 메틸레이션을 바이오마커로 삼아 건강 행동 변화를 계획에 포함시켜 특정 인구가 혜택을 볼 수 있는지를 미래 연구에서 살펴볼 것이다.

이 연구는 DNA methylation에 대한 선행 연구를 바탕으로 신체 활동과 식이 요소를 포함하고 혈액 샘플에서 methylation을 측정했다. DNA methylation은 유전자 발현을 조절하는 중요한 역할을 하며, 암, 당뇨병, 심혈관 질환 등 다양한 질병과 관련이 있다.

DNA methylation은 세포 분화, 노화, 환경 요인 등 다양한 요인에 의해 영향을 받는다. 이 연구는 건강한 생활습관이 DNA methylation에 미치는 영향을 조사함으로써, 건강한 삶을 유지하기 위한 중요한 정보를 제공한다.

이 연구는 DNA methylation에 대한 이해를 높이고, 건강한 삶을 유지하기 위한 방법을 제시하는 데 큰 도움이 될 것이다. 앞으로 이 연구를 바탕으로 더 많은 연구가 진행되어, 건강한 삶을 위한 더 많은 정보가 제공될 것으로 기대된다.

건강한 삶을 유지하기 위해서는 건강한 식단과 신체 활동이 중요하다. 이 연구는 건강한 삶을 유지하기 위한 방법을 제시하는 데 큰 도움이 될 것이다. 우리는 이 연구를 바탕으로 건강한 삶을 위한 노력을 계속해야 한다.


claude

안녕하세요 독자 여러분,

오늘은 최근 연구 결과를 바탕으로 건강한 생활습관이 우리 몸의 DNA 메틸화에 미치는 영향에 대해 알아보겠습니다. DNA 메틸화는 유전자 발현을 조절하는 주요 후성유전적 메커니즘으로, 우리 몸의 다양한 기능과 질병 위험에 영향을 줄 수 있습니다.

Northwestern 대학의 연구팀은 '더 나은 선택하기 2(Make Better Choices 2, MBC2)' 프로그램에 참여한 성인 68명을 대상으로 식단과 신체활동 개선이 전체 게놈의 DNA 메틸화 패턴에 미치는 영향을 조사했습니다. 이 9개월 무작위 대조 시험에서 연구 참가자들은 과일/야채 섭취 증가, 포화 지방 섭취 감소, 신체활동 증가, 좌식행동 감소 등의 생활습관 개선에 참여했습니다.

연구팀은 Illumina EPIC 850k 배열칩을 사용하여 기저 시점, 3개월 시점, 9개월 시점에서 전체 게놈 메틸화 수준을 측정했습니다. 그 결과 대조군과 중재군 간에 154개(3개월)와 298개(9개월)의 차등적으로 메틸화된 유전체 영역(DMR)이 발견되었습니다.

특히 IRF2, DUSP5P1 등 면역 반응, 종양 억제, 노화 관련 유전자의 메틸화 변화가 관찰되었습니다. 경로 분석에서는 세포부착, PI3K/AKT, Wnt/베타-캐터닌, sonic hedgehog 등 세포 기능과 발암 관련 경로의 메틸화 변화가 확인되었습니다.

이 연구 결과는 건강한 식단과 운동 습관이 DNA 메틸화를 통해 면역, 대사, 발암 등 다양한 생물학적 메커니즘에 영향을 미칠 수 있음을 보여줍니다. 이는 만성 질환 예방을 위한 정밀 의학적 접근에서 DNA 메틸화가 중요한 생체지표로 활용될 수 있음을 시사합니다.

하지만 이 연구는 비교적 작은 샘플 크기를 가지고 있어 일반화에 제한이 있습니다. 또한 백인과 아프리카계 미국인만을 대상으로 했기 때문에 인종별 차이를 고려하지 못했습니다. 추가 연구를 통해 더 큰 샘플과 다양한 인구 집단에서 유사한 결과가 재현되는지 확인할 필요가 있겠습니다.

DNA 메틸화에는 식단과 운동 외에도 나이, 환경오염, 스트레스, 질병 등 다양한 요인들이 영향을 미칩니다. 따라서 건강한 생활 습관과 함께 전반적인 생활 환경 개선을 통해 DNA 메틸화를 포함한 에피지놈을 긍정적으로 조절할 수 있을 것입니다.

오늘 소개한 연구 결과는 우리가 얼마나 건강한 삶을 영위하는지에 따라 DNA 메틸화를 통해 유전자 발현과 질병 위험이 변화할 수 있음을 보여줍니다. 앞으로 건강한 식단과 운동 습관을 실천하고, 전반적인 생활 환경을 개선하는 것이 만성 질환 예방을 위해 중요할 것입니다. 여러분 모두 건강한 하루 되시기 바랍니다.


chatGTP 3.5

타이 치 연습과 DNA 메틸화: 건강에 미치는 영향

최근 연구에 따르면, 우리의 식습관과 생활 방식은 우리의 유전자를 조절하는데 영향을 줄 수 있다고 합니다. 특히, 타이 치와 같은 신체 활동이 DNA 메틸화라는 생물학적 메커니즘을 통해 우리의 유전자 발현에 영향을 줄 수 있다는 것이 최근 연구 결과입니다.

chatGPT는 그만 알아봅니다. Orz


clova-x와 claude는 논문파일을 직접 업로드하였기에 내용을 정확하게 이해하였는데 chatGPT같은 경우 파일업로드 대신 url을 제공하여서 제대로 내용을 인지 못한 것으로 생각됩니다.

claude는 역시 믿고 쓰면 되겠습니다.



출처: @ye._.vely618


화요일, 5월 14, 2024

롱리드냐 숏리드냐 그것이 문제로다! 그냥 둘 다 써!

23년에 효모를 사용해서 여러 플랫폼 데이터의 어셈블리 성능을 테스트한 논문이 있어서 한번 가져와봤습니다.

DOI는 10.26508/lsa.202201744 입니다.

조금 더 복잡한 genome을 사용했으면 좋았을 것 같지만, 그러면 genome에서 오는 복잡도로 결과를 명확하게 분석하기 어려운 면이 있어서 yeast를 선정한 것은 좋은 선택인 것 같았습니다. 어설프게 다배체 생물 건드리면 나는 어딘가? 여기는 누군가? 하고 있었을 수 도 있으니깐요 :)

논문 장수와 용량이 적절해서 clova-x, gemini와 더불어 claude에게 까지 물어보았습니다.

질문: 블로그에 이 연구 내용으로 글을 하나 작성해주세요. 읽는 대상은 차세대 시퀀싱은 알지 못하지만 공립 중고등학교에서 가르치는 생물에 대한 지식이 있는 사람들 입니다.


clova-x

이 논문에서는 Debaryomyces hansenii KCTC27743 yeast species의 전체 유전체를 4개의 다른 시퀀싱 플랫폼을 사용하여 시퀀싱하고 조립하는 방법을 설명하고 있습니다. 이 방법은 차세대 시퀀싱 기술을 사용하여 유전체를 분석하는 것으로, 생물학 연구에서 중요한 역할을 합니다.

이 논문에서는 PacBio Sequel, ONT MinION, Illumina NovaSeq 6000, MGI DNBSEQ-T7 등 4개의 시퀀싱 플랫폼을 사용하여 유전체를 분석하였습니다. 각각의 플랫폼은 서로 다른 장단점을 가지고 있으며, 이를 고려하여 적절한 플랫폼을 선택해야 합니다.

조립 과정에서는 Flye, WTDBG2, Canu, MaSuRCA, WENGAN, SPAdes, ABySS 등 7개의 조립 프로그램을 사용하였습니다. 이 프로그램들은 각각의 특성과 장단점을 가지고 있으며, 이를 고려하여 적절한 프로그램을 선택해야 합니다.

이 논문에서는 유전체 분석 결과를 바탕으로 다양한 유전체 구조를 분석하였습니다. 유전체 구조는 생물학적 특성과 밀접한 관련이 있으며, 이를 분석함으로써 생물학적 연구에 유용한 정보를 얻을 수 있습니다.

이 논문에서는 차세대 시퀀싱 기술을 사용하여 유전체를 분석하는 방법과, 이를 위한 다양한 플랫폼과 프로그램을 소개하고 있습니다. 이는 생물학 연구에 관심이 있는 사람들에게 유용한 정보가 될 것입니다. 또한, 공립 중고등학교에서 가르치는 생물에 대한 지식이 있는 사람들도 이 논문을 통해 차세대 시퀀싱 기술에 대한 이해를 높일 수 있을 것입니다.




claude

안녕하세요. 오늘은 차세대 시퀀싱 기술과 유전체 조립에 대한 재미있는 연구 결과를 소개하겠습니다.

여러분도 학교에서 DNA의 구조, 유전자, 염기서열 등을 배웠을 텐데요. 현대 생명과학에서는 생물체의 전체 유전정보인 게놈(genome)을 해독하는 것이 매우 중요합니다. 게놈을 알면 그 생물의 유전적 특성과 진화 과정을 이해할 수 있기 때문입니다.

게놈은 DNA가 긴 가닥으로 이어진 것인데, 이를 조각조각 읽어서 다시 맞춰 전체 구조를 복원하는 것이 바로 '유전체 조립(genome assembly)' 작업입니다. 마치 퍼즐을 맞추는 것과 비슷하죠.

과거에는 DNA를 직접 읽는 시퀀싱 기술의 한계로 유전체 조립이 쉽지 않았습니다. 하지만 최근 '차세대 시퀀싱(Next-Generation Sequencing)' 기술이 발달하면서 좀 더 정확하고 효율적인 유전체 조립이 가능해졌습니다.

이번에 소개할 연구는 여러 차세대 시퀀싱 플랫폼과 조립 프로그램을 활용해 효모 게놈 조립을 시도한 결과입니다. 연구팀은 PacBio, 옥스퍼드 나노포어, 일루미나, MGI 등 4가지 플랫폼으로 효모를 시퀀싱했습니다. 그리고 Flye, WTDBG2, Canu 등 7가지 조립 프로그램을 사용해 총 212개의 효모 유전체 조립체를 만들었습니다.

결과적으로 가장 완성도 높은 조립체는 옥스퍼드 나노포어 플랫폼의 긴 염기서열을 사용하고, Canu 프로그램으로 조립한 뒤 MGI 플랫폼의 데이터로 오류를 수정한 것이었습니다. 하지만 각 플랫폼과 프로그램마다 장단점이 있었는데요.

옥스퍼드 나노포어는 긴 염기서열을 얻을 수 있었지만 오류율이 높았고, 일루미나 플랫폼은 정확도가 높았지만 짧은 염기서열 때문에 반복 영역을 해결하기 어려웠습니다. 조립 프로그램 중에서는 Canu가 반복 영역 해결력이 좋았지만 느린 편이었고, WTDBG2는 빨랐지만 정확도가 낮았습니다.

이렇게 시퀀싱 플랫폼과 조립 프로그램의 특성을 고려하면 생물 종류나 상황에 맞춰 최적의 조합을 선택할 수 있습니다.

유전체 조립은 생명과학 분야에서 아주 기초적이지만 중요한 작업입니다. 앞으로 더 나은 기술이 개발되면 다양한 생물체의 게놈을 해독하고 분석할 수 있을 것입니다. 이를 통해 생명현상에 대한 이해를 넓힐 수 있을 거예요.

이상으로 생소한 주제였지만 재미있게 읽으셨나요? 다음에는 더 알기 쉽고 흥미로운 주제로 찾아오겠습니다.




gemini

차세대 시퀀싱 기술: 효모 게놈의 비밀을 밝히다!

안녕하세요, 생물 선생님들! 오늘은 여러분의 생물 수업을 더욱 풍성하게 만들어 줄 차세대 시퀀싱 기술에 대해 이야기 나누려고 합니다. 차세대 시퀀싱은 단순히 DNA를 읽는 기술을 넘어, 우리가 살아있는 세상에 대한 이해를 혁신하는 강력한 도구입니다.

차세대 시퀀싱이란 무엇일까요?
과거에는 DNA를 읽는 데 오랜 시간과 노력이 필요했지만, 차세대 시퀀싱 기술은 단 며칠 만에 수백억 개의 염기 서열을 읽을 수 있게 해줍니다. 이는 마치 거대한 책을 한 번에 읽는 것과 같습니다!

차세대 시퀀싱으로 무엇을 할 수 있을까요?
효모 게놈 비밀 탐구: 오늘 소개하는 연구는 차세대 시퀀싱 기술을 사용하여 효모 게놈의 완벽한 지도를 만들었습니다. 이는 효모가 어떻게 작동하고, 우리에게 어떤 영향을 미치는지 이해하는 데 큰 도움이 될 것입니다.
질병 진단: 차세대 시퀀싱 기술은 암, 유전 질환 및 감염성 질환 등 다양한 질병을 진단하는 데 사용될 수 있습니다. 이는 더 정확하고 개인 맞춤형 치료법 개발에 기여할 것입니다.
새로운 약물 개발: 차세대 시퀀싱 기술은 질병의 원인을 파악하고 새로운 약물 개발에 도움을 줄 수 있습니다. 이는 더 효과적이고 안전한 치료법 개발로 이어질 것입니다.
진화 연구: 차세대 시퀀싱 기술은 다양한 생물 종의 DNA를 비교 분석하여 진화 과정을 이해하는 데 도움을 줄 수 있습니다.

차세대 시퀀싱 기술이 생물 교육에 미치는 영향
차세대 시퀀싱 기술은 생물 교육에도 혁신을 가져올 수 있습니다.
실제 데이터 활용: 학생들은 실제 과학 연구에서 사용되는 DNA 데이터를 분석하고 해석하는 방법을 배울 수 있습니다.
개인 맞춤형 학습: 학생들의 DNA를 시퀀싱하여 개인의 유전적 특성에 맞는 학습 경험을 제공할 수 있습니다.
창의적인 과학 프로젝트: 학생들은 차세대 시퀀싱 기술을 사용하여 자신의 과학 프로젝트를 진행하고 새로운 생물학적 발견을 할 수 있습니다.

차세대 시퀀싱 기술은 생명 과학의 미래를 바꿀 잠재력을 지닌 강력한 도구입니다. 생물 선생님들은 이 기술을 활용하여 학생들에게 더욱 흥미롭고 의미 있는 학습 경험을 제공할 수 있습니다.


clova-x와 claude는 꽤 괜찮은 내용의 글을 작성해주었습니다. 반면에 gemini는 제목은 멋드러지게 뽑은 반면에 내용은... 무슨말을 하는지 알맹이가 없었습니다.

물론 질문이 모호하긴 했죠, 공립 중고등학교라니, 한국이냐 미국이냐에 따라 대도심 지역이나 지방소도시간의 차이도 있을 텐데... 그런것은 그냥 무시하고 글을 작성한 것 같기도 합니다. ㅎㅎ 



출처: @ye._.vely618


월요일, 5월 13, 2024

Open Dart 활용하기 (2)

오늘은 Open Dart API를 활용하는 두번째 시간입니다.

사실 Open Dart API를 활용하면서 이것저것 테스트 하고 있었는데  뜻밖에 좋은 github를 알게되어서...

어렵지 않게 data에서 자료를 뽑아올 수 있게 되었습니다.

그리고 이제는 pandas를 좀 더 잘 사용할 수 있어야 더 수월하게 자료를 수집할 수 있을 것 같습니다.

각설하고 좋은 github는 FinanceData 입니다.

- 한국과 미국 및 몇몇 주요 나라의 주가 정보를 쉽게 크롤링 할 수 있게 해주는 FinanceDataReader

- OpenDart라는 금융감독원에서 제공하고 있는 전자공시시스템의 API를 더 쉽게 사용할 수 있게 해주는 OpenDartReader


앞서 다른 글들에서 언급했었던 yfinance와 dart_fss를 하나 하나 기능과 어떤 결과들이 return되는지 테스트하고 있었는데, 갑자기 이 github가 눈앞에.. Orz

좀더 열심히 검색해 볼 껄, 역시 세상에는 착한 능력자 분들이 많다는 :)

다음 안내글은 FinanceDataReader 활용하기, OpenDartReader 활용하기 정도가 되지 않을까합니다.



출처: @ye._.vely618

일요일, 5월 12, 2024

이번에는 누가누가 어답타 제거를 잘할까?

오늘도 Tool 벤치마킹하는 자료를 한번 가져와봤습니다.

제목은 Benchmarking software tools for trimming adapters and merging next-generation sequencing data for ancient DNA 이고,

DOI는 10.3389/fbinf.2023.1260486 입니다.

음... 비교하는 툴이긴 한데 그 목적이 고대의 DNA, 음... 쥬라기공원과 같은 공룡의 DNA를 복원하려는 분들도 있겠지만... 아마 여기서 얘기하는 고대의 DNA는 유적지들에서 발견되는 DNA들을 얘기하지 않을까 합니다.

여튼 어렵게 얻은 샘플로 시퀀싱을 했는데 분석의 전처리 격인 adpater와 같은 불필요한 데이터 처리를 잘못해서 잘못된 결과나 정작 우리가 필요로 했던 데이터가 유실되면 안되기 떄문에 기존에 알려져 있는 trimming이나 QC하는 tool 중에서 적합한 것을 찾아보려고 했던 것 같습니다.

그래서 7개 tool을 사용해서 정확하게 adpater를 제거하는지, 시퀀싱 오류도 잘 수정하는지 성능을 상호비교 해봤다고 합니다.

gemini

제목: 고대 DNA 분석의 미래를 여는 NGS 데이터 트리밍 기술

**역사 속 비밀을 밝히는 고대 DNA**

고대 유물에서 추출된 DNA, 즉 고대 DNA(aDNA)는 과거 생명체의 유전 정보를 담고 있어 진화, 역사, 그리고 인류의 기원을 이해하는 데 매우 중요한 역할을 합니다. 그러나 수천 년, 수만 년 전의 유물에서 추출된 aDNA는 짧고 손상된 상태로 인해 분석하기가 매우 어렵습니다.

**NGS 기술의 등장: 새로운 가능성**

NGS(Next-Generation Sequencing) 기술의 등장은 aDNA 분석에 새로운 가능성을 열었습니다. NGS는 이전 기술보다 빠르고 저렴하게 대량의 DNA 데이터를 분석할 수 있기 때문에, 과거에는 불가능했던 방대한 양의 aDNA 데이터를 분석하는 것이 가능해졌습니다.

**하지만 여전히 남아있는 과제: 데이터 정제의 중요성**

NGS 기술은 aDNA 분석에 획기적인 발전을 가져왔지만, 여전히 해결해야 할 과제가 있습니다. 바로 aDNA 데이터의 정제 문제입니다. aDNA는 짧고 손상된 상태로 인해 시퀀싱 오류가 많이 발생하며, 어댑터(NGS 분석 과정에서 사용되는 인공 DNA) 잔여물도 존재합니다. 이러한 오류와 잔여물은 분석 결과의 정확성을 크게 떨어뜨릴 수 있기 때문에 제거해야 합니다.

**NGS 데이터 트리밍 기술: 정확한 분석을 위한 필수 도구**

NGS 데이터 트리밍 기술은 시퀀싱 오류와 어댑터 잔여물을 제거하여 aDNA 데이터의 정확성을 높이는 데 사용됩니다. 다양한 NGS 데이터 트리밍 도구들이 개발되었으며, 각 도구마다 장단점이 존재합니다.

**최근 연구: NGS 데이터 트리밍 도구의 성능 비교**

최근 연구에서는 7가지 일반적으로 사용되는 NGS 데이터 트리밍 도구의 성능을 비교 분석했습니다. 연구 결과, 모든 도구가 템플릿 길이가 10bp보다 큰 경우 높은 정확도로 시퀀싱 오류를 수정했습니다. 하지만 일부 도구가 특정 조건에서 더 나은 성능을 보였습니다. 예를 들어, AdapterRemoval, fastp, leeHom은 다른 도구들보다 강력한 성능을 보였고, 다양한 품질 점수 계산 방법에서 가장 정확한 품질 점수를 계산했습니다.

**NGS 데이터 트리밍 기술의 중요성: 더욱 정확하고 신뢰할 수 있는 분석 결과**

NGS 데이터 트리밍 기술은 고대 DNA 분석의 정확성을 높이는 데 필수적인 역할을 합니다. 이 기술을 통해 과거 생명체에 대한 더욱 정확하고 신뢰할 수 있는 정보를 얻을 수 있게 됩니다. 앞으로 NGS 데이터 트리밍 기술의 발전은 고대 DNA 분석의 가능성을 더욱 확대하고, 과거의 비밀을 밝히는 데 더욱 큰 도움이 될 것으로 기대됩니다.

**참고:**

* 이 글은 NGS 데이터 트리밍 기술에 대한 기본적인 정보를 제공하는 데 목적이 있습니다. 더 자세한 내용은 관련 전문가나 연구 자료를 참조하시기 바랍니다.



제목도 "고대 DNA 분석의 미래를 여는 NGS 데이터 트리밍 기술" 라고 잘 뽑고.. 좋은듯 합니다. 알잘딱깔센으로 결론은 AdapterRemoval, fastp, leeHom 이 것 들중에서 알아서 잘 쓰세요. 라고 합니다. 논문에는 leeHom이 좋다고 한 거 같은데, 스스로 판단 했을 때 3가지 크게 차이가 없었다고 판단해서 그렇게 설명한것이지 않을까 하네요.

clova-x를 사용하지 않은 이유는 pdf를 업로드하는데 10M 미만의 파일만 업로드 할 수 있다고 안내문을 내놔서 이번에는 clova-x는 사용하지 않았습니다. 
물론 pdf파일은... 9.5M 였었는데... 계산하는 식을 1M가 1024K가 아닌 1M는 1000K라고 잘못 생각한게 아닐까 싶네요.


또 이런저런 내용으로 글을 올려보도록 하겠습니다.


출처: @ye._.vely618


금요일, 5월 10, 2024

시뮬레이션 데이터를 만들어서 평가하고 실제 실험하면 좀 나아질까요?

분석 Tool 벤치마킹 자료 찾다가 얻어걸린 논문되겠습니다.

음.... 좋게 이야기해서 당시(약 8년전) 태동하고 있었던 NGS 실험을 하려고 하는데 NGS 데이터를 생산하는 것도 고가였고, 생산만 하면 끝나는 것이 아닌 이후 전처리 및 여러 단계의 분석을 해야지 내손에 엑셀 파일남는 그런것을 함부로 할 수 있겠냐!!! 라는 생각으로 in-silico로 가상의 데이터 만들어서 어떤 NGS 기술로 실험하는것이 나에게 알맞는지 먼저 확인해보자!! 를 수행하기 위해서 가상의 데이터를 만들어주는 tool중 어떤 것을 사용해야지 적절한지 비교해본 논문되겠습니다.

그냥 쉽게 얘기해서 NGS 플랫폼 별로 가라 데이터 만들어주는 tool 비교 논문 되겠습니다.

지금은 굉장히 저렴해지긴 했지만 이 논문이 나올 당시만해도 NGS 장비도 그렇고 시약도 그렇고 귀엽지 않았기 떄문에 이런 가라 데이터를 만들어주는 tool도 NGS 플랫폼에 따라 최적의 tool을 사용해야 하는 시절이었나 봅니다. (2016년이면... 나는 그러지 않았던 것 같은데... )

사실 당시에는 못먹어도 ILMN 아니었겠습니다.
지금은 아묻따 ONT!!! 

여튼 논문 제목은 A comparison of tools for the simulation of genomic next-generation sequencing data. 이고 

doi는 10.1038/nrg.2016.57

입니다.

그래서 gemini와 clova-x에게 시켜보았습니다.


gemini

최근 게놈 차세대 시퀀싱 (NGS) 데이터를 분석하는 데 사용되는 다양한 도구와 방법들이 개발되었습니다. 이러한 도구와 방법의 성능을 평가하기 위해서는 실제 NGS 데이터를 사용하는 것이 가장 이상적이지만, 이는 항상 가능하거나 윤리적인 것은 아닙니다.

따라서 시뮬레이션 NGS 데이터를 생성하고 사용하는 것이 유용한 대안이 될 수 있습니다.

시뮬레이션 NGS 데이터 생성 및 평가의 장점:

  실제 NGS 데이터를 사용할 수 없는 경우에도 도구와 방법을 평가할 수 있습니다.

  다양한 시나리오를 생성하여 도구와 방법의 강점과 약점을 파악할 수 있습니다.

  데이터 세트의 크기와 복잡성을 제어할 수 있습니다.

  윤리적 문제를 피할 수 있습니다.

시뮬레이션 NGS 데이터 생성 및 평가의 단점:

  실제 NGS 데이터의 복잡성을 완벽하게 반영하지 못할 수 있습니다.

  시뮬레이션 도구에 대한 편향이 발생할 수 있습니다.

  시뮬레이션 데이터를 생성하고 분석하는 데 시간과 노력이 많이 소요될 수 있습니다.

결론:

  시뮬레이션 NGS 데이터를 생성하고 평가하는 것은 NGS 도구와 방법을 평가하는 데 유용한 방법이 될 수 있지만, 몇 가지 제한 사항이 있습니다. 시뮬레이션 데이터를 사용하기 전에 이러한 장단점을 신중하게 고려해야 합니다.

추가 고려 사항:

  시뮬레이션 도구를 선택할 때는 요구 사항, 사용 편의성 및 사용 가능한 리소스를 고려하는 것이 중요합니다.

  시뮬레이션 데이터는 실제 NGS 데이터와 가능한 한 유사하게 생성해야 합니다.

  시뮬레이션 데이터를 사용하여 도구와 방법을 평가할 때는 시뮬레이션 도구에 대한 편향을 고려해야 합니다.


clova-x

최근에는 컴퓨터 시뮬레이션을 통해 genomic data를 평가하고 검증하는 것이 biological models을 평가하고 이해하는 데 점점 더 중요해지고 있습니다. 이에 따라, 다양한 NGS 데이터 시뮬레이션 도구가 개발되어 사용되고 있습니다.

이 연구에서는 다양한 NGS 데이터 시뮬레이션 도구를 비교 분석하여, 각각의 도구의 장단점을 파악하고, 최적의 도구를 선택하는 것을 목표로 합니다. 이를 통해, 연구의 효율성과 신뢰성을 향상 시킬 수 있습니다.

NGS 데이터의 시뮬레이션을 통해 실험 계획, 가설 검증, 벤치마크 도구 등을 제작할 수 있습니다. 이를 통해 연구의 효율성을 높이고, 원하는 결과를 얻을 수 있는 가능성을 높일 수 있습니다.

이 연구의 의의는 NGS 데이터의 시뮬레이션을 통해 연구의 효율성과 신뢰성을 높일 수 있다는 것입니다. 다양한 도구를 비교 분석하여 최적의 도구를 선택할 수 있는 가이드를 제공한다는 점에서 큰 의의가 있습니다.


오늘은 gemini 답변이 조금 더 성의 있어 보이네요. clova-x는... 담에 좀 성의있게 질문을 해보도록 하겠습니다.

결론은 이제는 이런거 하지 마시고 그냥 일단 아묻따 NGS 고고

in-silico로 가라 데이터 만들어서 테스트 해보겠다고 하는 사이에 경쟁자들은 실험 디자인해서 실험하고 논문쓰고 しまい 합니다.





출처: @ye._.vely618


일요일, 5월 05, 2024

유사성과 상동성을 알아보겠습니다.

오늘은 서열 검색할 때 대게는 similarity를 얘기해야 하나 homology로 혼용해서 생각하는 경우가 흔해서 2013년.. 와.. 10년전 논문을 가져와 봤습니다.

물론 이 두 개를 혼용하는 주인공은 접니다. ㅋ

여튼 제목도 그에 걸맞게 "An Introduction to Sequence Similarity (“Homology”) Searching" 입니다.

DOI: 10.1002/0471250953.bi0301s42

논문 내용을 봐보니 이건 claude에 (공짜로) 물어봐도 해줄 것 같아서 claude와 clova-x에 물어보았습니다.

claude

1. 논문 업로드 요약문

이 논문은 서열 유사성 검색과 상동성(유전적 공통 조상) 추론에 대해 소개하고 있습니다. 주요 내용은 다음과 같습니다:
1. BLAST, FASTA, SSEARCH 등의 서열 유사성 검색 프로그램은 통계적으로 유의미한 유사성을 발견할 경우 두 서열이 공통 조상에서 유래했다고 추론할 수 있습니다.
2. 단백질 서열 비교가 DNA 서열 비교보다 5-10배 더 민감하므로 단백질 서열 검색이 선호됩니다.
3. 30% 이상의 서열 일치도 규칙은 지나치게 보수적입니다. 20% 미만의 낮은 일치도에서도 통계적으로 유의미한 상동성을 보일 수 있습니다.
4. 서열 유사성에서 기대값(E-value)과 bit 스코어가 일치도보다 상동성 추론에 더 유용합니다.
5. 상동 서열이 발견되면 기능 예측을 위해 보존된 활성 부위 잔기 등을 확인하는 것이 중요합니다.
6. 단일 서열 비교보다 다중서열정렬이 진화적, 구조적, 기능적 정보를 더 잘 제공합니다.
7. 상동성은 공통 조상을 나타내지만 반드시 기능적 유사성을 의미하지는 않습니다. 정밀한 기능 예측에는 주의가 필요합니다. 

요약하면 서열 유사성 검색 도구와 통계값을 사용하여 신뢰성 있게 상동성을 추론할 수 있지만, 기능 예측 시에는 추가 분석이 필요하다는 내용입니다.

2. homology(상동성)와 similarity(유사성)를 설명해줘

이 논문에서는 homology(상동성)와 similarity(유사성)의 관계를 다음과 같이 설명하고 있습니다:
1. 상동성(homology)은 두 서열이 공통의 조상에서 유래했음을 의미합니다. 반면 유사성(similarity)은 단순히 두 서열 사이에 비슷한 부분이 있음을 나타냅니다.
2. 유의미한 통계적 유사성이 관찰되면, 그 초과 유사성(excess similarity)이 두 서열이 독립적으로 생겨난 것이 아니라 공통 조상에서 유래했기 때문이라고 추론할 수 있습니다. 즉, 유의미한 유사성은 상동성을 암시합니다.
3. 하지만 상동 서열이라도 항상 유의미한 서열 유사성을 보이는 것은 아닙니다. 일부 상동 서열은 구조 유사성이나 중간 서열과의 유사성으로 상동성이 입증됩니다.
4. 반대로 유의미한 서열 유사성이 있다고 해서 반드시 상동성이 있는 것은 아닙니다. 우연히 높은 유사 점수가 나올 수 있기 때문입니다.
요약하면, 유의미한 통계적 유사성은 상동성을 강력하게 시사하지만, 유사성과 상동성은 개념적으로 구분된다고 설명하고 있습니다. 상동성 추론을 위해서는 유사성 외에 추가적인 증거가 필요할 수 있습니다.

3. (항상 그러하듯이) 블로그에 게시할 글 좀 써줘

안녕하세요. 생명공학을 전공하지 않은 분들에게 homology와 similarity에 대해 설명드리겠습니다.
생물학에서 서로 다른 생물체 사이의 유사성을 발견하는 것은 매우 중요합니다. 이러한 유사성은 두 가지 주요 개념인 homology(상동성)와 similarity(유사성)로 나뉩니다. 먼저 similarity(유사성)은 두 생물체가 외형이나 구조, 서열 등에서 비슷한 모습을 보이는 것을 말합니다. 예를 들어 개와 늑대는 외형이 서로 비슷하고, 사람과 침팬지의 DNA 서열도 상당 부분 유사합니다. 이렇게 겉보기에 닮은 점이 많다면 두 생물체 사이에 similarity가 있다고 합니다. 하지만 단순히 겉모습이 비슷하다고 해서 두 생물이 진화적으로 가까운 관계는 아닙니다. 닮은 꼴을 한 생물이라도 실제로는 전혀 다른 조상에서 비롯되었을 수 있죠. 이처럼 단순한 유사성만으로는 두 생물의 진화적 관계를 설명할 수 없습니다. 이때 필요한 개념이 바로 homology(상동성)입니다. 상동성이란 두 생물체가 같은 공통조상에서 유래했음을 의미합니다. 예를 들어 사람과 침팬지는 DNA 서열이 매우 유사할 뿐 아니라, 실제로 공통조상에서 갈라져 나온 한 계통의 생물입니다. 이처럼 공통된 기원을 가진 경우 두 생물은 상동적(homologous) 관계에 있다고 말합니다.
생물학자들은 서열 분석과 다양한 진화 연구를 통해 생물체 간의 상동성 여부를 가려냅니다. 상동성이 입증되면 두 생물이 가진 유사성의 기원을 설명할 수 있게 됩니다. 즉, 유사성은 관찰 가능한 현상이지만, 상동성은 그 유사성의 진화적 근원을 나타내는 것입니다. 때로는 우연히 닮은 듯한 similarity를 보이는 생물체들도 있지만, 엄밀한 분석을 통해 그들이 실제로는 상동적 관계가 아니라는 것을 알아낼 수 있습니다. 생물학 연구에서 이 두 가지 개념을 정확히 구분하는 것이 매우 중요한 이유입니다.
이렇게 homology와 similarity는 닮은 듯 보이지만 개념적으로 큰 차이가 있습니다. 생물체 간의 유사성을 발견하고, 그 기원이 공통조상에서 비롯된 진화적 연관성인지 아니면 단순한 우연의 일치인지를 구분하는 것이 생명과학 연구의 핵심입니다.


clovr-x

1. 논문 업로드 요약문

이 논문은 유사성 검색이 효과적이고 신뢰할 수 있는 방법이며, homology와 similarity의 개념이 종종 오해를 불러일으킨다는 것을 밝히고 있다.
1. 유사성 검색은 진화적 조상을 공유하는 시퀀스를 찾는 데 효과적이다.
2. Homology는 protein과 DNA sequences의 computational analyses에 중심이 되는 개념이다.
3. Homologous sequences는 statistically significant sequence similarity를 찾을 때 homologous가 된다.
4. Homology는 excess similarity로부터 추론되며 excess similarity는 statistical estimates로부터 인식된다.
5. 유사성 점수 행렬과 alignment overextension의 관계는 Unit 3.5에서 논의된다.
6. 대부분의 연구자들은 homology를 "percent identity"의 관점에서 설명하는 것을 더 선호한다.

2. homology(상동성)와 similarity(유사성)를 설명해줘

homology와 similarity는 다음과 같이 설명할 수 있습니다.
1. Homology
- 공통 진화적 조상을 의미하는 용어로, 두 개의 시퀀스나 구조가 독립적으로 발생하지 않고 공통 조상으로부터 발생했을 때 homology가 있다고 판단됩니다.
- Homologous sequences는 statistically significant sequence similarity를 찾을 때 homologous가 됩니다.
2. Similarity
- 두 개의 시퀀스나 구조가 유사한 정도를 나타내는 용어입니다.
- 유사성은 주로 sequence similarity나 structural similarity를 기반으로 측정됩니다.
- 유사성 검색은 두 개의 시퀀스나 구조가 얼마나 유사한지를 측정하여, 유사성이 높은 경우에는 homologous일 가능성이 높다는 것을 추론합니다.
Homology와 similarity는 생물학에서 중요한 개념으로, 유전자 분석이나 단백질 구조 분석 등에서 많이 사용됩니다. 유사성 검색은 이러한 분석에서 매우 중요한 역할을 합니다. 하지만, 유사성 검색이 항상 정확한 것은 아니며, 여러 가지 요인에 따라 결과가 달라질 수 있습니다. 따라서, 유사성 검색 결과를 해석할 때는 주의가 필요합니다.

3. 블로그에 게시할 글 좀 써줘

생명공학을 전공하지 않은 일반인이 homology와 similarity를 이해하기 어려울 수 있습니다. 이 경우에는 다음과 같은 방법으로 설명할 수 있습니다.
1. Homology와 similarity의 개념을 설명합니다.
- Homology는 공통 진화적 조상을 의미하는 용어로, 두 개의 시퀀스나 구조가 독립적으로 발생하지 않고 공통 조상으로부터 발생했을 때 homology가 있다고 판단됩니다.
- Similarity는 두 개의 시퀀스나 구조가 유사한 정도를 나타내는 용어입니다.
2. Homology와 similarity의 활용 분야를 설명합니다.
- Homology와 similarity는 생물학에서 중요한 개념으로, 유전자 분석이나 단백질 구조 분석 등에서 많이 사용됩니다.
3. 유사성 검색의 중요성을 설명합니다.
- 유사성 검색은 두 개의 시퀀스나 구조가 얼마나 유사한지를 측정하여, 유사성이 높은 경우에는 homologous일 가능성이 높다는 것을 추론합니다.
위의 방법을 참고하여, 생명공학을 전공하지 않은 일반인에게 homology와 similarity와 관련된 내용을 설명하는 글을 작성할 수 있습니다.
게시할 글을 써달라고 하니 이렇게 작성하면 된다고 하네요;;


그렇다고 합니다.

역시 claude가 잘 알아 먹고 잘 정리하는 듯 합니다.


출처: @ye._.vely618


목요일, 5월 02, 2024

Open Dart 활용하기 (1)

오늘은 전공 대신에 데이터 수집 관련한 내용을 올리려고 합니다.

데이터 수집 하는 테스트 하는데에 주식정보 만큼 좋은게 없어서 한번 

투자공부하는 겸사겸사 dart 사이트에 제공하는 open dart를 활용하는 사용기를 시리즈로 올려보려고 합니다.

오늘은 그중에서 첫번째로 보통 국내 주식은 6자리 숫자 코드로 되어 있는데 open dart에서는 8자리의 별도 기업 코드를 사용하고 있어서 먼저, 그 기업코드를 확보해보도록 하겠습니다.

기업코드는 zip파일로 제공되고 있다고 >여기<에서 설명하고 있습니다.

결론적으로 API Key를 발급받아 crtfc_key=항목에 넣어주고 브라우저의 주소창에 넣어주면

corpCode.xml 파일을 다운로드 받을 수 있습니다.

https://opendart.fss.or.kr/api/corpCode.xml?crtfc_key=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

저장된 파일은 corpCode.xml이라고 하지만 사실은 zip로 압축된 파일!!

파일이름을 corpCode.xml에서 corpCode.zip 으로 변경해주고 압축을 해제하면 우리가 찾는 기업코드를 품고 있는 xml파일을 확인할 수 있습니다.

이 xml 파일에는 약 10만개정도의 기업코드가 기록되어 있는데.. 이는 상장회사 뿐만 아니라 dart에 공시를 올리는 모든 회사의를 구별하기 위한 코드입니다.


xml파일에서 필요한 정보(기업코드)를 뽑아서 tab delimited 파일을 생성하는 스크립트를 작성해보도록 하겠습니다.


import xml.etree.ElementTree as ET

# XML 파일 읽기

tree = ET.parse("CORPCODE.xml")

root = tree.getroot()

# 결과를 저장할 딕셔너리 생성

result = {}

# XML 파일의 각 리스트 항목을 순회

for item in root.findall("list"):

    # 회사 이름, 회사 코드, 주식 코드 추출

    corp_name = item.find("corp_name").text

    corp_code = item.find("corp_code").text

    stock_code = item.find("stock_code").text

    # 딕셔너리에 추가

    if stock_code.strip() == '':

        stock_code = '-'

    else:

        pass   

    result[corp_code] = {"corp_name":corp_name, "stock_code": stock_code}

ow = open('CORPCODE.txt','w')

for key, value in result.items():

    #print (f"{value['stock_code']}\t{value['corp_name']}\t{key}")

    ow.write(f"{value['stock_code']}\t{value['corp_name']}\t{key}\n")

ow.close()

    

상장사의 경우 주식코드, 회사명, 기업코드 정보들 담은 CORPCODE.txt 파일을 생성 할 수 있습니다.

다음번에는 조금 더 유용한 코드를 가지고 다시 돌아오도록 하겠습니다. :)


출처: @ye._.vely618 


일요일, 4월 28, 2024

NCBI API Key 발급받기

생명정보학을 하는 사람뿐만 아니라 생명공학을 전공하는 공부하는 사람들은 NCBI를 활용하지 않을 수 없는 시대에 왔습니다.

아마 생명공학을 전공한다면 이전에는 하얀까운 입고 클린벤치앞에서 파이펫가지고 실험하는 생각이 지배적이었는데 조만간 컴퓨터 화면앞에서 까만 화면앞이나 웹사이트를 이리저리 오가면서 분석하는 것이 더 익숙해질지도 모르겠습니다.

그래서 오늘은 오랜만에 NCBI를 활용할 때 대량의 데이터를 다운받을 때 API를 사용할 수 있게 해주는 API Key를 발급받는 방법을...

사실 저도 API Key를 받아가면서 다운로드 받지 않았는데..

이제는 그러지 않고는 NCBI에서 너님좀 그만 접속해라는 status만 return하고 정작 제가 원하는 자료들은 넘어오지 않아서 API Key를 발급 받을 수 밖에 없었습니다. 

Orz

여튼 그래서 구글님에서 "NCBI의 API Key를 발급 받으려면 어떻게 해야하나요?"

라고 검색해보면 다음과 같은 링크하나 떨궈 줍니다.

> 여기요 <

위에 URL에 나와있는 대로 회원 가입하고 발급받으시면 됩니다. :)

혹시나하고 아래와 같이 스샷들을 첨부하였읜 참고해서 잘 받으시기 바랍니다.


목록중에 있는 외부 계정 활용해서 로그인 하시면 되겠습니다. 전 구글을 잘 이용합니다.


브라우저에 구글 계정이 설정되어 있으면 이 계정으로 계속 할꺼야? 라고 물어봅니다. 다른 계정하고 싶으시면 아래 [다른 계정 사용]을 클릭해서 진행 하시면 되겠습니다.


그럼 선택하신 계정을 사용해서 nih.gov 서비스를 사용하실 수 있게 됩니다. [계속] 버튼을 클릭하시면 되겠습니다.


새로 계정 만들래, 기존 계정에 연결할래? 음.. 계정 생성의 복잡도를 생각해서 그냥 새로 계정을 만드시는게 편하지 않을까합니다. 


축하드립니다. NCBI 계정을 본인 계정을 사용해서 로그인 하실 수 있게 되었습니다.

단, 우리의 목적은 NCBI 계정 탈.. 생성이 아니라 API Key 발급이었죠? 상단 우측의 Accout를 클릭하면 [Account Settings] 라는 메뉴에 들어갈 수 있습니다.

현재 API Key가 없는 것을 알 수 있고, 친절히 [Creat API Keys] 버튼이 큼직만하게 있습니다. 이 버튼을 클릭하시면...

그냥 API Key가 만들어집니다. :)



그럼 주말 저녁 잘 마무리하시기 바랍니다. :)







출처: @ye._.vely618


목요일, 4월 25, 2024

CNV 어디까지 알아보고 오셨나요?

오늘도 UK Biobank 자료를 활용한 자료를 가져와봤습니다.

제목은 Protein-altering variants at copy number-variable regions influence diverse human phenotypes이고, CNV에 대한 내용인데, 24년도 갱장히 따끈따끈합니다.  :)

doi는 10.1038/s41588-024-01684-z 입니다.

최근에는 clova-x만 활용했는데, 자주 사용하다 보니 clova-x도 개조식으로 설명하는 행태가 보여서 gemini를 다시 사용해봤습니다. 그랬더니 gemini가 좀 서술식으로 설명을 해주더라구요. 

다음은 clova-X와 gemini에게 논문 내용 설명해줘라고 요청한 결과 입니다.


gemini
Hujoel et al.는 UK Biobank (UKB)를 통해 발견된 새로운 유전자-형질 관계를 연구한 논문을 발표했습니다. 그들은 100bp 해상도로 단백질을 변형시키는 CNV를 감지하기 위한 새로운 유형의 접근 방식을 사용했습니다. 이 접근 방식은 이전 방법보다 더 많은 CNV를 감지할 수 있게 해주었습니다.

연구진은 CNV가 키, 혈압, 제2형 당뇨병 위험 및 크로노타입과 같은 다양한 특성에 관련되어 있음을 발견했습니다. 또한, 신속하게 진화하는 유전자군 내의 CNV가 이러한 특성에 대한 변이의 가장 큰 기여를 한다고 발견했습니다.

연구의 가장 흥미로운 발견 중 하나는 RGL3 유전자의 엑손 6 일부를 삭제하는 저빈도 삭제가 혈압을 낮추는 것과 관련이 있다는 것입니다. 이 삭제는 공통적인 RGL3 돌연변이보다 혈압에 더 큰 영향을 미쳤습니다. 삭제는 또한 혈청 칼슘 수치 감소와 관련이 있었습니다.

저자들은 이러한 발견이 지금까지 대규모 분석에서 벗어났던 유전적 변이로부터 새로운 유전적 통찰력을 제공할 수 있는 잠재력을 보여준다고 결론지었습니다.

연구의 구체적인 발견은 다음과 같습니다.

* 연구진은 UKB의 전장 유전체 시퀀싱 데이터에서 개인당 평균 93.4개의 CNV를 발견했습니다. 이는 최근 UKB WES의 중간 릴리스 분석에 비해 두 배 증가한 수치입니다.
* 대부분의 삭제와 대략 절반의 중복은 최대 한 개의 엑손을 영향을 미쳤습니다.
* 가장 영향력 있는 변이는 드문 경우였습니다. 18,651개의 유전자 중에서 전체 유전자 중복과 LOF를 일으킬 것으로 예측되는 CNV는 각각 중간 8개와 11개에서 발견되었습니다.
* RGL3 유전자의 엑손 6 일부를 삭제하는 저빈도 삭제가 혈압을 낮추는 것과 관련이 있었습니다. 삭제는 또한 혈청 칼슘 수치 감소와 관련이 있었습니다.
* 연구진은 일반적인 CNV를 감지하기 위한 새로운 접근 방식을 개발했습니다. 이 접근 방식은 41,042개의 유전적 영역에서 일반적인 CNV를 감지했습니다. 이러한 일반적으로 CNV 변이가 있는 영역은 11%의 상염색체 유전자의 코딩 엑손과 겹쳤습니다.

저자들은 이러한 발견이 인간 질병의 유전적 기초에 대한 새로운 통찰력을 제공할 수 있다고 제안합니다.

이 연구의 결과는 다음과 같습니다.

* CNV는 키, 혈압, 제2형 당뇨병 위험 및 크로노타입과 같은 다양한 특성에 관련되어 있습니다.
* 신속하게 진화하는 유전자군 내의 CNV가 이러한 특성에 대한 변이의 가장 큰 기여를 한다고 연구진은 발견했습니다.
* RGL3 유전자의 엑손 6 일부를 삭제하는 저빈도 삭제가 혈압을 낮추는 것과 관련이 있다는 것이 연구의 가장 흥미로운 발견 중 하나입니다.

이러한 발견은 이전에 알려지지 않은 유전적 요인이 인간의 건강과 질병에 영향을 미칠 수 있음을 시사합니다.

clova-x 
본 연구는 CNVs가 인간 유전자 발현과 표현형에 미치는 영향을 조사하였다.
1. CNVs는 인간 유전자 발현에 영향을 미치며, 이는 질병과 관련될 수 있다.
2. CNVs는 단백질 코딩 변이를 유발하며, 이로 인해 다양한 표현형에 영향을 미칠 수 있다.
3. 이번 연구에서는 haplotypeinformed methods를 이용하여 proteinaltering CNVs를 탐지하고 분석하였다.
4. Gene LOF에 대한 proteincoding variation은 인간의 유전적 변이에 대한 새로운 통찰력을 제공한다.
5. CNVs의 영향을 평가하기 위해서는 인간의 유전자형을 분석해야 하며, 이를 위해 SNP 배열과 전체 유전체 시퀀싱 데이터가 필요하다.
6. 이번 연구에서는 negative binomial distributions를 이용하여 model exome sequencing read counts를 model 하였다.

 이 연구의 의의는 다음과 같습니다.

1. 대규모 인구 기반 연구를 통해 CNVs와 질병의 연관성을 확인하였습니다.
2. CNVs와 관련된 유전자와 단백질 코딩 변이를 식별하였습니다.
3. CNVs가 인간 유전자 발현과 표현형에 미치는 영향을 확인하였습니다.

이 연구 결과는 CNVs와 질병의 연관성을 이해하는 데 도움이 되며, 질병 예방 및 치료에 활용될 수 있는 정보를 제공합니다. 또한, 이 연구는 유전체 연구의 발전에 기여하며, 인간 유전자와 질병의 관계를 밝히는 데 중요한 역할을 합니다.

이전에 gemini가 개조식으로 답변을 줘서 clova-x를 사용해봤는데, 이제는 다시 gemini의 답변이 좀 갠춘해 보입니다.

여튼 UK Biobank 접근해서 한번 데이터를 다뤄보고 싶긴합니다.
어떻게 데이터를 모아놓은것이길래 이런 연구도 가능한건지... 
절래절래 (.. )( ..)(.. )( ..) 


출처: @ye._.vely618

목요일, 4월 18, 2024

UK Biobank 데이터 활용하면 어떤것을 할 수 있을까?

오늘은 많은 국가의 BioBank 사업에 귀감이 되고 있는 UK BioBank를 활용한 논문을 한번 가져와봤습니다. 

당연히 UK BioBank 데이터를 활용한 논문은 어마 무시하게 많이 있습니다.

그중에서 이 Effects of protein-coding variants on blood metabolite measurements and clinical biomarkers in the UK Biobank 논문을 가져온 이유는 그냥 최근에 나왔으니깐요 ㅎㅎ 

DOI: 10.1016/j.ajhg.2023.02.002


오늘도 역시 clova-x에게 물어보았습니다.

이 연구는 단백질 코딩 변이가 혈액 대사물 측정과 임상 바이오마커에 미치는 영향을 분석한 것으로, 다음과 같은 내용을 포함하고 있습니다.

1. 412,393 영국 바이오뱅크 샘플을 분석하여 희귀 변이와 대사물 측정 간의 연관성을 발견하였습니다.

2. 유전자 레벨 붕괴 분석을 통해 희귀 변이의 영향을 평가하였습니다.

3. 나이트릴 혈액 대사 측정과 임상 혈액 바이오마커에 대한 205개의 유전자와 331개의 유전자가 유의미한 연관성을 가진 것으로 나타났습니다.

4. 이 연구는 새로운 생물학적 통찰력을 제공하며, 확립된 질병 메커니즘에 대한 이해도 깊어질 수 있습니다.

5. 기존 GWAS에서 발견되지 않은 40%의 유의미한 임상 바이오마커 연관성이 존재합니다.

6. 희귀 단백질 코딩 변이형은 큰 효과 크기와 기능적 영향을 가지며, 유전체 시퀀스의 가용성으로 이전에 보고되지 않은 연관성을 확인할 수 있습니다.


이 연구는 단백질 코딩 변이와 혈액 대사물 측정, 임상 바이오마커 간의 연관성을 분석하여 희귀 변이의 영향을 평가하고, 새로운 생물학적 통찰력을 제공하는 것을 목적으로 합니다. 기존의 GWAS에서 발견되지 않은 40%의 유의미한 임상 바이오마커 연관성이 존재하며, 이를 통해 기존에 알려지지 않은 질병 메커니즘을 이해하는 데 도움이 될 수 있습니다.

대규모의 샘플을 분석하여 희귀 변이와 대사물 측정 간의 연관성을 발견하였으며, 이를 통해 희귀 변이의 영향을 평가하고, 새로운 생물학적 통찰력을 제공하는 데 기여하였습니다. 또한 유전체 시퀀스의 가용성으로 이전에 보고되지 않은 연관성을 확인할 수 있으며, 이를 통해 질병 예방과 치료에 대한 새로운 접근 방법을 개발하는 데 도움이 될 수 있습니다.

그리고 다양한 유전자 레벨 붕괴 분석을 통해 희귀 변이의 영향을 평가하였으며, 이를 통해 질병 예방과 치료에 대한 새로운 접근 방법을 개발하는 데 도움이 될 수 있습니다. 또한, 이 연구는 나이트릴 혈액 대사 측정과 임상 혈액 바이오마커에 대한 유전자와 유의미한 연관성을 발견하였으며, 이를 통해 질병 예방과 치료에 대한 새로운 접근 방법을 개발하는 데 도움이 될 수 있습니다.

이 연구는 단백질 코딩 변이와 혈액 대사물 측정, 임상 바이오마커 간의 연관성을 분석하여 희귀 변이의 영향을 평가하고, 새로운 생물학적 통찰력을 제공하는 것을 목적으로 합니다. 기존의 GWAS에서 발견되지 않은 40%의 유의미한 임상 바이오마커 연관성이 존재하며, 이를 통해 기존에 알려지지 않은 질병 메커니즘을 이해하는 데 도움이 될 수 있습니다.

이 논문은 생명공학 분야에서 중요한 연구 결과를 담고 있으며, 생명공학을 전공하지 않은 사람들도 이 논문을 통해 혈액 대사물 측정과 단백질 코딩 변이의 관계를 이해하고, 질병 예방과 치료에 대한 정보를 얻을 수 있습니다.

이 논문을 이해하기 위해서는 생명공학에 대한 기본적인 지식이 필요합니다. 생명공학에 대한 기본적인 지식이 없는 경우에는 이 논문을 이해하기 어려울 수 있습니다. 이 경우에는 생명공학에 대한 기초적인 지식을 학습하고, 이 논문을 다시 읽어보는 것이 좋습니다.


결론: 응? 무엇을 요약했는지 무슨 말인지 하나도 모르겠다.

아니 생명공학에 대한 기본 지식이 있는 전공자가 귀찮아서 생명공학을 전공하지 않은 사람들에게 설명하는 글을 작성해달라고 clova-x를 돌렸는데 기초지식을 학습하고 다시 논문을 읽어보라니.... 요놈 보소

결국 UK Biobank는 아이디어만 있으면 할 수 있는게 무궁무진 하다는 것 되겠습니다.




출처: @ye._.vely618


토요일, 4월 13, 2024

ONT, cfDNA 그리고 Methylation

나노포어를 이용해서 cell-free DNA의 메틸레이션 패턴을 분석한 논문이 있어서 한번 가져와봤습니다.
이번에는 제목은 어떻게 쓰면 좋을지 한번 물어보았습니다.

제목 답변

해당 연구의 제목은 "Detecting cell-of-origin and cancer-specific methylation features of cell-free DNA from Nanopore sequencing"입니다. 이 제목은 세포유리 DNA의 메틸화 패턴을 분석하여 암세포에서 유래한 세포유리 DNA를 식별하는 방법을 개발한 연구라는 것을 나타내고 있습니다. 이 연구는 생명공학 분야에서 매우 중요한 연구 중 하나이며, 세포유리 DNA의 메틸화 패턴을 분석하는 기술은 암 진단과 치료에 큰 도움을 줄 수 있습니다.
"세포유리 DNA의 메틸화 패턴을 이용한 암 진단 연구"와 같은 제목을 사용할 수 있습니다. 이 글에서는 연구의 목적과 방법, 결과 등을 소개하고, 세포유리 DNA의 메틸화 패턴이 암 진단에 어떻게 활용될 수 있는 지에 대해 설명할 수 있습니다.

내용 요약

이 연구는 세포유리 DNA의 메틸화 패턴을 분석하여 암을 진단하고 모니터링하는 방법을 개발하는 것을 목적으로 합니다. 암은 우리 주변에서 매우 흔하게 발생하는 질병 중 하나이며, 암을 조기에 발견하고 치료하는 것은 매우 중요합니다. 세포유리 DNA의 메틸화 패턴을 분석하는 기술은 암을 조기에 발견하고 치료하는 데 큰 도움을 줄 수 있습니다.

세포유리 DNA는 혈액 내에 존재하는 DNA 조각으로, 암세포에서 유래한 것일 수 있습니다. 이 연구에서는 세포유리 DNA의 메틸화 패턴을 분석하여 암세포에서 유래한 세포유리 DNA를 식별하는 방법을 개발하였습니다. 이를 위해 Nanopore sequencing 기술을 사용하여 세포유리 DNA의 염기서열을 분석하고, DNA methylation 분석을 수행하였습니다.

연구 결과, 세포유리 DNA의 메틸화 패턴은 암세포에서 유래한 세포유리 DNA와 건강한 세포에서 유래한 세포유리 DNA에서 차이가 있음을 확인하였습니다. 이는 세포유리 DNA의 메틸화 패턴을 분석하여 암을 진단할 수 있는 가능성을 보여줍니다. 또한, 이 연구는 세포유리 DNA의 메틸화 패턴이 시간에 따라 변화한다는 것을 발견하였습니다. 이는 암의 진행 상황을 모니터링하는 데 유용한 정보를 제공할 수 있습니다.

이 연구는 세포유리 DNA의 메틸화 패턴을 분석하여 암을 진단하고 모니터링하는 데 새로운 가능성을 제시한 것으로 평가됩니다. 이 연구 결과를 바탕으로, 세포유리 DNA의 메틸화 패턴을 분석하는 기술이 발전하면 암 진단과 치료에 더욱 효과적인 방법이 개발될 것으로 기대됩니다.

이 연구는 생명공학 분야에서 매우 중요한 연구 중 하나입니다. 세포유리 DNA의 메틸화 패턴을 분석하는 기술은 암 진단과 치료에 큰 도움을 줄 수 있으며, 미래에는 더욱 발전하여 다양한 질병을 진단하고 치료하는 데 활용될 수 있을 것입니다. 또한 미래의 건강과 의료 산업에 큰 영향을 미칠 것이며, 우리의 삶을 더욱 건강하고 안전하게 만들어줄 것입니다.

요약해줘 하니깐, 그래 이 연구는 중요해, 중요하니깐 중요해만 반복적으로 답변하는 느낌은 어쩔 수 없는듯합니다. 디테일 한 연구 내용을 확인하려면 질문을 계속 해서 확인해야 할 듯 합니다.

다시 잠깐 더 살펴보자면 단순히 ONT로 실험한 것이 아니고 기존의 표준실험 방법인 WGBS(Whole Genome Bisulfite Sequencing)와 비교한 데이터로 ONT로 연구해도 cfDNA의 메틸레이션을 확인 할 수 있다라고 주장하고 있는데... 생각해보면 cfDNA는 long read 시퀀서의 대명사인 ONT를 사용할 매력이 반감되기는 하나 native한 methylation을 볼 수 있다는 또 다른 압도적인 장점이 존재하다 보니..
그러나 보통 cfDNA가 150bp 이내의 짧은 것들만 생각하나 di나 tri-nucleosome도 함께 확인 할 수 있기 때문에... di나 tir nucleosome은 300~400bp 이상의 길이가 있기 때문에, 꼭 ONT의 매력이 반감되지는 않을 듯 합니다.
근데 di-, tri-nucleosome이 왜 중요한지는 제가 공부를 아직 안 해서 잘 모르겠습니다.
나중에 공부하게 되면 다시 글을 하나 써보는 걸로 :)


수요일, 4월 10, 2024

리듬 속의 장내미생물

오늘은 클로바에게 최근에 나온 논문으로 글을 써달라고 해보려고 합니다.

이름하여 "Diurnal rhythmicity of infant fecal microbiota and metabolites: A randomized controlled interventional trial with infant formula" 라는 논문으로 Cell Host & Micobe에 출판되었다고 합니다.

doi: 10.1016/j.chom.2024.02.015


clova-x에 파일을 업로드 하면 기본적으로 뱉어내는 내용은 다음과 같습니다.

  • 이번 연구는 210명의 유아를 대상으로 무작위, 대조군 개입 시험을 진행하였으며, 마이크로바이옴 프로파일이 주로 연령에 따라 적응한다는 것을 밝혀냄.
  • 갈락토올리고당은 비피도박테리움의 수준을 높게 유지시키는 것으로 밝혀짐.
  • 장내 세균총의 구성은 주로 나이에 영향을 받으며, 식습관에 따라 달라질 수 있음.
  • circadian rhythms의 존재는 완전히 알려지지 않았으며, circadian clocks는 24시간 리듬을 조절함.
  • circadian crosstalk between bacteria and the host는 소화기 건강과 대사에 영향을 미침.
  • 대사 산물은 feeding groups에 따라 명확하게 다르며, diurnal rhythmicity를 보여줌.
  • 이러한 결과는 circadian regulation이 생애 초기에 시작되며, 유아 마이크로바이옴에 기능적으로 기여할 수 있다는 가설을 뒷받침함.
  • 유아 마이크로바이옴의 일주기 리듬 발달은 나이와 formula supplementation에 영향을 받음.
  • 다양한 방법을 통해 얻은 데이터를 종합하여 분석한 결과, 유의미한 결과를 도출함.
  • 해당 논문은 circadian regulation이 생애 초기에 시작되며, 유아 마이크로바이옴에 기능적으로 기여할 수 있다는 가설을 뒷받침함.
  • 더 많은 연구를 통해 circadian rhythms과 관련된 추가적인 정보를 얻을 필요가 있음.


clova-x에게 조금 더 자세히 블로그에 올릴 글을 하나 작성해 달라고 하였습니다.

해당 논문은 유아의 마이크로바이옴과 circadian rhythms의 연관성을 조사한 연구로, 마이크로바이옴과 circadian rhythms의 상호작용을 이해하는 데 도움이 될 것입니다. 유아의 마이크로바이옴의 일주기 리듬 발달에 영향을 미치는 요인을 파악하여, 유아의 건강을 증진하는 데 도움이 될 것입니다. 장내미생물은 마이크로바이옴의 일부로, 장 내에 존재하며 음식물의 소화와 흡수, 면역 기능 등에 중요한 역할을 합니다.

해당 연구에서는 210명의 유아(이 유아 아님)를 대상으로 유아의 마이크로바이옴이 주로 연령에 따라 적응하며, 식습관에 따라 달라질 수 있다는 것을 밝혀냈습니다. circadian rhythms의 존재는 완전히 알려지지 않았지만, circadian clocks는 24시간 리듬을 조절하며, Host(사람)과 Bacteria(장내미생물)간의 circadian crosstalk은 소화기 건강과 대사에 영향을 미치는 것으로 나타났고, 장내미생물의 circadian rhythms은 인간의 건강에 영향을 미칠 수 있습니다.

그리고 feeding group에 따라 circadian rhythms이 달라질 수 있습니다. 이는 feeding group에 따라 장내 미생물의 구성이 다르기 때문입니다. 예를 들어, 모유를 먹는 유아와 분유를 먹는 유아는 장내 미생물의 구성이 다릅니다. 모유를 먹는 유아는 Enterobacteriaceae와 Bifidobacterium이 풍부하고, 분유를 먹는 유아는 Clostridium과 Bacteroides가 풍부합니다. 이러한 차이가 circadian rhythms에도 영향을 미치는 것으로 알려져 있습니다.

해당 연구는 유아의 마이크로바이옴과 circadian rhythms의 연관성을 조사한 연구로, 마이크로바이옴과 circadian rhythms의 상호작용을 이해하는 데 도움이 될 것입니다. 유아의 마이크로바이옴의 일주기 리듬 발달에 영향을 미치는 요인을 파악하여, 유아의 건강을 증진, 더 나아가서는 인류의 건강을 증진하는 데도 활용 될 수 있습니다.


라고 작성해 주었습니다.

clova-x도 특화되어 있는 내용이나 전문적인 주제에 대해서 학습이나 표현이 제한적이어서 그런 것인지 비슷한 말을 반복해서 얘기하는 문장들이 gemini처럼 증가하는 것은 느낌적인 느낌이라고 생각하고 싶습니다.

그래도 gemini처럼 이따금씩 다른 내용을 읆지는 않아서 좋은 것 같습니다. :)



출처: @ye._.vely618


목요일, 4월 04, 2024

병원 내 감염을 NGS로 검사하겠다는데 과연 저렴할까?

 오늘은 지난 3월 말에 genomeweb에 소개된 논문을 가져와 봤습니다.

기사링크: Sequencing Surveillance Improves Outbreak Detection in Hospital at 'Affordable' Costs

논문은 Methods for cost-efficient, whole genome sequencing surveillance for enhanced detection of outbreaks in a hospital setting으로 아직 정식 출판되지는 않았으나 medRxiv에 올라와 있으나 어디 좋은 출판사가 발굴해서 곧 제자리 찾아가겠죠

오늘은 gemini대신 clover-x에게만 물어봤습니다. gemini에게 써달라고 해봤자 개조식으로밖에 안써주기 때문에... 


병원 내 감염은 병원에서 발생하는 감염으로, 환자의 건강과 생명에 큰 영향을 미칩니다. 이를 예방하기 위해서는 감염을 조기에 탐지하고 신속하게 대응하는 것이 중요합니다. 최근에는 유전체 분석 기술을 이용하여 병원 내 감염을 예방하는 연구가 진행되고 있습니다.

유전체 분석 기술은 유전체 전체를 해독하는 기술로, 미생물의 유전체 정보를 분석하여 병원체의 종류, 유전적 변이, 역학적 정보 등을 파악할 수 있습니다. 이를 통해 병원 내 감염을 예방하는 방법은 다음과 같습니다.

병원체 종류 확인: 유전체 분석 기술을 통해 병원체의 유전체 정보를 분석하여 병원체의 종류를 확인할 수 있습니다. 이를 통해 어떤 종류의 병원체가 감염을 일으켰는지 파악할 수 있습니다.

유전적 변이 확인: 유전체 분석 기술을 통해 병원체의 유전적 변이를 확인할 수 있습니다. 유전적 변이는 병원체의 감염력, 독성, 내성 등에 영향을 미치기 때문에, 유전적 변이를 파악하면 병원체의 특성을 이해하고, 적절한 치료 방법을 선택할 수 있습니다.

역학적 정보 확인: 유전체 분석 기술을 통해 병원체의 역학적 정보를 확인할 수 있습니다. 역학적 정보는 병원체의 전파 경로, 감염원, 감염 시기 등을 파악하는 데 중요한 역할을 합니다. 이를 통해 병원 내 감염의 원인을 파악하고, 감염 확산을 방지할 수 있습니다.

감염 클러스터 확인: 유전체 분석 기술을 통해 감염 클러스터를 확인할 수 있습니다. 감염 클러스터는 동일한 병원체에 감염된 환자들이 모여 있는 그룹을 말합니다. 감염 클러스터를 확인하면, 해당 그룹의 환자들에게 적절한 치료와 예방 조치를 취할 수 있습니다.

전염 경로 추적: 유전체 분석 기술을 통해 전염 경로를 추적할 수 있습니다. 이를 통해 감염이 어떻게 전파되었는지 파악하고, 감염 확산을 방지할 수 있습니다.

유전체 분석 기술을 이용한 병원 내 감염 예방 연구는 아직 초기 단계이지만, 이 기술을 이용하여 주기적으로 검사를 진행하여 병원 내 감염을 예방하고, 적시에 필요한 내용을 제공하여 환자의 안전을 보호할 수 있을 것으로 기대됩니다.


제목에는 "저렴한"이 강조되어 있으나 요약 내용에는 숫자 부분이 빠져있는 것이 조금 아쉬울 따름입니다. 그래서 잠깐 언급하자면

MiSeq(32개샘플 기준)은 샘플당 $84.27, NextSeq의 경우는 48개 검채 기준으로는 샘플 당 $71.46, 96검체 기준으로는 샘당 $51.88로 예상되고 일반 외부 랩실에 맡긴다면 샘플당 $84.21 비용을 계산하고 있는데.. 이게 인건비들은 포함된것인지 살짝 갸우뚱하네요 

검사하는 주기나 얼마나 많은 샘플을 대상으로 분석 할 것인지 가이드라인을 잘 세우면 저렴하면서 효율적인 의료기관내 감염(HAI) 모니터링이 요원하지는 않을 것 같다는 생각입니다.

개인적으로 이 모델이 미래 NGS의 한 축이 되지 않을까 하는 생각도 있어서 한번 공유해보았습니다.

다음에 또 도움이 될만한 내용으로 찾아뵙도록 하겠습니다.




출처: @ye._.vely618

화요일, 4월 02, 2024

누가 누가 BRCA를 잘 검사할까?

근데.. 그걸 논하기에는 2018년 논문이라서.. 의미가 있을지는 모르겠지만..

NGS를 이용한 BRCA1/2 Kit을 가지고 상호 벤치마킹 한 결과 되겠습니다.

논문 제목은 Benchmarking of Amplicon-Based Next-Generation Sequencing Panels Combined with Bioinformatics Solutions for Germline BRCA1 and BRCA2 Alteration Detection 이고,

doi는 10.1016/j.jmoldx.2018.06.003 입니다.


우선 gemini에게 논문 내용을 바탕으로 블로그에 올릴 글을 작성해달라고 했습니다.


## BRCA 검사란 무엇일까요?

BRCA 검사는 유방암과 난소암 발병 위험을 높일 수 있는 BRCA1 및 BRCA2 유전자의 돌연변이를 확인하는 검사입니다. BRCA 유전자는 DNA 손상을 복구하는 데 중요한 역할을 하는데, 이 유전자에 돌연변이가 발생하면 암 발생 위험이 크게 증가할 수 있습니다.


## BRCA 검사 방법에는 어떤 것들이 있을까요?

**1. 혈액 검사:**

가장 일반적인 BRCA 검사 방법입니다. 혈액 검사를 통해 BRCA1 및 BRCA2 유전자의 전체 또는 일부를 분석하여 돌연변이를 확인합니다.

**2. 조직 검사:**

암 진단 후 조직 검사를 통해 BRCA 유전자 돌연변이를 확인할 수 있습니다. 

**3. 가족력 기반 검사:**

가족 중에 유방암이나 난소암 환자가 있는 경우, 가족력 기반 검사를 통해 BRCA 유전자 돌연변이 위험을 평가할 수 있습니다.


## BRCA 검사는 누가 받아야 할까요?

다음과 같은 경우 BRCA 검사를 고려해 볼 수 있습니다.

* 유방암이나 난소암 진단을 받은 경우

* 가족 중에 유방암이나 난소암 환자가 있는 경우

* 유방암 또는 난소암 발병 위험이 높다고 판단되는 경우


## BRCA 검사를 받기 전에 주의해야 할 것들

* BRCA 검사 결과는 암 발병 여부를 확실하게 알려주는 것이 아닙니다.

* BRCA 검사 결과에 따라 심리적인 부담을 느낄 수 있습니다.

* BRCA 검사 결과는 유전 상담을 통해 해석하는 것이 중요합니다.


## BRCA 검사 후 주의해야 할 것들

* BRCA 유전자 돌연변이가 확인된 경우, 정기적인 검진 및 예방 조치를 취해야 합니다.

* BRCA 검사 결과는 가족들에게 공유하는 것이 중요합니다.


## BRCA 검사는 암 예방 및 조기 발견에 중요한 역할을 할 수 있습니다. 그러나 검사를 받기 전에 충분한 정보를 얻고, 유전 상담을 통해 검사 결과를 해석하는 것이 중요합니다.



다음은 clova-x에게 블로그에 올릴 글 하나 작성해달라고 하였습니다.


제목: BRCA 검사, 어떤 방법이 가장 정확할까?

유방암과 난소암은 여성들에게 매우 치명적인 질환입니다. 이러한 질환의 발생 위험을 미리 예측하고 예방하기 위해서는 유전자 검사가 필요합니다. 그 중에서도 BRCA1과 BRCA2 유전자 검사는 유방암과 난소암의 발생 위험을 예측하는 데 매우 중요한 역할을 합니다.

BRCA 검사는 BRCA1과 BRCA2 유전자의 변이를 확인하는 검사입니다. 이 유전자는 유방암과 난소암의 발생에 중요한 역할을 합니다. 만약 이 유전자에 변이가 있다면, 유방암과 난소암의 발생 위험이 높아집니다. 따라서, BRCA 검사를 통해 자신의 유전자 변이 여부를 확인하고, 이에 따라 적절한 예방과 치료를 받을 수 있습니다.

BRCA 검사에는 다양한 방법이 있습니다. 대표적인 방법으로는 다음과 같은 것들이 있습니다.

1.**PCR 기반 검사**: 가장 일반적인 방법으로, 유전자의 특정 부위를 증폭하여 변이 여부를 확인합니다. 검사 비용이 저렴하고, 검사 결과를 빠르게 얻을 수 있습니다. 하지만, 검사 정확도가 다소 떨어질 수 있습니다.

2.**NGS 기반 검사**: 유전자 전체를 시퀀싱하여 변이 여부를 확인합니다. 검사 정확도가 매우 높고, 다양한 종류의 변이를 검출할 수 있습니다. 하지만, 검사 비용이 비싸고, 검사 결과를 얻기까지 시간이 오래 걸립니다.

3.**액세스 배열 기반 검사**: 마이크로어레이 기술을 이용하여 유전자의 변이를 검출합니다. 검사 정확도가 높고, 검사 결과를 빠르게 얻을 수 있습니다. 하지만, 검사 비용이 비싸고, 검사 대상 유전자가 제한적입니다.

BRCA 검사는 유방암과 난소암의 예방과 치료에 매우 중요한 역할을 합니다. 하지만, 검사 결과를 해석하고, 이에 따라 적절한 예방과 치료를 받는 것은 쉽지 않습니다. 따라서, 검사를 받기 전에 전문가의 조언을 듣는 것이 중요합니다.

BRCA 검사는 개인의 유전 정보를 다루는 검사이기 때문에, 검사 결과가 유출될 경우 개인의 사생활 침해 문제가 발생할 수 있습니다. 따라서, 검사를 받을 때는 검사 기관의 보안 시스템을 확인하고, 검사 결과를 안전하게 보관하는 것이 중요합니다.

유방암과 난소암은 여성들에게 매우 치명적인 질병입니다. 하지만, BRCA 검사를 통해 자신의 유전자 변이 여부를 확인하고, 이에 따라 적절한 예방과 치료를 받으면, 이들 질병의 발생 위험을 줄일 수 있습니다. 따라서, 여성들은 BRCA 검사에 대해 적극적으로 관심을 가지고, 전문가의 조언을 듣는 것이 중요합니다.


gemini를 쓰면서 느끼는 것은 답변의 대부분을 개조식으로 요약만 하는 듯 한 느낌을 많이 받았습니다. 난 문장으로 작성해달라고 했는데.. 결국 개조식으로 답변을... 

그리고 이번 같은 경우 구글 드라이브에 논문 파일을 업로드해서 정리하라고 했는데... 논문 내용이 아닌 일반적인 내용을 냅다 읊조리는 듯한 건 저만 느끼는건 아니죠?

반면에 클로바X는 그럭저럭 사용자가 요구한것을 잘 맞추려고 노력한 모습이 역력합니다. 

다만 논문 내용과는 전혀 상관없는 PCR 검사 방법을 언급했는데.. 이건 아마 Ion AmpliSeq BRCA1/2의 AmpliSeq 떄문에 그런것 같아 보입니다. 그리고 추가적인 질문으로 벤치마킹한 패널들에 대해서 자세히 설명하라고 했었는데 이때 다른 BRCA HC와 함께 BRCA Tumor을 설명 할때 BRCA Tumor를 BRCA 조직에서 변이를 분석하는 방법이라고 적어놓는 해프닝도 있었습니다. 아직 도메인 지식이 부족하여 생긴 혼선이지 않았을까하네여, 

그래도 이번 프롬프트에서는 다국적 gemini보다는 사용자가 의도한 대로 결과물을 준 것은 클로바 X 같아 보였습니다. 프롬프터의 실력 향상이 더 필요해 보이긴 합니다. 



출처: @ye._.vely618

토요일, 3월 30, 2024

NGS를 사용할 때 필요한 그 가이드라인

오늘은 AMP(미국분자병리학회)와 CAP(미국병리학회)에서 공동으로 합의한 지침인 "Guidelines for Validation of Next-Generation Sequencing–Based Oncology Panels: A Joint Consensus Recommendation of the Association for Molecular Pathology and College of American Pathologists"을 네이버의 클로바와 gemini에게 각각 물어보았습니다.

doi는 10.1016/j.jmoldx.2017.01.011 입니다.


먼저 gemini입니다.

안녕하세요, 생명공학 전공자가 아닌 분들을 위한 블로그 글을 작성하고자 하시는군요.

제가 찾은 논문은 다음과 같은 내용을 다루고 있습니다.

* **연구 목적과 배경**

이 연구는 다음세대 염기서열 분석(NGS) 기반 종양 패널 검사의 분석적 검증을 위한 최선의 실천 지침을 확립하는 것이 목적이었습니다. 이 연구는 분자 병리학 협회(Association for Molecular Pathology)가 주관하고 미국 병리학회(College of American Pathologists)가 연계 대표를 맡은 작업 그룹이 수행했습니다.

* **연구 방법**

이 연구에서는 NGS 기반 종양 패널 검사의 분석적 검증을 위한 단계별 지침을 제시했습니다. 이러한 단계에는 패널 설계, 라이브러리 준비, 염기서열 분석 및 데이터 분석이 포함됩니다. 또한 참조 자료와 세포주를 사용하여 검사 성능을 평가하는 중요성을 강조했습니다.

* **결과**

이 연구에서는 NGS 기반 종양 패널 검사의 분석적 검증을 위한 다음과 같은 권장 사항을 제시했습니다.

* 오류 기반 접근 방식을 사용하여 잠재적인 오류의 원인을 식별합니다.

* 분석 프로세스 전반에 걸쳐 품질 관리를 사용하여 고품질 염기서열 분석 결과를 보장합니다.

* 참조 세포주와 참조 자료로 검사 성능을 평가합니다.

* 커버리지 깊이와 테스트 성능을 확립하기 위해 사용해야 하는 샘플의 최소 요구 사항을 설정합니다.

* **논의**

이 연구는 NGS 기반 종양 패널 검사의 분석적 검증을 위한 중요한 지침을 제공합니다. 이러한 지침은 검사의 정확성과 신뢰성을 보장하는 데 도움이 됩니다.



다음은 CLOVA X입니다.

NGS 기반 암 패널 테스트의 분석적 유효성 검증을 위한 지침

NGS(Next Generation Sequencing)는 차세대 염기서열 분석 기술로, 유전체 분석에 혁명을 일으키고 있습니다. NGS는 기존의 염기서열 분석 기술보다 빠르고 정확하며, 비용이 저렴하다는 장점이 있습니다. 이러한 이유로 NGS는 암 진단에 빠르게 적용되고 있습니다.

암 진단을 위해서는 암 세포에서 발견되는 유전자 변이를 파악해야 합니다. 이를 위해 NGS 패널을 사용합니다. NGS 패널은 암 세포에서 발견되는 유전자 변이를 탐지할 수 있는 유전자 패널입니다.

NGS 패널을 사용할 때는 분석적 유효성 검증을 해야 합니다. 분석적 유효성 검증은 NGS 패널이 정확하게 유전자 변이를 탐지할 수 있는 지를 검증하는 과정입니다.

이번 논문에서는 NGS 기반 암 패널 테스트의 분석적 유효성 검증을 위한 지침을 제공합니다. 이 지침은 표적 유전자 패널과 고형 종양 및 혈액 악성 종양의 진단 용도에 초점을 맞춥니다.

NGS 패널은 SNVs, indels, deletions, CNAs, SVs, gene fusions 등을 탐지할 수 있습니다. CNAs와 SNVs, indels를 탐지하기 위해 패널을 사용할 수 있는지 고려해야 합니다. SVs는 염색체 재배열을 포함합니다.

NGS 방법은 샘플 준비, 라이브러리 준비, 시퀀싱, 데이터 분석을 포함합니다. NGS 데이터 분석 파이프라인은 SNV 검출, indel containing sequence reads의 정렬, CNAs 식별, SVs detection 등의 작업으로 나뉩니다.

NGS 패널 콘텐츠는 hotspot panels에서 개인 codons에 초점을 맞춘 것부터 수백 개의 유전자의 코딩 영역을 포함하는 것까지 다양합니다. NGS 플랫폼 선정 시 고려해야 할 사항은 turnaround time, 샘플 테스트, sensitivity, 예상되는 테스트 양, 유전 변이의 유형과 복잡성, 생물정보학 지원, 인프라 등입니다.

NGS assay development process에서 error를 평가하는 방법은 pre analytical and analytical factors를 고려하는 것입니다. FFPE samples을 다룰 때는 nucleic acid yield가 문제가 될 수 있으므로 uracil Nglycolase로 treatment를 하는 것이 도움이 됩니다. 라이브러리 준비 시 도서관 방법에 사용된 증폭 오류와 내용 편향의 가능성을 염두에 두고 assay design을 통해 error의 잠재적 근원을 해결해야 합니다.

assay validation을 시작하기 전 optimization and familiarization (O&F) 과정이 필요합니다. optimization and familiarization (O&F) 과정은 NGS test를 통해 design expectations를 충족하는지 평가하는 과정입니다.

NGS 패널을 사용할 때는 분석적 유효성 검증을 해야 합니다. 분석적 유효성 검증은 NGS 패널이 정확하게 유전자 변이를 탐지할 수 있는 지를 검증하는 과정입니다. 이를 통해 NGS 패널의 신뢰성을 높일 수 있습니다.

통계적인 방법을 활용하여 분석적 유효성 검증을 수행합니다. 예를 들어, sensitivity, specificity, positive predictive value, negative predictive value 등의 지표를 사용하여 분석적 유효성 검증을 수행합니다.

NGS 패널을 사용할 때는 분석적 유효성 검증을 반드시 수행해야 합니다. 이를 통해 NGS 패널의 신뢰성을 높이고, 암 진단의 정확성을 높일 수 있습니다.


음.. CLOVA가 생각보다 글을 (블로그처럼 작성한다는... 형식적인 측면에서..) 잘 작성하는 것 같아 보이네요 

gemini는 요약하라고 하면 개조식으로 많이 작성하는 것 같더라구요.

여튼 CLOVA와 gemini를 적절히 잘 섞으면 괜찮은 내용이 나올듯하네요 :)




출처: @ye._.vely618


월요일, 3월 25, 2024

NGS에서 Target Coverage 균일성의 중요성

NGS데이터 생산시 Target Coverage가 들쑥날쑥해도 분석이 잘 될것인가? 라는 것에 대해서 궁금증을 해결해줄 바로 그 논문!!! 

Evaluation of the evenness score in next-generation sequencing라는 제목의 논문이고, 

doi: 10.1038/jhg.2016.21입니다.


gemini에게 다음과 같이 찡찡거려봤습니다.


"왜 NGS에서 타겟 커버리지의 균일성이 중요한지에 대해 블로그에 작성하려고 합니다. 생명공학을 전공하지 않고, NGS에대해서 익숙하지 않은 일반인을 대상으로 블로그에 올릴 수 있는 글을 작성해주세요"

NGS(Next Generation Sequencing)는 DNA 염기 서열을 분석하는 강력한 기술입니다. 마치 책을 읽듯 우리 몸의 유전 정보를 해독하는데 비유할 수 있습니다. 하지만 책을 읽는 데 중요한 것이 모든 페이지를 꼼꼼하게 읽는 것과 마찬가지로, NGS에서도 모든 타겟 영역을 균일하게 분석하는 것이 매우 중요합니다.

왜 타겟 커버리지 균일성이 중요할까요?

정확한 분석 결과: 만약 특정 타겟 영역만 깊게 분석하고 다른 영역은 덜 분석하면, 마치 책의 특정 페이지만 읽고 다른 페이지는 건너뛸 때와 마찬가지로 잘못된 정보를 얻을 수 있습니다. 이는 질병 진단, 유전적 특징 분석 등 NGS 분석의 정확성에 큰 영향을 미칩니다.

데이터 해석의 어려움: 만약 타겟 커버리지가 불균일하다면, 분석된 데이터를 해석하는데 어려움을 겪을 수 있습니다. 마치 책의 페이지가 누락되거나 순서가 뒤바뀌었을 때와 마찬가지로, 데이터의 일관성이 떨어지고 정확한 해석이 어려워집니다.

유전 정보의 누락: 만약 특정 타겟 영역이 분석되지 않으면, 그 영역에 존재하는 중요한 유전 정보를 놓칠 수 있습니다. 마치 책의 특정 페이지가 찢어져 없어졌을 때와 마찬가지로, 유전 정보의 일부가 누락되어 질병 진단이나 유전적 특징 분석에 영향을 미칠 수 있습니다.

NGS에서 타겟 커버리지 균일성을 높이는 방법:

샘플 준비 방법 개선: DNA 샘플을 준비하는 과정에서 오류가 발생하면 타겟 커버리지 불균일성이 발생할 수 있습니다.

시퀀싱 라이브러리 제작 방법 개선: 시퀀싱 라이브러리 제작 과정에서 오류가 발생하면 특정 타겟 영역이 덜 분석될 수 있습니다.

시퀀싱 조건 최적화: 시퀀싱 조건을 최적화하여 모든 타겟 영역을 균일하게 분석하도록 설정합니다.

데이터 분석 방법 개선: 데이터 분석 방법을 개선하여 불균일한 커버리지를 보정하고 정확한 정보를 추출합니다.

결론: NGS에서 타겟 커버리지 균일성은 정확한 분석 결과, 데이터 해석의 용이성, 유전 정보의 누락 방지를 위해 매우 중요합니다. NGS 기술의 발전과 함께 타겟 커버리지 균일성을 높이는 방법들이 계속 연구되고 있으며, 이는 NGS 분석의 정확성과 신뢰성을 향상시키는 데 중요한 역할을 할 것입니다.




음.. 프롬프트를 좀더 신경써봐야 할 것 같습니다.


출처: @ye._.vely618


월요일, 3월 18, 2024

부동산트렌드 따라해보기 1장

오늘은 자료 수집관련하여 글 하나 투척합니다.

최근 "부동산 트렌드"라는 책을 읽고 있어서 강남3구와 노도강에서 거래되었던 자료들이 진짜 그런지 한번 확인해보고자 자료 수집 작업을 위한 것을 한번 로그삼아 남겨보도록 하겠습니다.

국내 부동산 거래 가격은 국토교통부 실거래가 공개시스템에서 확인하실 수있습니다.

안타깝게 막 영화에서 나오는것 처럼 뚝딱 뚝딱 해서 API로 실시간으로 끌어오고 화면에 촤라락 그래피컬하게 하는것은 기대하시면 창을 끄시면되겠습니다.


우선 실거래가 공개시스템에서 [조건별 자료제공] 이라는 사이트로 들어가셔서 시도별 1년단위로 데이터를 다운 받으시면 되겠습니다. 전 우선 서울시와 경기도 데이터만 다운로드 받았습니다. 전국 데이터는 한 달 기준으로 다운로드 받을 수 있다고하니.. 개인이 필요한 데이터에 맞게 다운로드 받으시면 되겠습니다.

그리고 수월한 작업을 위해 엑셀이 아닌 sqlite3에 실거래가 정보들을 모두 때려박아 넣도록 하겠습니다.

다음 코드가 일단 DB에 다 때려박는 코드 되겠습니다.


import csv
import sqlite3


# SQLite 데이터베이스 파일 경로

sqlite_file_path = "real_estate_transactions.db"


# SQLite 연결 객체 생성

connection = sqlite3.connect(sqlite_file_path)


csv_file_path = "아파트(매매)_실거래가_서울특별시_2022.csv"


num = 0

with open(csv_file_path, newline="") as csvfile:   

    reader = csv.reader(csvfile, delimiter=",")

    # 커서 객체 생성

    cursor = connection.cursor()

    for row in reader:        

        if num < 16:

            pass

        else:

            tmp = list()

            for r in row[1:]:

                tmp.append(r.strip())


            cursor.execute("""INSERT OR IGNORE INTO transactions ("시군구","번지","본번","부번","단지명","전용면적","계약년월","계약일","거래금액","동","층","매수자","매도자","건축년도","도로명","해제사유발생일","거래유형","중개사소재지","등기일자") VALUES (?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?)""", (tmp),)

            connection.commit()            


        num+=1

        

# 연결 닫기

connection.close()


다음 시간에는 sqlite3에 있는 정보를 가지고 끄적끄적하는 시간을 가지지 않을까합니다. 




출처: @ye._.vely618


수요일, 3월 13, 2024

Long-read 시대의 정렬 알고리즘

사실 아직 Long-read 시대라고 하기에는 전세계 적으로 생산되는 시퀀싱 데이터의 비율로 보면 꼬꼬마이긴 하나 그래도 비용이나 지금까지의 축적된 자료 활용이라는 몇몇 점들을 제외하면 짧은 애들시대는 조만간 저물지 않을까 합니다.

물론 짧은 애들 또한 계속 필요는 합니다. 그러나 Long read 이전과는 같지 않을 것이기에 Long read 시대를 준비해서 나쁘지는 않을겁니다.

그래서 "A survey of mapping algorithms in the long-reads era" 라는 논문 하나 준비해봤습니다.

DIO: 10.1186/s13059-023-02972-3

시대가 시대이고 영어 읽기 귀찮으니 구글에게 한번 맡겨보았습니다.


Q: 내 드라이브에서"s13059-023-02972-3.pdf" 파일을 읽고 자세히 한글로 요약해줘

서론:

DNA 염기서열 분석은 생명과학 분야의 핵심 기술이며, 롱리드 시퀀싱 기술의 발전은 이 분야에 큰 변화를 가져왔습니다. 롱리드 기술은 기존의 짧은 리드 시퀀싱 기술에 비해 훨씬 더 긴 염기서열 정보를 얻을 수 있지만, 이에 따라 데이터 분석 과정에서도 새로운 문제들이 발생했습니다. 그 중 하나가 롱리드 데이터를 참고 유전체에 매핑하는 과정입니다. 

본 논문에서는 롱리드 시대의 DNA 염기서열 분석에 사용되는 다양한 매핑 알고리즘에 대한 조사 연구 결과를 제시합니다.


1. 롱리드 기술 개요:

롱리드 기술은 10kb 이상의 긴 염기서열 정보를 얻을 수 있는 기술입니다.

롱리드 기술의 장점은 다음과 같습니다.

  • 유전체 구조 변형 (SV) 분석에 유리
  • 단일 분자 haplotyping 가능
  • 염기서열 조립 (assembly) 과정 개선

롱리드 기술의 단점은 다음과 같습니다.

  • 높은 오류율
  • 높은 컴퓨팅 비용


2. 매핑 알고리즘 종류:

롱리드 매핑 알고리즘은 크게 씨앗-확장 (seed-and-extend) 프레임워크와 씨앗-체인 (seed-and-chain) 프레임워크로 나눌 수 있습니다.

씨앗-확장 프레임워크는 짧은 리드 매핑 알고리즘에서 사용되는 기본적인 방법입니다.

씨앗-체인 프레임워크는 롱리드 데이터의 특징을 고려하여 개발된 새로운 방법입니다.


3. 주요 매핑 알고리즘 비교 분석:

본 논문에서는 다음과 같은 주요 매핑 알고리즘을 비교 분석했습니다.

  • Minimap2
  • NGMLR
  • GraphMap
  • LSC
  • BWA-MEM
  • LAST
  • BLASR
  • RapMap
  • SMALT

비교 분석 기준은 다음과 같습니다.

  • 정확도
  • 속도
  • 메모리 사용량
  • 특징


4. 매핑 알고리즘 선택 가이드:

연구 목적에 따라 적절한 매핑 알고리즘을 선택해야 합니다.

정확도가 가장 중요한 경우 Minimap2 또는 NGMLR을 사용하는 것이 좋습니다.

속도가 가장 중요한 경우 LSC 또는 BWA-MEM을 사용하는 것이 좋습니다.

메모리 사용량이 가장 중요한 경우 GraphMap 또는 LAST를 사용하는 것이 좋습니다.


5. 향후 연구 방향:

  • 롱리드 기술 발전에 따라 새로운 매핑 알고리즘 개발
  • 멀티 샘플 데이터 분석을 위한 효율적인 알고리즘 개발
  • 염기서열 변형 (variant) 분석을 위한 정확한 알고리즘 개발


결론:

본 논문은 롱리드 시대의 DNA 염기서열 분석에 사용되는 다양한 매핑 알고리즘에 대한 종합적인 개요를 제공합니다. 각 알고리즘의 특징, 장단점, 성능 비교 등을 분석하여 연구 목적에 맞는 최적의 알고리즘 선택에 도움을 줍니다.

오... 비약도 있고 생략도 많지만 (물론 클로드 3에 비해서는 아직 갈길이 멀듯합니다)그래도 pdf파일을 요약해줍니다. 근데.. 추가 정보에 롱리드 시퀀싱 기술의 url이..  신박한 링크를 넣어놨네요;; Orz


출처: @ye._.vely618