去中心化科學與Web3 基建探索:鐵人三十天系列文章

今年算是第三年參與痞客邦的IT鐵人賽,算是一個不錯的自我要求活動,這次想要在去中心化科學DeSci領域持續深耕,雖然區塊鏈領域在今年還是低谷,相對於2021年的瘋狂,如今留下來的是真的對這領域有興趣的搭建者,而這半年相關的IT基礎設施都有顯著的進步,尤其年初的生成式AI狂潮,基本上今年的所有焦點都在相關的項目,不論是軟體和硬體。因為科學不外乎就是資料和運算,其實AI的進步絕對會對去中心化科學領域的推進有加乘效果,今年最大的區塊鏈重點就是從單純社群建置到已開始有相關的SaaS類機制,基本上可以用來重構整體雲服務,從虛入實,算是往正向可用性前進。

最核心的表其實就是下面這張雲服務和去中心化服務的價錢:

我們的基因體時代-Web3 X 去中心化科學DeSci-探索基建 序曲

Web3 X 去中心化科學DeSci – 重訪Cdixon和Web3資訊源

Web3 X 去中心化科學DeSci-重構雲服務(一)

Web3 X 去中心化科學DeSci-重構雲服務(二)

Web3 X 去中心化科學DeSci-評估去中心化儲存系統

Web3 X 去中心化科學DeSci-以Filecoin為例

Web3 X 去中心化科學DeSci-新浪潮Compute Over Data

Web3 X 去中心化科學DeSci-科學的困窘

Web3 X 去中心化科學DeSci-找尋巨大轉型目標(I)

Web3 X 去中心化科學DeSci-找尋巨大轉型目標(II)

Web3 X 去中心化科學DeSci-找尋巨大轉型目標(III)

Web3 X 去中心化科學DeSci-授權及智財機制License(I)

Web3 X 去中心化科學DeSci-授權及智財機制License(II)

Web3 X 去中心化科學DeSci-授權及智財機制License(III)-Yuga Lab & a16z

Web3 X 去中心化科學DeSci-授權及智財機制License(IV)-Molecule

Web3 X 去中心化科學DeSci-授權及智財機制License(V): VitalDAO

Web3 X 去中心化科學DeSci-授權及智財機制License(VI): ValleyDAO

Web3 X 去中心化科學DeSci-發表系統(I):科學發表的變化

Web3 X 去中心化科學DeSci-發表系統(II):當前科學發表可改善的方向

Web3 X 去中心化科學DeSci-發表系統(III): 新型態科學組織Arcadia

Web3 X 去中心化科學DeSci-發表系統(IV) or SocialFi

Web3 X 去中心化科學DeSci-發表系統(V) 案例討論-MattersLab

Web3 X 去中心化科學DeSci-數據擁有權與共享FAIR

Web3 X 去中心化科學DeSci-數據擁有權和交易(II)-FAIR4RS

Web3 X 去中心化科學DeSci-數據Protocol

Web3 X 去中心化科學DeSci-AI、社群和Web3

Web3 X 去中心化科學DeSci-Gensyn及去中心機器學習協議評估原則GHOSTLY

Web3 X 去中心化科學DeSci-AI計算與web3體系(III)-Together AI和CUDOS

Web3 X 去中心化科學DeSci-AI計算與web3體系(IV)-Akash

我們的基因體時代-Web3 X 去中心化科學DeSci-藍海世界

牛津孔洞ONT- Calling 2023-新技術更新(待完成)

一年一度的Oxford nanopore大會又來了,假如時間不夠,可以直接聽牛津孔洞的CEO James Clarke的演講Update from Oxford Nanopore Technologies,基本上就會是今年他們火力集中的部分,大部分會議中的演講,會慢慢在他們官方的youtube頻道釋出。

簡單來說,奈米孔洞定序是一種無標記、單分子高通量的定序技術,雖然目前開始有越來越多以孔洞技術為基礎的定旭公司,但牛津奈米孔洞公司是其中的市場領頭羊,且整體使用者數量是最多的。

這三年ONT的發展方向越來越令人興奮,絕對是一個值得花心思理解的技術線,總結今年最核心的是:

  • 專注Duplex定序的改善:
    • DNA定序時候的狀況都是雙股的,但之前的定序並沒有強調雙股都會在同一次定序到,而duplex則是同一個雙股分子,兩邊都會被拉進去孔洞,將雙股的資訊互相整合,大大提高定序的正確率,尤其是如多個單序列重複狀況(Homopolymer)。
  • 更輕鬆使用的線上分析軟體EPI2ME
    • 如何有效分析高通量定序產出的資料一直是個挑戰,因為大部分團隊很難同時擁有生物資訊分析人才,所以ONT一直以來有一個EPI2ME的工具,幫助科學家較輕鬆的擁有一個圖形化介面的分析平台。
  • 提高邊緣運算的可近性
    • Dorado軟體,相容於Nvidia GPU晶片和Mac M1系列的晶片
  • 直接RNA定序
  • 邊緣定序硬體的推出
    • 跟iPad整個的定序儀
    • MKID的推出(更新原本最入門的定序儀)
  • 自製晶片ASIC的優勢
    • 透露未來定序設備將更便宜,因ONT是少數核心晶片是自己設計,而非使用現成的模組。

什麼是雙股定序duplex sequencing?

下面的圖示算是一個標準的oxford nanopore定序示意圖,通常我們的定序標的核酸,頭尾會添加上去引子(adaptor),相對於illuminia系統來說,ONT的引子是有蛋白質的,正常情況下,其中一股會被推進去孔洞中,穿過時候產生的電訊號,就會跟其本身的A、T、C、G有關,在使用深度學習的方法轉換成序列。所以在這個狀態下,其實序列是只讀過一次,但後來ONT團隊發現有大約1.5%比例的訊號,有觀察到互補電訊號,應該是發生一股讀完後,另一股也被拉進去,如同下圖的樣子。

這樣讀兩次的現象似乎是一個可以往下發展的模式,用來優化定序的正確率,因為同一個地方被讀了兩次,要是用這兩個互補電訊號來做序列轉換,其正確率應該是可以提高,所以ONT團隊針對相關的細節優化發現可以提高到30%,光針對引子的調整就大幅提高這比例。

這塊的序列轉換就必須使用新的方法學,其實在去年年底有相關分享,不過這個duplex的概念其實是ONT之前1D2的方法學專注的地方,換句話說,他們耕耘過蠻長的時間,只是針對策略再調整。

後續優化後,甚至可以將duplex比率拉高到大於80%,換句話說,大部分你定序的核酸都被讀了兩次,這需要在建庫的流程中做很多的優化,這塊其實是很多實驗室在做ONT時常常做不好的地方,如同下面圖示,只要ligation引子的效率不好,就會直接影響到duple成功率。

目前在他們優化的試劑和晶片下,可以得到相當不錯的duplex比例!

這樣策略下,就能大幅提高定序序列的原始資料正確率,可以看到他整體的品質分數分佈都改變了,就如有常常做就會知道大部分原始資料的高點都會在20左右,所以這個對於品質分佈的提升,其實蠻恐怖的,基本上,可以想成是擁有illumina等級的正確率,而且這個正確率是獨立於序列長度的,不會說你這條讀長越長,其錯誤率越高,這也歸功於ONT並非使用光化學的方法學,會在過程中對於核酸多少有損傷,除非核酸斷裂,不然其對於DNA本身不太會有影響,另外,使用新的模式stereo轉換basecalling,其時間基本上跟之前差不多,不會因此就需要花費更多時間。從下面的圖,也可以看到最新的試劑kit14,其實在單純的單股simplex定序其正確率也有大幅上升,所以這樣的正確率真的很棒。

下面的資料則是在更長的讀長下,其品質分數和準確率間的分佈,在測試中,最長的完美讀長大概可以有40000 bp,而品質達到Q40的讀長則有達到130000bps,整體正確率可以大於99.9%,平均品質分數可以大於Q30。

..

.

.

.

.

.

.

.

..

.

.

..

.

針對一般模式定序在kit14下的表現

.

.

.

.

..

..

.

.

選擇性定序在P2機台

.

.

.

.

.

..

.

.

.

.

.

..

.

.

.

.

.

.

.

.

.

.

.

..

.

.

.

.

.

.

.

.

.

.

.

.

.

演講摘要-奇績創壇陸奇-新范式 新時代 新機會

陸奇前輩的演講,總是滿滿的乾貨,可以將這次的分享和四年前的做個比較,收穫良多,前一次的主題是針對人工智能時代的創新創業浪潮。下面的文字是利用先將youtube的影片字幕複製到文字黨後,用shellscript分段貼到chatGPT,幫忙整理而成,要是串API的話,應該會更快。


現代範式的改變

這次範式變革所代表的機會是由產業發展結構所決定的,其中包括生產資源和模型知識。模型知識使得成本結構由邊際轉向固定。這次變革在技術驅動社會發展的過程中扮演多重角色,其內在結構描述了技術如何推動人類社會的進步。基於這一內在結構,我們可以分析判斷這次範式變革在未來發展的幾個層面上具有何種重要影響。首先,這次變革驅動了新一代的科學發展方式,而科學進步是人類社會進步的最根本生產力。其次,人類的經濟發展體系是技術驅動的。技術的本質是運用科學可解釋的原理和能力改變自然現象,並利用資訊轉化人力以滿足人們的需求。

數字化帶來的三位一體:感知、思考、實現

社會經濟的發展可以理解成,人、組織、社會和數字化對於人類環境所產生的系統,這系統有感知、思考和實現能力。 這次數位化的範式變更將直接驅動模型和行動體系,用數位化的能力去轉化能源,將被大步的往前躍進。 數位化是人的延伸,是人自我認知和能力的延伸。 有了數位化的能力之後,我們將持續不斷的去改造世界。 要改造世界,必須要轉換能源,並且將能源轉化為信息。能源轉化只有兩種形式,一種是用生命體系來轉化,另一種是用物理體系轉化能源。此外,能源轉化不需要必須要有物理空間,這次技術革命將更快的驅動現代的空間技術。最後,科技將不斷的加快社會的進步速度。所以這次的變革將在更大程度上讓更多的企業成為科技公司,技術將更快的驅動社會經濟發展。

三個維度的變化

人類社會進展由技術驅動,每一次重大的進展都會帶來生產力、生產關係和社會關係的變化。 早期在農業社會之前,我們是遊牧民族,隨著農業技術的發明,人類生活方式在根本意義上發生了改變,我們開始定居,有了家。 再後來,人類社會進入工業社會,我們開始有更多自由,儘管農業社會給我們帶來了穩定,但限制了我們的行動自由。工業社會所帶來的,是給人更多的自由度,降低了人的體力勞動。隨後,資訊社會帶來了大量的資訊,我們的產業和社會從商品經濟進入了服務經濟,我們開始使用資訊和腦力勞動來產生商業價值和社會價值。 然而,今天的服務經濟也將面臨變革,因為我們所做的一切腦力勞動,除非有特殊的認知能力,都將在根本意義上被改變。 因為這一次,模型的成本降低,我們將很快從一個服務經濟進入一個體驗經濟。 在此過程中,我們認為創業者、科學家和藝術家等職業是最重要的,他們將帶來下一代的體驗經濟。 未來,當人工智慧和數位化體系無處不在,人的體力和腦力都不再需要時,我們將進入一個我們暫且稱之為AI經濟的時代。 在這個時代,我們將一起探索人的驅動力和行為將是什麼。 最後,由於數位化的能力,我們是否會回到新一代的遊牧狀態,因為我們不需要在任何一個地方固定下來。

OpenAI開啟的新時代:ChatGPT

我們如何去適應這樣新的範式變革,你需要用不同的方法去思考和實踐,我們可以從這個范式的締造者當中得到重要的啟示,這一次范式轉換的到來,在技術進步的角度來講,它不是水到渠成的,而是一個突破。以目前這個範式的締造者OpenAI為例,其推出的ChatGPT在短短兩個月內擁有全球一億活躍使用者,用戶願意付費並每天使用,這在歷史上前所未有。

目前OpenAI已推出其ChatGPT最新版本GPT4,它是一種多模態、全面系統工程化開發的大模型。 在GPT4之後,外掛程式推動了生態的進一步發展。 OpenAI的團隊,由300多人組成,每月、每周都在高效緊湊地進展。 幾天前,微軟的團隊與OpenAI團隊緊密合作,將ChatGPT的引擎用於Bing。 一個團隊如果運用新的範式核心思考,實現新的範式,其創新能力將非常大,因此,在這個時代,深入解讀OpenAI的成長歷史,他們的思考方式和實踐對我們每個人都非常重要。

新的範式背後一定有核心技術,這些核心技術使新的範式成為可能。 新的範式之後,有一個新的動力引擎,這個引擎,本質上是一個模型體系,叫做GPT(Generative Pretrained Transformer),它有幾個重要的核心特性:

  • 高效地訓練壓縮資訊,表達我們所知道的全世界的知識。 壓縮的越強,其代表的知識含量就越高。
  • 模型能夠持續提高泛化能力,在更多參數、更多Token的情況下,新的能力會湧現,包括常識推理、算術和問題解決能力。
  • 推理能力不斷增強和被探索,包括演繹、歸納和常識推理。
  • 對齊是關鍵。 基礎模型能否使用,主要取決於是否對齊。 對齊工程和研究是最活躍的科研領域和工程開發領域。 對齊有幾個維度,包括對人的認知空間對齊(如語言、代碼、表格等),以及對人的價值觀對齊。
  • 這個模型體系在現有的硬體和軟體基礎上,能夠充分利用更多的有效算力,如超級並行的GPU。

這個模型體系能夠處理重要的模態,如語言、圖像和視頻。在今天的硬件和軟件基礎之上,這個模型體系能夠充分運用更多的有效算力,如超級並行的GPU,因此模型可以使用更多的算力來發揮模型作用。

不段擴展和演化的模型

目前我們已經有足夠的模型擴展能力,如讓模型接入符號求解器,將符號運算能力接入,用這個模型學習如何使用這個工具。 因為transformer是一個通用的序列建模工具,不僅可以用於語言,任何其他模態也可以用transformer來建模。 大量的工具都在擴展,對於模型的擴散涌現,我們之前討論過它的多維度和可擴散性。 這個引擎是這個時代背後堅定的力量,因為模型的成本會從邊際向固定走,這就是靠這個引擎。 有了這個引擎之後,這個模型已經開始改變產業,並以非常高的速度將邊際成本轉向固定成本。

今天,我們可以訓練出能力不錯的大模型,例如10億甚至20億個參數 ,這已經足夠且可以有越來越多的應用發展,因為要使模型最終改變世界,它必須能夠在不同場景中使用,必須能夠小型化並能夠本地化。 在未來,我們將在每個手機端、每個IoT設備和每輛車上使用這個模型。

GPT4封裝了我們能夠得到的所有知識,封裝了學習能力和推理能力。界面是自然語言處理,任何人都能使用,這使得今天做大模型的成本已經沒有貴到大廠不能做,而且成本在不斷的降低。

GPT4在自然語言處理的概念,採取跟過去不同的策略,過去的自然語言處理領域,基本上將處理的思路是我能通過編寫軟體理解你的一句話。但這是錯誤的,因為要理解一句話,你需要有知識。 我可以分析這句話,知道這是形容詞、動詞、名詞,但關鍵是這個名詞究竟是什麼? 它可能是一包香煙,加油站,你的舅舅,或是電影裡的演員,你需要全球的知識來處理自然語言,另一方面,OpenAI首先使用知識進行自然語言處理,利用知識引擎針對語言對話進行調試,而不是先理解這句話,再拉入知識。 我們過去十幾年所做的,基本上是反的。 但現在自然語言處理已經完全通了,因為我們都使用過ChatGPT,過去的自然語言交互都令人緊張,怕他聽不懂,稍微換一換他就不對了,但現在,你基本上隨便講,他都能懂。 他有所有的知識封裝在裡面,利用這個知識作為基礎,根據對話進行調試,而不是反過來。 因此,這次自然語言處理的作用非常和諧,他將在範式攀升的過程中扮演重要的角色,我們歷史上從未有過如此有效、有用、任何廠家都能使用的交互工具。

我相信GPT5和6將有跨模態的泛化能力。 當然,更多的領域和應用,更多的基礎設施都在高速發展者,這個引擎的能力將越來越強這一點極其重要,因為大模型揭開了人類技術發展的新篇章。 我們引入了前所未有的新物種——模型。 無論是我帶到會議的50個模型,還是你給我提供的200個模型,我們都在與模型共事。模型是新物種,它的發展軌跡將決定我們的未來。 在本質上,這是一種進化,就如同Brian Arthur在《技術的本質》一書中描述的,技術的進化與達爾文的自然選擇非常相似,都是結構功能組合的選擇。技術的進化選擇是滿足人類需求更多的地方,因此大模型的未來將是一個進化的未來。

這個進化過程中,我關注的主要問題是系統1和系統2。 大模型目前主要基於信息系統1進行推演和推理。 系統1是快速思考,或者說直覺。 我們大部分時間都在用直覺,比如開車,只有在面臨大問題時,我們才會用邏輯去分析。 系統1的優點是它是過程性的,可計算的,基於場景的,可以解決我們生活中的問題。 而我們建立的模型,如愛因斯坦理論,牛頓理論等等,主要是系統2的模型,這些模型都是符號和數學公式,它們的優點是專業化,泛化能力強,但在我們的日常生活中幾乎沒有作用。

因此,我們需要的是系統1和系統2的組合,形成新的組合模型,能夠更有效地解決問題,在Meta模型的示意圖中,可以看到這種進化已經在發生,一代一代的模型都在湧現,我們無疑正處在這個新物種爆發的寒武紀時代,每天都有新的子物種出現。

總的來說,我們高度重視大模型以及衍生出的子模型的進化過程。今天的模型生態在某種程度上類似我們已知的生物系統,大模型就像基因,衍生出的領域模型就像表觀遺傳學,最終都是進化的過程,形成了真正的智能體系。

經濟發展格局的轉變

我們已經分享了新範式的內在結構,發展體系和所需的核心思考維度。 接下來,我們將探討這個新範式帶來的新時代將如何發展。 社會經濟發展是我們最關注的,其發展格局將在全球範圍內形成。 這個新範式的發展速度和動力將是前所未有的,因為它改變的的生產力是知識,知識的力量無窮,是最強的生產力,改變的維度是首要的。 這個生產力變得便宜,如今碼農、律師等高工資行業將受到影響,這些模型將變得越來越便宜。 這個生產力將在知識密集產業如醫療產業中發揮巨大作用,用大模型技術可以提高醫生和護士的水準,提升產業生產力。

在這個過程中,模型的研發速度會加快,生產力的反覆運算速度和創新速度也將加快。因此,攀升速度將非常快。這次變革將影響到人類的每一個職業種類,每個人都將開始使用副駕駛員,等待其能力越來越強,最終變為正駕駛員autopilot。 我們每個人都將擁有一個pilot team,人與人之間、人與機器之間的合作將成為未來社會企業的組織方式。

這個經濟發展格局將影響到我們每一個人的每一個工作崗位。變革的先鋒將是數字化產業,它將開拓新的商業價值。整個數位化產業將全面提高和更新,我們將擁有新的核心技術堆疊、新的平臺、新的基礎設施、新的算力體系、新的通訊體系以及新的產品開發體系,一切都將以大模型時代為主。

數位化產業的發展將影響所有行業,每個行業都將系統性、結構性地遷移到未來狀態。模型將改變知識結構成本,從邊際成本轉向固定成本。未來企業需要重新評估各項開支,以適應這一變革。我們可以預見,使用大模型技術將提高各行業產出,如軟體、設計、分析等領域的需求將大大增加。 最後,根據每個產業的特點,我們可以預測未來每個行業的結構性變更將從哪個方向發展,以什麼樣的速度來發展。

我們可以想像,利用大模型技術,可以顯著提升程式設計人員、設計師、分析師以及醫生等各行業工作人員的產出。每個行業結構性的變更,都將根據不同的方向和速度進行。同時,政府的參與和監管將更加積極,特別是在安全、數據隱私和社會穩定方面。例如,OpenAI在美國和歐盟地區的發展,政府出臺的早期參與就表現得尤為顯著。 此次變更需要社會產業與政府進行更多互動,尤其在早期扶持和引導基礎設施投入,以及全球性的發展上。

OpenAI產業生態系的形成

OpenAI產業生態,現在正在高速發展,其生態結構已經形成,因為它目前領先不少。它的平臺就是GPT,現在是GPT 4。OpenAI的後台開發出了新的模型,前臺是ChatGPT,它是一個人類歷史上從未有過的自然語言交互介面。 同時,它還有一個可擴展介面,就是ChatGPT Plugin,已經有大量的應用可以在這個平台上開發。人類歷史上從未有過自然語言交互的介面,比如ChatGPT。同時,ChatGPT也做了一個平臺的可延伸介面,即ChatGPT Plugin,已經有許多應用在此基礎上開發。OpenAI前後台每天都有大量的應用在被開放,OpenAI自己也有一個完整的生態佈局,通過投資以及與YC的關係驅動,生態的健康成長是當前最關鍵的,這是我想與大家分享最重要的資訊。在數位化產業的發展中,開發者的介面和生態是最重要的。

接下來我們討論模型開發。基礎模型開發沒有生意可做,因為都是大廠自研,但它非常重要。我們必須理解追求大模型的路線圖。 模型開發有幾個關鍵環節,首先是數據體系,包括數據集、語料、標註系統、標註工具和數據開發管線。 其次是模型體系,其中有參數深度、模態和token等因素。 第三是集群體系,需要合理地組合算力資源。 在大模型時代,我們需要的不是伺服器,而是幾萬張卡在一起,每張卡必須能直接訪問記憶體。 訓練體系也很重要,包括指令調試、正則化、Epoch、損失函數、對齊體系以及安全體系。 有了這些基礎,我們就可以構建一個系統化的工程體系,進入一個持續反覆運算進展的狀態。

最後,讓我們看看大模型之後的領域模型,基於已有的大模型,我們可以通過知識蒸餾、微調或提示等方法進行優化。 最近的熱門話題是參數有效的微調,通過少數GPU和足夠的token,就可以微調出一個相當不錯的模型。

我們採用知識蒸餾、微調和提示等方法進行模型優化。 最近,PEFT和參數有效的微調技術,例如小LoRA,受到了大家的熱烈追捧,尤其是在開源世界。 只需少量的GPU和足夠的token,就能微調出一個相當不錯的模型。 數據集中包含了語言學數據和知識圖譜數據,都是很重要的資源。

新一代的API和服務公司如雨後春筍般嶄露頭角,其中,由斯坦福的PhD Lamani創辦的公司值得我們關注。 因為在開發領域模型的過程中,我們需要各種開發方法,包括多模態開發,例如Midjourney正在進行的二維圖像、視頻和遊戲資產生成專案。

目前,主要依賴擴散模型,如stability和LoRA Controlnet,但這些都還在早期,需要大量的工作去形成穩定的持續攀升狀態。隨著大量工具公司的加入,我們的產能會提高。領域模型的進展也相當激動人心,尤其是在參數優越的微調方面,近幾周的進展非常快,出現了很多開源的大模型。 輕模型可以運用到端上,利用知識蒸餾、數據蒸餾、結構優化和量化縮小等手段優化。 長期來看,我們必須將大模型用到端上,這需要大量的研發工作。

開源模型的角色

最後,我們非常關注開源,因為開源是降低整個創新門檻的關鍵。 LLaMA體系是開源體系中最活躍的部分,它的衍生品LLaMA adapter引起了很大關注。 小模型也非常活躍,同時,Databricks、Cerebas、Mosaic AI等公司也表現出色。我非常高興看到美國有許多活躍且有志向的創業者在探索開源模型,開源數據非常重要。 英語是人類歷史上第一個真正的全球語言,我們的語言模型需要大量的英語語料,如common crawl、Wikipedia、書籍、文章數據等。

在模型開發方面,我們還在早期,但已有大量的進展。 大模型、領域模型、邊緣模型和開源模型都在同步開發,更重要的是,開發應用也在同步進行。 基礎開發代碼的工作流、代理機制提示調試和記憶embedding都需要我們關注,因為有大量的應用需要開發。

我把開發能力的拓展叫做自然語言寫代碼,這是非常重要的,我們可以通過試用不同的提示,使用自然語言形成一個抽象的知識結構,並根據需要進行推理和規劃,這個探索空間實在太重要了,我們歷史上從來沒有過讓每個人都能通過自然語言進行開發的機制,當前的框架還不夠穩定,我們需要更完整、更可靠、更穩定的工具,但這隻是時間問題,一定會發生。

我們需要開發對象,運行時非常重要。後端雲服務是目前最常見的運行環境,大部分開發都在雲端進行,原來的SAAS正在逐步變成MAAS,在手機端和移動端上開發一個繁榮的開發生態系統,有新機會等待大廠和有勇氣的創業者,IOT端也很重要,因為大模型必須要在每一個埠都能落地,為其他開發者生態提供長期的機會,吳恩達的課和Oreilly的課都值得關注,預計會有很多書、論文和Github repo上的代碼與數據,未來發展速度和寬度取決於開發堆疊,誰搶佔開發者心智,誰掌握著未來的大量發言權。

新范式下的機會

技術驅動能力很重要,范式擴散需要三個方面:科研、高品質代碼和商業化。 政府也很早參與其中,全球主要有兩個地區:美國北美和中國,這次擴散與個人密切相關,聰明勤奮努力的人會學會使用這個工具,個人的行為如學習、探索、創新變得至關重要,無論你是創業者、創作者、程式師還是科學家。這次認知能力工具的擴散會拉開人與人之間的距離,與個人有很大關係。 那些聰明、勤奮、努力學會使用這個工具的人,會很快拉開與同等水準的人的距離。

創業公司應著眼於系統性探索,關注創始人團隊的心力、願力和能力,引入新的人才和建立組織文化,形成一個強盛的體系。 早期的重點是開發各種能力,包括技術能力、產品能力、交付能力、增長能力、商業價值能力和獲取資本能力,長期去實現它的價值空間。

我們需要思考如何掌握這個機會,首先,不要盲目追求熱度,需要思考清楚再行動。 其次,勤於學習,這次新的範式是複雜的,需要多次理解才能真正掌握。 最後,一旦想明白,必須行動,因為這次的變革是“不進則退”。

對於一個企業,存在三個考慮維度。 第一,你的產品和業務是否有新的機會,如何探索其中的風險; 第二,你所在的產業是否正在經歷根本性的變革,你是否應該佔據新的市場位置; 第三,你所在產業的研發體系和能力是否徹底轉變,你是否需要換一個全新的思路去做事。

我們為大家提供了一個系統性的框架,這個框架包含三個機會板塊,我們用這個框架來指導所有的投資和與創業公司或創業者的互動。 第一,人類的本質是認識世界並改造世界,人類是一個減熵的物種; 第二,我們通過數位化來擴展自身,因此數位化是一大機會,它驅動著整個人類的進步,包括基礎設施平臺和數位化應用兩個子板塊; 第三,改變世界的力量來自能源、生命科學、材料科學和空間科學。

閱讀參考:

@0xthefool的twitter串

最佳拍檔 完整精修字幕版 youtube連結

精準醫學邀請演講:臨床定序技術與分子診斷-由短到長、一代到三代 (二)

這篇接續精準醫學邀請演講:臨床定序技術與分子診斷-由短到長、一代到三代 (ㄧ)的內容。

上一部分大概分享到了病生理學的部分,從單位點的變化,要開始往下去分享一些人類基因序列的模式。

短串聯重複(Short Tandem Repeats)和微衛星(Microsatellites)

短串聯重複(Short Tandem Repeats,簡稱STRs)和微衛星(Microsatellites)這兩個在形容基因組結構的名詞,其實本質上是一樣的,但在體細胞談論遺傳時,都是以短串聯重複STRs為主,而在腫瘤領域在探討這類短片段重複的序列特性,則是在。它們都指的是一段由短的核苷酸序列(通常為2-6個核苷酸)構成的重複單元在基因組中連續出現的區域。

STRs的特性其實是其重複單元會造成DNA複製過程中的滑移(slippage)現象。當DNA聚合酶在複製過程中失去與模板DNA的配對時,可能會引起滑移,導致重複單元的增加或減少。這使得STRs在不同個體間具有高度的多態性,為遺傳學和人類遺傳病的研究提供了重要的信息。

由於STRs的多態性,它們在生物學和醫學上具有多種應用。在法醫學中,STRs被廣泛用作DNA指紋圖識別,用於確定遺傳親子關係、個體辨認以及犯罪現場物證分析。在人類遺傳病研究中,部分STRs與特定的遺傳病相關,如亨廷頓舞蹈症和類固醇21-羥酸缺乏症等。

然而,STRs在基因組中的功能仍然不完全清楚,如同前面一篇文章有分享到其實到2022年才有第一個完整的人類基因參考序列,那當然這類複雜基因序列在族群中的特性才開始能慢慢去理解。有研究表明,某些STRs位於基因的調控區域,可能影響基因表達,而其他STRs位於蛋白質編碼區域,可能影響蛋白質結構和功能。隨著對基因組結構和功能的進一步研究,STRs在遺傳學和基因組學領域的作用和重要性可能會得到更多闡釋。

從這邊文獻中,可以看到一些有趣的數據,比如STR目前定義是1-6bps的重複片段,而從這邊可以看出來,主要以6bp的重複片段所佔的比如最高,其中又以A是最常見的序列。

從上面的統計圖表,可以知道最常見的重複數量大概是在30次以下,位在外顯子上的比例是最小的,最多的就是在飛機因區域,再來則是基因內的內顯子區域。不過有重複序列可以到2866次,這個重複數量是很難想像的。

而這樣的重複片段在不同基因結構的區域,其實也有不少相關疾病被知道,比如上面圖片來自Hannan, A. J. (2018). Tandem repeats mediating genetic plasticity in health and disease. Nature Reviews Genetics, 19(5), 286-298.文章,便可以看到下面相關的疾病:

短串聯重複(Short Tandem Repeats,STRs)在基因組中具有高度變異性,與某些遺傳性疾病密切相關。以下是幾個與STRs相關的遺傳疾病範例:

  1. 亨廷頓舞蹈症(Huntington’s disease):這是一種神經退行性疾病,由於CAG三核苷酸重複序列在HTT基因中過多重複,導致胺基酸葡萄糖胺在亨廷頓蛋白中過多積累,進而引起神經細胞功能障礙和死亡。
  2. 類固醇21-羥酸缺乏症(Congenital Adrenal Hyperplasia):這是一種常染色體隱性遺傳病,與CYP21A2基因的STRs變異相關。當重複序列中的CYP21A2基因發生變異時,可能導致腎上腺皮質激素合成受阻。
  3. 慢性肌無力(Myotonic Dystrophy):這是一種肌肉失去力量和無法放鬆的遺傳性疾病。在第一型慢性肌無力(DM1)中,DMPK基因內的CTG三核苷酸重複過多,導致異常的mRNA積累,從而影響肌肉細胞功能。在第二型慢性肌無力(DM2)中,則是由於ZNF9基因內的CCTG四核苷酸重複過多。
  4. 弗里德勒依託病(Friedreich’s Ataxia):這是一種神經退行性疾病,與FXN基因中的GAA三核苷酸重複過多相關。這種重複可能導致鐵依賴型抗氧化酶(frataxin)的缺乏,進一步引起神經細胞和心臟細胞的損傷。
  5. 極端X綜合症(Fragile X Syndrome):這是一種智力障礙和行為異常的遺傳性疾病,與FMR1基因中CGG三核苷酸重
  6. 脊髓小腦萎縮症(Spinocerebellar Ataxias,SCAs):這是一組神經退行性疾病,影響脊髓和小腦。多種SCAs與STRs變異有關,例如SCA1(CAG重複於ATXN1基因)、SCA2(CAG重複於ATXN2基因)、SCA3(CAG重複於ATXN3基因)等。
  7. 肺泡蛋白病(Pulmonary Alveolar Proteinosis,PAP):此疾病與CSF2RA基因中的STRs變異相關。該變異導致肺泡巨噬細胞功能異常,進而引起肺泡內蛋白質過度積累。
  8. 黑尿症(Alkaptonuria):這是一種代謝性疾病,與HGD基因中的STRs變異相關。這種變異導致同尿苯酸氧化酶(homogentisate 1,2-dioxygenase)的功能缺陷,使尿中的同尿苯酸無法正常代謝,進而導致黑尿和其他相關症狀。
  9. 骨化性纖維組織病(Fibrodysplasia Ossificans Progressiva,FOP):這是一種極為罕見的遺傳性疾病,與ACVR1基因中的STRs變異相關。該變異導致骨骼肌纖維被骨組織所取代,造成肌肉僵硬和關節活動受限。
  10. 肺動脈高壓(Pulmonary Arterial Hypertension,PAH):這是一種影響肺血管的疾病,與BMPR2基因中的STRs變異相關。該變異導致骨形成蛋白受體2(bone morphogenetic protein receptor type 2)的功能缺陷,使肺動脈壓力上升,進而引起心臟負擔加重。

拷貝數變異(Copy Number Variants):在長一點的重複序列

上面的短串聯重複片段(STRs),既然叫做“短”,那麼就有在長一點點的重複序列特徵,那麼就會被歸類在所謂的拷貝數變異,歸類在更大範圍的結構變化(Structual Variation),換句話說,拷貝數變異(Copy Number Variants)涵蓋了一個相對廣泛的基因組片段大小範,從數百個核苷酸(bp)到數百萬個核苷酸(bp)不等。這些變異可以是重複(增加拷貝數)或缺失(減少拷貝數)。然而,CNVs的精確大小範圍會根據定義和檢測方法而有所不同。一些研究將CNVs定義為影響至少1,000個核苷酸(1 kb)的變異,而其他研究則將閾值設置為50,000個核苷酸(50 kb)或更大。隨著檢測技術的不斷進步,研究人員現在能夠在更細的尺度上檢測到更小的CNVs,進一步擴大了我們對這些變異的認識和研究範疇。

P.S: 這也是為什麼在理解基因體學的時候,一定要搭配對於技術的理解,很多時候,如同以管窺天,我們就會以為天就是圓的。

圖片來自於Phenotypic impact of genomic structural variation: insights from and for human disease, Nature Genetics Review, 2013

臨床上,用來做這類大片段變異的工具,最常見的就是產前檢查的項目,如基因晶片ArrayCGH等,偏向在新生兒遺傳異常的偵測,但成人上相對就還沒有臨床應用,與CNVs相關的疾病涵蓋了許多不同的領域,包括神經發育障礙、精神疾病、自閉症和其他遺傳病。以下是一些與CNVs相關的疾病範例:

  1. 神經發育障礙:部分學習障礙和智力障礙與CNVs有關。例如,部分Williams症候群(一種罕見的神經發育病)患者的基因組中,某個區域的拷貝數減少。
  2. 精神疾病:與精神分裂症相關的多個CNVs已被發現,包括1q21.1、15q11.2、15q13.3和22q11.21等區域的拷貝數變異。
  3. 自閉症譜系障礙:已經確定了與自閉症相關的多個CNVs,如16p11.2、22q13.3和15q11-13等區域的拷貝數變異。
  4. 遺傳病:某些遺傳病也與CNVs有關,例如Charcot-Marie-Tooth病(一種遺傳性神經病)中,17p12區域的拷貝數變異與疾病的發生有關。
  5. 免疫缺陷病:部分免疫缺陷病也與CNVs相關,如DiGeorge症候群(一種罕見的免疫缺陷病),在22q11.2區域的拷貝數減少與疾病的發生有關。
  6. 癌症:在某些癌症患者中,已經觀察到了特定基因的拷貝數變異。例如,乳腺癌中的ERBB2(又稱HER2)基因放大與腫瘤的惡性程度有關。

這邊其實也會觀察到有些複雜的疾病表型,如小胖威力Willian syndrome,就有多種可能會造成,這也代表者疾病定義在未來可能會需要調整和精進。

from A copy number variation map of the human genome, 2015, Nature Genetics Review

上面這張圖,則是展現了已知CNV在人類基因組上的分佈情況,另一方面,也暗示了不同人類染色體其上基因序列複雜度也是不太一樣,性染色體、染色體22號、染色體16號、染色體15號、染色體9號等等都是相對來說發現比較多拷貝數變化的染色體。

from A copy number variation map of the human genome, 2015, Nature Genetics Review

上面的圖片則是進一步介紹不同CNVs在特定功能區域的分佈,很明顯可以看到在non-coding基因區域、CpG island、Promoters都是比較多的,暗示者其在參與基因調控上扮演的角色較重。下面的分析則是進一步用CNVs所在區域的已知功能,做關聯性的分析,似乎也可以看到更比較複雜的生物功能有關,如免疫、染色體結構等等。

from A copy number variation map of the human genome, 2015, Nature Genetics Review

更複雜的3D 基因體結構

2015. Inching toward the 3D genome. Science

你以為基因體學就停在對於序列的模式和異常嗎?其實人類越探索,就越發現其中的複雜,最近幾年因為基因定序的進步,認為染色體在細胞核中的折疊和排列,本身就會對於基因產生複雜的調控。這領域稱作3D基因體學(3D genomics),或是空間基因體學,是一個新興的研究領域,旨在研究基因組在三維空間中的組織和折疊結構,以及這些結構對基因調控和基因組功能的影響。

3D基因體學的主要概念包括以下幾個方面:

  1. 染色體領域(Chromosome Territories):在細胞核中,不同的染色體被發現佔據了自己獨特的空間區域,稱為染色體領域。這些領域有助於維持基因組的穩定性和遺傳信息的整合。
  2. 染色體組織域(Chromatin Domains):染色質被組織成一個分層的結構。在這個結構中,相鄰的基因區域可能因為染色質折疊而相互作用,從而促使協同調控的基因共享調控元件。
  3. 開放染色質區域(Open Chromatin Regions):開放染色質區域是指在基因組中易於轉錄因子和其他調控因子結合的區域。這些區域通常與基因的啟動子、增強子或其他調控元件相關。
  4. 染色質互作(Chromatin Interactions):基因組中不同區域之間會發生物理接觸,這些接觸有助於調控基因表達。例如,增強子和啟動子之間的互作可以調控特定基因的表達。

為了研究3D基因體組織,科學家們已經開發了多種實驗方法,如染色體共閘定(Chromosome Conformation Capture,3C)技術及其衍生技術(如4C、5C和Hi-C)。這些方法允許研究人員獲得基因組在三維空間中的組織信息,並揭示染色質互作和基因調控的機制,這些方法目前都是停留在研究技術,當然也代表者離臨床距離較遠,但這代表我們必須理解從基因到表型的距離,還牽涉到這麼多東西。

隨著3D基因體學研究的深入,有很多這領域的發現和提出的概念,當然,要知道的就是這些概念都是伴隨者檢驗技術所生的,必定有其侷限之處:

  1. TADs(Topologically Associating Domains):基因組中的特定區域在三維空間中被發現存在高度自我聯結的結構,稱為TADs。TADs的結構與基因調控密切相關,因為它們使得調控元件(如增強子)能夠更容易地與目標基因接觸。
  2. 染色質環(Chromatin Loops):在染色質折疊的過程中,某些區域(如增強子和啟動子)被拉近並形成物理上的接觸,形成染色質環。這種結構有助於協調基因表達和精確地調控基因活性。
  3. 細胞類型特異性的3D組織:不同細胞類型之間的基因組組織可能存在差異。這些差異可能影響基因表達的調控,並有助於維持細胞特性和功能。
  4. 3D基因體學與疾病:基因組組織的改變可能導致疾病。例如,某些癌症中的染色質重排可能導致調控元件錯誤地與目標基因互作,從而導致基因的過度表達或失活。

總之,3D基因體學是一個新興且快速發展的研究領域,它對我們理解基因調控和基因組功能有著重要的意義。雖然目前還在探索跟疾病的關聯,但這些是知道跟基因組立體結構相關的疾病:

  1. 癌症:某些癌症中的染色質重排可能導致調控元件(如增強子)與錯誤的目標基因互作,從而導致基因的過度表達或失活。例如,某些白血病(如急性淋巴細胞性白血病)與基因重排導致的染色質環異常有關。
  2. 神經發育障礙:染色質環和TADs在神經發育過程中的基因調控中也起著關鍵作用。某些神經發育障礙(如自閉症、智力障礙和精神分裂症)與這些結構的異常有關。
  3. 先天畸形:某些先天性疾病,如林茨(Limb-Body Wall Complex,LBWC)綜合徵和菲林-麥克德蒙德(Feingold-McKusick)綜合徵,與基因調控元件(如增強子)在染色質環或TADs中的異常定位有關。
  4. 罕見遺傳病:某些罕見遺傳性疾病,如Facioscapulohumeral Muscular Dystrophy(FSHD),也與染色質環或TADs的異常有關。FSHD與染色質結構中D4Z4重複序列的減少有關,這可能導致調控元件與錯誤的基因互作,進而引起疾病。

閱讀參考

跟拷貝數變異相關的文獻

  1. Redon, R., Ishikawa, S., Fitch, K.R., Feuk, L., Perry, G.H., Andrews, T.D., Fiegler, H., Shapero, M.H., Carson, A.R., Chen, W., Cho, E.K., Dallaire, S., Freeman, J.L., Gonzalez, J.R., Gratacos, M., Huang, J., Kalaitzopoulos, D., Komura, D., MacDonald, J.R., Marshall, C.R., Mei, R., Montgomery, L., Nishimura, K., Okamura, K., Shen, F., Somerville, M.J., Tchinda, J., Valsesia, A., Woodwark, C., Yang, F., Zhang, J., Zerjal, T., Zhang, J., Armengol, L., Conrad, D.F., Estivill, X., Tyler-Smith, C., Carter, N.P., Aburatani, H., Lee, C., Jones, K.W., Scherer, S.W., & Hurles, M.E. (2006). “Global variation in copy number in the human genome." Nature, 444(7118), 444-454.
  2. Stankiewicz, P., & Lupski, J.R. (2010). “Structural Variation in the Human Genome and its Role in Disease." Annual Review of Medicine, 61, 437-455.
  3. Weischenfeldt, J., Symmons, O., Spitz, F., & Korbel, J.O. (2013). “Phenotypic Impact of Genomic Structural Variation: Insights from and for Human Disease." Nature Reviews Genetics, 14(2), 125-138.
  4. Zarrei, M., MacDonald, J.R., Merico, D., & Scherer, S.W. (2015). “A Copy Number Variation Map of the Human Genome." Nature Reviews Genetics, 16(3), 172-183.

跟3D基因體學相關的文獻

  1. Dekker, J., Marti-Renom, M. A., & Mirny, L. A. (2013). Exploring the three-dimensional organization of genomes: interpreting chromatin interaction data. Nature Reviews Genetics, 14(6), 390-403.
  2. Lieberman-Aiden, E., van Berkum, N. L., Williams, L., Imakaev, M., Ragoczy, T., Telling, A., … & Dekker, J. (2009). Comprehensive mapping of long-range interactions reveals folding principles of the human genome. Science, 326(5950), 289-293.
  3. Dixon, J. R., Selvaraj, S., Yue, F., Kim, A., Li, Y., Shen, Y., … & Ren, B. (2012). Topological domains in mammalian genomes identified by analysis of chromatin interactions. Nature, 485(7398), 376-380.
  4. Rao, S. S., Huntley, M. H., Durand, N. C., Stamenova, E. K., Bochkov, I. D., Robinson, J. T., … & Aiden, E. L. (2014). A 3D map of the human genome at kilobase resolution reveals principles of chromatin looping. Cell, 159(7), 1665-1680.
  5. Bonev, B., & Cavalli, G. (2016). Organization and function of the 3D genome. Nature Reviews Genetics, 17(11), 661-678.

精準醫學邀請演講:臨床定序技術與分子診斷-由短到長、一代到三代 (ㄧ)

前陣子被邀請去精準醫學學會的課程做分享,一開始被指定的是講三代定序,但感覺直接跳到這麼深的技術層面分享,對於聽者比較沒有意義,所以就稍微調整主題,希望讓與會的同仁可以有一個比較全面的收穫,且激起他們的興趣。

為何現在是一個基因定序百花齊放的時代

通常分享基因體學定序技術,都要由價錢的概念來講,畢竟這可以給人一個明確的感受,關於這技術是否可以跳脫如學術研究的框架,進入比較實務應用的階段。

根據美國國立衛生研究院(NIH)的數據,基因定序價格隨著時間的推移顯著下降,又上的圖表算是一張非常經典的圖,就像晶片產業我們會用摩爾定序,但在生物技術領域這塊的進步則遠遠快過摩爾定律。

在1980-2000年間,定序一個人類基因組的成本非常高昂,2001年,第一個人類基因組計畫完成,該計畫耗資約27億美元,我們可以想像在這時刻,要定序一個人類這樣的金額其實就是蓋一棟摩天大樓的費用,而且還需要費時十年以上。

2010年,隨著高通量定序技術(Next-Generation Sequencing, NGS)的推廣和應用,基因定序價格進一步降低。當時,定序一個人類基因組的成本已降至數萬美元,但此時的成本其實讓此技術是國內一線研究團隊相對可承受,但普遍研究學者是無法碰觸的。

到了2021年,基因定序價格再次大幅下降,使得定序一個人類基因組的成本已經低至1000美元以下。如今,價格進一步降低,去年(2022年),大概小於100美元就能定序一個人類的基因組,可以看出,基因定序價格的下降在很大程度上促使了這項技術的普及。隨著價格不斷降低,越來越多的人可以接觸到基因定序技術,從而推動了醫療、科研等領域的創新與發展。

定序只是技術,重要的是理解背後人類基因序列的病生理學

很多朋友在理解基因定序的技術時,可能過度專注在定序技術,而忘記他是用來捕捉底層生物分子層面的生理學,所以這邊我反而會花多一點時間分享人類基因體裡面有什麼現象,不同的特徵,其實造成某些定序基因可能無法捕捉,這時候就能建立腦中一個重要觀念:『哪些是我們看不到的,或是侷限』,因為這就是在跟民眾解釋或是理解這些資訊時重要的概念。

以林口長庚檢驗醫學部有的分子檢驗項目為例,分享這個列表的重點就是要給在座的同人一個感覺,因為不同的機構,所能提供的服務不太一樣,而這樣的限制則是每個人在自己工作場域中要去理解和因此做出調整的。另一個想分享的重點是隨者基因定序價錢降低,有的時候關鍵障礙其實是人員對於新技術的接受,以及是否有多餘的時間來適應,換句話說,未來很大機率不一定是傳統的醫學中心實際來執行比較新穎的檢驗檢查,可能開始會是外面專門的檢驗公司或是廠商來提供服務。

下面是2022年底林口長庚簡單的分子檢驗項目粗略地整理:

  • 親子鑒定| 嵌合體檢驗:短縱列重複序列(STR)
  • 胎兒檢查
    • 染色體數量異常
      • 無創產前遺傳檢驗
    • 拷貝數異常
      • 晶片式全基因體定量分析
  • 免疫分型
    • HLA高解析定序(A,B,C)、HLA-B*15:02、HLA-B27
  • 遺傳性疾病
    • 單基因位點變異
      • 乙型地中海貧血、肌力不全SGCE/DYT1/GCH1基因、涎酸酵素缺乏症NEU1、汝南氏症候群PTPN11基因檢測、急性間歇性紫質症HMBS基因檢測、APOE基因檢測
    • 短片段變異
      • 甲型地中海性貧血
    • 拷貝數變異
      • 海洋性貧血
    • 短縱列重複序列(STR)
      • 亨丁氏舞蹈、脊椎性萎縮症、小腦萎縮症、C9orf72六鹼基重複基因檢測、X染色體脆折症FMR1基因、眼咽型肌肉萎縮症(PABPN1)…
  • 複雜疾病或體質
    • 單位點變異
      • 肥胖基因檢測(MassArray)
      • 聽損基因檢測(MassArray)
      • 標準及進階型酒精代謝基因檢測(ADH1B rs1229984, ALDH2 rs671)
      • 癲癇基因檢驗套組(NGS)
  • 腫瘤
    • BRCA1/BRCA2乳癌基因定序(NGS)
    • 遺傳性大腸直腸癌30基因檢測(NGS)
    • 重點型癌症標靶藥物基因檢測(NGS)
    • 廣泛型癌症標榜藥物基因檢測(NGS)
    • 行動基因循環腫瘤DNA檢測(NGS)
    • K-RAS、EGFR、ROS1、Her2、PDGFRA、PIK3CA、ALL-RAS基因檢測(腫瘤組織)
    • MGMT甲基化程度偵測
    • 微衛星體不穩定檢測(NGS)
    • 周邊血游離DNA EGFR T790M
    • 螢光雜交ALK, 1p19 deletion, MYC, BCL2, BCL6
  • 感染症
    • 症候群病原菌檢測
      • 腦膜炎ME Panel
      • 肺炎Pneumonia Panel
    • 病毒核酸檢驗定性
      • BKV, Bordetella pertussisi, ParvoB19, Enterovirus 71 RNA, HPV16/18,12, Varcella Zoster Virus, 腸病毒、登革熱、麻疹病毒、腸病毒68型、新冠病毒、EBV DNA、Ureaplasma DNA, Pneumocystis jirovecli, HSV, hMPV RNA, HSV, 流行性感冒A,B、Mycoplasma pneumonia DNA
    • 病毒核酸檢驗定量
      • viral load: HBV, HCV, CMV
    • 細菌核酸檢驗
      • C. difficule toxin gene screen
      • 結核菌DNA, 
    • 抗藥基因檢測
      • Mycoplasma Pneumonia Macrolide resistance gene檢測

目前市面上的基因檢測服務

柯滄銘婦產科的遺傳檢驗實驗室(簡報做的時候他們網站還是舊的,現在已經改版,現代化許多),算是很老牌的,可以看出很多醫院在還沒有分生組的時候,可能都是委託相關的實驗室幫忙,慧智基因和禾馨連鎖集團則是這五年台灣很厲害的基因檢測臨床服務模式,康百事生物資訊則是目前台灣還在努力專做基因分析臨床系統的公司。

基因定序其實就是指把序列轉換成資訊

基因定序是一個過程,將DNA(去氧核糖核酸)中的核苷酸序列轉換成可以解讀的生物信息。這一過程遵循“中心法則”(Central Dogma),即信息在生物體內的傳遞過程為:DNA→RNA→蛋白質。其中,DNA中的基因信息經過轉錄過程,生成了具有相應序列的mRNA(信使RNA),接著mRNA在細胞中的核糖體上進行轉譯,形成蛋白質。雖然這個法則目前發現沒有那麼單向,可以想像成都是雙向的。

在這個過程中,DNA序列中的三個連續核苷酸組成了一個密碼子(codon),每個密碼子對應一個特定的氨基酸。氨基酸是蛋白質的基本組成單位,它們按照特定的順序排列,形成蛋白質的一維結構。在翻譯過程中,tRNA(運載RNA)會根據mRNA上的密碼子搭配相應的氨基酸,並將它們連接在一起,最終形成具有特定功能的蛋白質。

2022年才有辦法第一次取得“完整”的人類基因參考序列

雖然大家都知道第一個人類基因組參考序列公布於2000年初,但對整個人類基因組的理解和探索仍有很大空間,比如以人類基因體參考序列來說,直到2022年,telomere-to-telomere(端粒至端粒計畫)項目才成功完成了第一個完整的人類基因組定序。這一突破的實現歸功於多個因素的共同作用,其中包括三代定序技術的成熟以及新的單倍體人類細胞株的建立等。

三代定序技術,也稱為長讀長技術,使得基因組研究人員能夠一次性讀取數千至數十萬個連續的核苷酸,這對於分析複雜的基因組區域具有顯著優勢。這種技術在人類基因組的連續定序中發揮了關鍵作用,尤其是在解決高度重複區域和結構變異等難題方面。

此外,新的單被人類細胞株的建立也為telomere-to-telomere項目的成功提供了重要支持。這些細胞株來自單倍個體,具有相對較低的基因變異,從而減少了定序過程中的錯誤和不確定性,且不用處理phasing的問題。此外,新建立的細胞株還為基因組學家提供了一個統一的、高質量的研究材料,使得定序結果具有更高的可靠性和可比性。

總之,telomere-to-telomere項目成功完成第一個完整的人類基因組定序,標誌著我們在基因組科學領域邁出了重要的一步。然而,人類對基因組的認知仍處於初期階段,未來仍需在多個方面深入研究,以期揭示更多關於生命奧秘的信息。

到底人類有多少個基因呢?

從這邊最新研究可以看到,人類基因組中大約包含2萬個蛋白質編碼基因。這些基因負責編碼蛋白質,這些蛋白質在細胞和生物體的各種生命活動中發揮作用。值得一提的是,基因僅佔人類基因組的約1-2%,而大部分基因組序列是非編碼區域。這些非編碼區域被認為在基因調控、染色體結構維持以及其他細胞功能中發揮作用。儘管非編碼區域的功能尚未完全揭示,但它們在基因組研究中被認為具有重要的生物學意義,所以這邊研究裡面其實基因不止2萬,其實是六萬個基因,因為這邊包含非編碼區域的基因,可以知道數量遠遠超過蛋白質編碼基因,可見我們還有多少是不知道的。

基因變異的種類和命名

基因變異是指基因組序列中的變化,以前可能會用突變這個詞,通常會帶有一點負面,但現在反而會把變異和他對個體的影響分開,這些變化可能影響基因的功能、蛋白質結構和生物體的表型。基因變異有多種類型,常見的有單核苷酸多態性(SNP)、插入/缺失(InDels)和結構變異(SV)等。

  1. 單核苷酸多態性(SNP):SNP是指基因組中單個核苷酸的替換。它是最常見的基因變異類型,通常每隔100至300個核苷酸便有一個SNP。SNP可以分為同義變異(不改變氨基酸)和非同義變異(改變氨基酸),其中非同義變異可能對蛋白質功能產生影響。
  2. 插入/缺失(InDels):InDels是指基因組中一個或多個連續核苷酸的插入或缺失。InDels會導致序列的變化,可能影響基因的讀碼框(reading frame),從而對蛋白質的結構和功能產生影響。
  3. 結構變異(SV):結構變異是指基因組中較大片段的變化,包括重複(duplications)、缺失(deletions)、倒位(inversions)和易位(translocations)等。結構變異通常影響較大的基因組區域,可能對基因的表達和功能產生重大影響。

基因變異的命名原則通常包括以下幾個要素:基因名稱、變異類型、變異位置以及變異後的核苷酸或氨基酸。例如,對於一個位於第100個核苷酸位置的SNP,原始核苷酸為A,變異後為G,則變異可表示為:基因名稱:c.100A>G。這種表示方式有助於清晰地描述基因變異的特徵,便於研究和交流。

通常怎麼判斷一個變異的生物影響力,其中一個關鍵是其所在的位置,所以就要稍微了解一下所謂的基因結構。

人類基因結構包含多種序列元件,這些元件各自具有不同的功能,共同參與基因的轉錄、翻譯以及調控等過程。以下是一些主要的基因結構元件及其特性:

  1. 啟動子(Promoter):啟動子是位於基因上游的一段DNA序列,通常在轉錄起始點(TSS)的上游100-1000個核苷酸範圍內。啟動子的主要功能是招募RNA聚合酶,以便於基因的轉錄。啟動子序列通常包含各種核心啟動元件,如TATA盒和CAAT盒等。
  2. 內含子(Intron):內含子是指基因中不編碼蛋白質的序列區域,它們位於外顯子之間。在轉錄過程中,內含子會被刪除,生成成熟的mRNA。儘管內含子不直接參與蛋白質的編碼,但它們在基因調控、轉錄和可變剪接等方面具有重要功能。
  3. 外顯子(Exon):外顯子是指基因中編碼蛋白質的序列區域。外顯子在轉錄過程中連接在一起,形成成熟的mRNA,然後進入翻譯過程以生成蛋白質。外顯子的數量和長度在不同基因間有很大差異。
  4. 增強子(Enhancer):增強子是一段調控基因表達的DNA序列,通常位於基因上游、下游或內部。增強子通過與轉錄因子結合,影響啟動子的活性,從而調節基因的表達。增強子可以在幾千甚至幾十萬個核苷酸之外影響基因表達,並具有方向性和組織特異性。
  5. 沉默子(Silencer):沉默子是一段調控基因表達的DNA序列,與增強子相反,沉默子通過與轉錄抑制因子結合,抑制基因的表達。
  6. 3’非編碼區(3′ UTR)和5’非編碼區(5′ UTR):這些區域位於mRNA的3’端和
  7. 5’端,分別稱為3’非編碼區(3′ UTR)和5’非編碼區(5′ UTR)。它們不編碼蛋白質,但在mRNA的穩定性、轉錄後修飾和轉譯調控等方面具有重要作用。例如,一些microRNA通過與3′ UTR結合,導致mRNA的降解或轉譯抑制。
  8. 基因間區域(Intergenic regions):這些區域位於相鄰基因之間的DNA序列,它們可能包含調控元件,如增強子、沉默子等,也可能具有未知的功能。基因間區域在基因組中佔據很大比例,研究這些區域對於理解基因表達調控和基因組組織具有重要意義。
  9. 重複序列(Repetitive sequences):這些序列在基因組中重複出現,例如短串聯重複(Short Tandem Repeats, STRs)和轉座子(Transposons)等。重複序列在基因組中佔據很大比例,可能參與染色體結構的維持和基因表達調控等方面。
  10. 終止子(Terminator):終止子是指位於基因下游的一段DNA序列,通常在轉錄終止點的下游。終止子的主要功能是指示RNA聚合酶在此處停止轉錄。

所以在不同位置的變異,其實多少就會造成不同功能上的影響。另外一個很重要的觀念則是基因變異跟實際造成的表型關係,其實很有多樣性的,常常就會用下面這張圖來代表。

2023 生物資訊學習資源彙整

最近在Twitter上看到Ming Tommy Tang的分享關於生物資訊學習資源,想說就稍微紀錄一下,這邊也順便把之前寫過的一些關於資源類的文章匯集一起。

次世代定序資料分析學習資源(NGS analysis learning material)

2021 鐵人賽-AI, Data和生物資訊

這邊是原始的Twitter連結,我們把內容轉化為中文資訊,方便有興趣的人可以搜索得到。

哈佛大學生物統計教授Rafael Irizarry所建立的HarvardX Biomedical Data Science Open Online Training,內容涵蓋由淺入手,由理論到實務,由桌面端到雲端,主要是以R和Python為主。

  • Data Analysis for the Life Sciences Series
    • Statistics and R
    • Introduction to Linear Models and Matrix Algebra
    • Statistical Interference and Modeling for High-throughput Experiments
    • High-Dimensional Data Analysis
  • Genomics Data Analysis Series
    • Introduction to Bioconductor: Annotation and Analysis of Genomes and Genomic assays
    • High-performance computing for reproducible genomics with Bioconductor
    • Case Studies in functional Genomics
    • Using Python for Research

猶他大學的人類基因體學教授Aaron Quinlan,本身是bedtools作者,他的課程Applied Computational Genomics,有教學影片和相關簡報。這邊可以稍微看一下他的上課大綱:

  • Course Overview and Intro to Unix
  • Pattern searching in the human genome
  • Data frames and Importing Data
  • Intro to the tidyverse
  • DNA sequencing technologies
  • FastQ format and tools
  • Sequence mapping and alignment
  • Samtools and IGV
  • Poisson Processes in Biology
  • An introduction to awk and bioawk
  • Genetic Variation
  • SNP and INDEL discovery
  • Rates and patterns of human germline variation
  • VCF format, Hardy Weinberg Equilibrium, VCF toolkits
  • VCF annotation and interpretation
  • Genome Annotation and Resources
  • Genome Annotation Formats
  • Genome arithmetic with bedtools
  • Monte Carlo simulations and more on UNIX
  • Descriptive plots. The Central Limit Theorem

猴子演算法課程Bioinformatic Algorithms,是由Carnegie Mellon University教授Phillip Compeau(本身也創辦Rosalind,有點像是生物資訊領域的leetcode)和UCSD教授Pavel Pevzner所一起規劃的,其內容有影片、Coursera課程、電子書、互動式網頁等等不同的媒介來學習,主要針對生物問題展開,並且討論背後所衍生的演算法,算是很棒的學習素材,另一方面,也能理解生物資訊的重點不是只有程式,而是如何問問題和做假設:

  • Origin of replication
  • DNA patterns related to Molecular Clocks
  • Assemble Genomes
  • Sequence Antibiotics
  • Compare Biological Sequences
  • Fragile Regions in the Human Genome
  • Which Animal Gave Us SARS
  • How Did Yeast Become a Wine Maker
  • How Do we Locate Disease-Causing Mutation
  • Why Have Biologists still not developed an HIV Vaccine
  • Was T. rex Just a Big Chicken

Biostar創辦人Istvan Albert教授其所規劃的一系列電子書和課程,相對上面的資源來說,算是比較輕量等級的素材,內容定位在淺顯實用。

  • The Biostar Handbook
  • The Art of Bioinformatics Scripting
  • RNA-Seq by Example
  • Corona Virus Genome Analysis
  • Biostar Workflows

約翰霍普金斯的教授Michael Schatz 其所開設的Computational Genomics : Applied Compaative Genomics,在2018年的版本有提供簡報,最近兩年的則是有提供課程大綱和推薦閱讀。

  • Genomic Technologies
  • Whole Genome Assembly
  • Whole Genome Assembly and Alignment
  • The human genome and intro to long reads
  • Genomics in the Cloud
  • Read mapping
  • Variant Analysis
  • Structural Variant Analysis and Pangenomics
  • Genome Arithmetic and Plane Sweep
  • Machine Learning Primer
  • Functional Analysis
  • Human Evolution
  • Huan Genetic Disease
  • Cancer Genomics
  • Microbiome and Metagenomics
  • Genomic Futures

麻省理工學院計算生物學領域的教授Manolis Kellis則是開始蠻多機器學習/深度學習在生物醫學應用的主題,內容以啟發為主,細節則是依賴課後的閱讀,其涵蓋範圍相當廣泛。Github連結

使用國網中心超級電腦台灣衫建置定序分析流程(二)

延續上一篇:使用國網中心超級電腦台灣衫建置定序分析流程(一)的內容,往下去記錄到伺服器裡面的一些小細節。目前國網中心裡面的三組超級電腦系統,其實可以發現在規劃上的一些差異性,可以因此用來作為要在哪邊運算的考量點。

思考整體流程的改動

當開始使用高級電腦系統時,其實就會在現有的流程中,多了一段在伺服器的過程,這樣就代表要重新規劃分析的架構和想法,比如哪一個階段上雲,哪一個階段下雲,中間檔案要儲存在哪邊等等的問題。甚至在定序成本降低的時候,可以思考所謂的濕儲存,就是直接把檢體凍起來,有需要再定序。

  • 在超級電腦上分析,再將結果轉移到本地桌機進行最後的視覺化
  • 先在本地電腦將資料分類或註釋候,上傳到超級電腦中進行接下來的分析
  • 直接把整個分析流程架在超級電腦中,在遠端連進去伺服器來看資料
  • 將分析結果串接進去一般商用的雲端服務如google cloud、亞馬遜AWS或是微軟的Azure,方便後續的分享和儲存

規劃平行之架構

  • 任務平行
    • 在整個生物資訊分析流程中,其實是由不同軟體所組成的,每個軟體對於硬體的需求都不同,如何選擇正確的部分來平行運算,可以大大加速流程又節省資源。以分析三代定序的細菌基因組資料來說,就可以簡單分成幾塊,再根據特性來安排運算。
      • Basecalling => GPU需求大
      • Assembly => CPU需求大
      • Annotation => 資料庫整合需求大
      • Genotyping => 彈性分析需求大
      • Functional comparison => 匯聚分析結果需要
  • 資料平行
    • 分析流程中會有需多的中間產物,怎麼讓平行的程式輸入和輸出的資料能平順的接在一起,或是分散式的共用部分註解資料等等
  • I/O優化
    • 在本地機器上傳檔案,或是超級電腦間資料傳輸,或是超級電腦與雲端服務商如google cloud、AWS或是Azure的串接,這些都會大幅影響整個流程的時間

所需要的相關背景知識

通常阻擋一般人想要嘗試使用這類超級電腦的其實不是經費,反而使用超級電腦的經費需求遠遠小於你所想像的,1000元就可以處理小的細菌組裝,大概100個檢體了,所以覺得比自己花費維護硬體的門檻還低,主要是知識門檻,這邊是相關需要使用超級電腦的背經知識需求:

  • 命令行知識
    • shellscript: cd、mkdir、ls、cat、grep、awk、sed、ssh、scp、echo
  • 叢集電腦指定語法
    • PBS
    • Slurm
  • 基礎編成知識
    • python, R
  • 版本管理工具
    • git, conda, module
  • 基本網路協定工具
    • putty,
  • 基本伺服器環境
    • 節點架構

起手式:登入

  • 先在windows或是Mac系統中開啟命令行程式
  • 輸入以下指令,利用ssh進入節點

下面是成功登入台灣杉三號的畫面,不同超級電腦的登入畫面都不一樣,上面其實都有蠻多重要使用說明,建議都可以記錄或是好好閱讀一下,比如在台灣杉三這邊,可以看到他會把重要指令介紹,比如超級電腦環境中如何去裝載模組,以及提交需要超級電腦運行的代碼,大概只需要知道這些就可以運作了。

登入後,就可以使用模組系統的指令來看當前環境中有哪些可以使用的軟體,每個叢集電腦去處理隔離環境的方式都不同,這部分可能就是每次使用不同叢集電腦都要特別確認一下。在台灣杉則是使用Environment Modules系統來處理環境變數與全局城程式的管理,Envornment Module算是已有20年歷史在linux系統中幫助管理環境變數的工具。

可以先使用

module available

就會顯示如下的列表,展示當前環境中可以使用的工具,有時候在資料夾結構中有看到自己要用的軟體,在使用module available沒有看到,這時候就需要進一步去聯繫台灣杉這邊的工作人員來幫忙。

最常見的一個使用場景是使用Anaconda來做軟體版本的管理,這時候就可以先用module load來讀入Anaconda,接者便可以用conda來做環境管理以及安裝軟體,之後將程式丟到運算節點上時候,也可以用這方式來運作。如下的代碼:

# load library with module load
module load pkg/Anaconda3

# able to use conda for environmnenet manage
conda create -n set_upENv

提交代碼至叢集電腦

再來比較讓多數人困惑的是怎麼調用叢集電腦來做運算,其實相當簡單,主要就是提交一份shellscrip代碼,代碼前半部有註明針對叢集電腦運算的需求,比如所用的佇列、使用的代號、需要的記憶體、需要的CPU數量等等,提交後,節點電腦則在區分配相關資源用來執行這個shellscrip代碼。但台灣杉一號三號的叢集電腦指令不太一樣,台灣杉一號是使用比較傳統的PBS系統,而台灣杉三號則是Slurm系統。

PBS版本

# Shell 說明
#!/bin/bash
# PBS 指令
#PBS -l walltime=00:30:00
#PBS -l select=2:ncpus=16:mpiprocs=16
#PBS -N sample_job
#PBS –q ctest
#PBS –P TRI654321
#PBS –j oe
# 程式與指令
cd $PBS_O_WORKDIR

Slurm版本


# Shell 說明
#!/bin/bash
# Slurm 指令
#SBATCH -A ACD110078        # Account name/project number
#SBATCH -J hello_world      # Job name
#SBATCH -p test             # Partiotion name
#SBATCH -n 24               # Number of MPI tasks (i.e. processes)
#SBATCH -c 1                # Number of cores per MPI task
#SBATCH -N 3                # Maximum number of nodes to be allocated
#SBATCH -o %j.out           # Path to the standard output file
#SBATCH -e %j.err           # Path to the standard error ouput file
#程式與指令
module load compiler/intel/2020u4 IntelMPI/2020
mpiexec.hydra -bootstrap slurm -n 24 /home/user/bin/intel-hello

這邊比較重要的是兩個,一個是PBS -P參數和SBATCH -A參數,這邊就是用來放計畫編號的,會決定所運行的程式費用,扣在哪一個帳號下面,另一個則是佇列參數PBS -q 和SBATCH -p,這邊則是決定所使用的運行環境資源,下面分別有台灣杉一號和三號的佇列類別。

台灣杉一號

台灣杉三號

閱讀參考

[台灣杉] 善用module切換python環境

使用國網中心超級電腦台灣衫建置定序分析流程(一)

隨者二代定序主流方法的專利過期,相關廠商百花齊放,三代定序也逐漸成熟,定序本身的價錢再逐漸降低,之後的成本將會是分析和計算,以及儲存。可以看去年Nave Whiteford在他部落格41J Blog於去前九月有整理相關資訊

不過上面那個表格可能對一般人來說,只代表一件事就是定序技術有很多“工程”面會影響到價格和輸出。

那撇開實驗端,後續生物資訊流程如何保有彈性是一個很重要的問題。直接購買大型相關的電腦設備是一個好的方式嗎?或許要看能夠承擔的相關維護人力,以及相配套的需求,初期或許使用在地入門的設備搭配雲端分析資源是一個不錯的方式。

國家高速網路與計算中心在2017年開始逐步建置對外服務的超級電腦,在2018年台灣扇杉一號開始提供服務,緊接者陸續台灣杉二號和三號都上線服務,在世界超級電腦排名TOP500中,都排在前兩百名,且費用本身會比直接部署在Google雲端或是亞馬遜雲服務AWS便宜十倍以上,甚至特定情境下,對於學術領域還有折購,核銷上,其實對於國科會計畫經費或是廠商儲值都蠻方便的。

三座超級電腦在設計上有許多不同的地方,台灣杉一號以CPU計算為主,具有30000計算核心,檔案系統總容量為3.4PB,台灣杉二號的特色則是GPU計算上,有2016個NVIDIA Tesla V100 32GB GPU,算力排名目前最突出的,目前常聽到的台灣雲TWCC(Taiwan Computing Cloud)主要就是在台灣杉二號上面,有提供容器化服務的架構,台灣杉三號則是最新架構,算是針對多元科學計算做規劃,國網生科雲也是在台灣杉三號上面,不過以不同節點登入。

對於一開始沒有使用過HPC的人,其實在理解上會需要一些時間,但絕對是值回票價的技能投資。這邊簡單介紹入手的流程,可以簡單分成兩個部分:(1). 申請使用帳號與資格。(2). 實際登入使用

申請使用帳號iService

不管你是要這些系統的哪一個,不論是台灣杉一號、台灣杉二號、台灣杉三號、台灣雲TWCC或是國網生科雲,最簡單的方式其實是直接在iService計算資源服務網開通所有系統。

建置好會員帳號後,就可以開始使用相關服務。

第一個最重要的資訊就是你的主機帳號和OPT認證碼,這邊就在會員中心,再點選會員資訊,在主機帳號資訊這邊點進去,就會顯示自己被配置的主機帳號和OTP認證碼,這邊其實除了會員帳密外,還會設置主機帳密,這組帳密就是你登入超級電腦的帳密。

上面的主機帳號,就是你之後要登入超級電腦時的帳號名稱,是由系統自動給你的,下面則有一些OTP認證碼的產生機制,這則是每次登入超級電腦都會有的認證機制。

每個人在建置帳號後,其實都會有一個免費試用額度,在台灣杉系統中的運行方式,都是綁定所謂的計畫來作為計價和相關權限管理。

這部分則是可以點選會員中心->計畫管理->我的計畫,在還沒有另外儲值時,就會有一個試用計畫。如下面的列表,每個計畫都會有個計畫系統代號,這就會是你跑運算時,要提交的代號,這代號會決定你在哪個超級電腦和佇列有運算的權限。

超級電腦名稱台灣杉一號台灣杉二號台灣杉三號
操作資料使用說明使用說明使用說明
登入節點140.110.148.11
140.110.148.12
使用TWCC CLItwnia3.nchc.org.tw
生科雲登入節點(可調用GPU)
t3-c3.nchc.org.tw
資料傳輸節點140.110.148.21
140.110.148.22
使用TWCC CLIt3-x1.nchc.org.tw
t3-x2.nchc.org.tw
系統架構PBS
API
(像是Docker用法)
Slurm
登入範例ssh 主機帳號@140.110.148.11ssh 主機帳號@twnia3.nchc.org.tw
計價方式計畫預儲值
(最便宜)
隨用隨付
(整體最貴)
計畫預儲值
(彈性最多)

從醫院到個人,從中心到去中心

前陣子有機會去高中分享主題,被指定了這個題目:檢驗醫學x精準醫療x人工智慧,在思考要跟現在高中生分享些什麼,才不會讓他們無聊,也不想要打高空分享艱澀的主題,但希望內容是對他們真的有幫助的,剛好前陣子ChatGPT出來,基本上對於文字工作者來說幾乎是一個萬用工具,你可以請他寫文章、做規劃、產生摘要、給予回應意見等等,對於高中生來說,可以是作業殺手,也代表說傳統教育需要好好調整。

這個主題,其實是要帶入基因體定序、為何需要AI(數位資訊工具)、傳統組織從中心到去中心、區塊鏈技術的出現,最後空投1000元的以太幣給課堂學生,有被空投的學生幾乎都會驚訝的叫出聲音,然後詢問這到底是什麼,是個有趣的經驗。

去中心化科學與Web3:鐵人三十天系列文章

這次剛好參與iThome 2022鐵人賽,藉此機會把這一兩年觀察Web3與科學交界的趨勢稍微去記錄下來,文章有點瑣碎,因為很多使用區塊鏈在科學上的場景其實迅速在嘗試中,到底這樣的工具對於未來生技產業的發展會有什麼樣的影響,就藉由這幾天的“硬寫”來記錄,我們從web3的開始到生技產業的變化,去中心化科學在以太坊上面的出現,往下去看資料去中心化的選項,往下去探索gitcoin平台,也在過程中建立了一個去中心化項目pRoots,剛好在今天,也參與Twitter Space上面的討論,很喜歡這種自由交流想法的氛圍,希望web3在去中心化這塊能保有這樣的多樣性。

三十天的文章:

我們的基因體時代-Web3 & 去中心化科學DeSci 序曲

我們的基因體時代-Web3 & 去中心化科學DeSci: 談Web3會太早嗎?

我們的基因體時代-Web3 & 去中心化科學DeSci: 網路進化-讀-寫-擁有

我們的基因體時代-Web3 & 去中心化科學DeSci: 十年生技自由化(I)

我們的基因體時代-Web3 & 去中心化科學DeSci: 十年生技自由化(II)

我們的基因體時代-Web3 & 去中心化科學DeSci: 十年生技自由化(III)

我們的基因體時代-Web3 & 去中心化科學DeSci: 十年生技自由化(IV)

我們的基因體時代-Web3 & 去中心化科學DeSci: 十年生技自由化(V)

我們的基因體時代-Web3 & 去中心化科學DeSci: 以太坊基金會和去中心化科學

我們的基因體時代-Web3 & 去中心化科學DeSci: 以太坊基金會和去中心化科學(II)

我們的基因體時代-Web3 & 去中心化科學DeSci: 去中心化儲存與研究發表

我們的基因體時代-Web3 & 去中心化科學DeSci: IPFS和Datum

我們的基因體時代-Web3 & 去中心化科學DeSci: IPFS 生態系介紹

我們的基因體時代-Web3 & 去中心化科學DeSci: IPFS 開發工具與資源

我們的基因體時代-Web3 & 去中心化科學DeSci: Web3和生物科技

我們的基因體時代-Web3 & 去中心化科學DeSci: 自由科學巨頭

我們的基因體時代-Web3 & 去中心化科學DeSci: Gitcoin平台

我們的基因體時代-Web3 & 去中心化科學DeSci: 綠色膠囊

我們的基因體時代-Web3 & 去中心化科學DeSci: pRoots

我們的基因體時代-Web3 & 去中心化科學DeSci: IPLD

我們的基因體時代-Web3 & 去中心化科學DeSci: 區塊鏈與基因資料

我們的基因體時代-Web3 & 去中心化科學DeSci: GenomesDAO, 基因貓(Geneticats)

我們的基因體時代-Web3 & 去中心化科學DeSci: Phage Directory

我們的基因體時代-Web3 & 去中心化科學DeSci: Polygon

我們的基因體時代-Web3 & 去中心化科學DeSci:ReFi

我們的基因體時代-Web3 & 去中心化科學DeSci:機器學習與區塊鏈

我們的基因體時代-Web3 & 去中心化科學DeSci:機器學習與區塊鏈(II)

我們的基因體時代-Web3 & 去中心化科學DeSci:Ravel Protocol

我們的基因體時代-Web3 & 去中心化科學DeSci:聯邦學習與區塊鏈

我們的基因體時代-Web3 & 去中心化科學DeSci:新時代的出現