W celu wyszukiwania odpowiednich fragmentów DNA kodujących dane białko konieczne jest takie przechowywanie całego genomu organizmu, aby poszukiwanie mogło odbywać się w łatwy sposób i przy użyciu jak najmniejszej ilości prób i reakcji. W tym celu DNA organizmów przechowuje się w postaci pociętych fragmentów zasocjowanych na odpowiednich wektorach DNA. Jeśli z określonym prawdopodobieństwem w zbiorze wektorów możliwe jest odnalezienie fragmentów reprezentujących cały genom danego organizmu, wówczas mówimy o bibliotece DNA. Przeszukiwanie określa się mianem screeningu. Stosuje się przy tym różnorodne metody, uzależnione od posiadanych przez nas informacji o szukanym fragmencie i jego specyfiki.
Jeśli do tworzenia biblioteki wykorzystano mechaniczne metody fragmentacji DNA, wówczas w celu sprawdzenia jakości takiej biblioteki stosuje się następujący wzór: N=ln(1-P)/ln[1-(I/G)], przy czym:
N - to ilość niezależnych klonów
P - prawdopodobieństwo obecności danej sekwencji w banku (przyjmuje się zazwyczaj 99%, rzadziej 95%)
I - wielkość średniego insertu (wstawki) w wektorze wyrażona w parach zasad
G - wielkość genomu w parach zasad
Zasadniczo wydziela się dwa rodzaje bibliotek DNA: biblioteki genomowe i biblioteki cDNA.
Biblioteki genomowe charakteryzują się tym, że do jej tworzenia użyto bezpośrednio genomowego DNA, a więc takiego zawierającego poza kodującym DNA także wszystkie niekodujące fragmenty, w tym również introny czy niekodujące sekwencje powtarzalne, sekwencje regulatorowe czy sekwencje ruchome. Często zdarza się także, że poszukiwana przez nas sekwencja nie stanowi osobnej wstawki na którymś wektorze, ale została podzielona pomiędzy dwa czy więcej wektorów. Im dłuższa poszukiwana sekwencja tym większe prawdopodobieństwo, że w trakcie fragmentacji genomowego DNA została ona podzielona. Biblioteki genomowe mają duże znaczenie przy badaniu sekwencji regulatorowych, takich jak promotory, enhancery czy inne.
Biblioteki cDNA charakteryzują się tym, że do ich stworzenia posłużono się cDNA otrzymanym na bazie całościowego mRNA otrzymanego z komórek danego organizmu. Dokonuje się odwrotnej transkrypcji z mRNA na cDNA za pomocą enzymu - odwrotnej transkryptazy. Co istotne, taka biblioteka posiada jedynie fragmenty kodujące białka, nie zawiera więc ani intronów ani sekwencji regulatorowych czy innych niekodujących sekwencji DNA.
Odwrotna transkryptaza izolowana jest z retrowirusów, a więc wirusów mających zdolność do odwrotnej transkrypcji. Enzym ten jako matrycę do syntezy komplementarnego DNA używa mRNA jako matrycy. Dolne oligonukleotydy dT przyłączają się do ogona poli(A) mRNA i wykorzystywane są jako starter dla enzymu - transkryptazy. W wyniku podwyższenia pH do alkalicznego odczynu następuje dysocjacja jednoniciowego RNA. DNA nie ulega w tych warunkach hydrolizie i może służyć jako matryca w celu dobudowania drugiej nici DNA. Wykorzystywany jest w tym celu enzym - terminalna transferaza, która dodaje pojedyncze nukleotydy de novo, a więc bez konieczności posiadania startera. Dopiero te dobudowane przez nią nukleotydy służą jako starter dla normalnej polimerazy. Do cDNA przyłącza się w odpowiedni sposób linkery zawierające miejsce cięcia dla określonych enzymów restrykcyjnych. Aby uniemożliwić cięcie danym enzymem w obrębie badanej sekwencji zostaje ona zmetylowana przed przyłączeniem linkerów. W ten sposób sekwencje cięcia dla danego enzymu restrykcyjnego w obrębie badanej sekwencji cDNA są zmetylowane i nie ulegają cięciu. Inaczej jest w linkerach, które dołączane są po metylacji. Są one więc wrażliwe na działanie enzymu restrykcyjnego. W ten sposób można stworzyć dwuniciowe cDNA mające lepkie końce na obu stronach. W ten sposób ułatwione jest łączenie fragmentów cDNA z wektorami.
Jak już wspomniano, tą metodą otrzymujemy reprezentację jedynie kodującego DNA. Należy jeszcze zaznaczyć, że w danej tkance i danych warunkach metabolicznych mogą w komórce być aktywne różne grupy genów, co będzie skutkować różnicami w otrzymanych cDNA. Dlatego niezwykle ważny staje się czas i warunki pobierania mRNA. Problem ten oczywiście nie istnieje, jeśli poszukiwany przez nas gen jest cały czas aktywny transkrypcyjnie i ulega ekspresji we wszystkich rodzajach komórek.
Oczywistą zaletą biblioteki cDNA jest fakt, że posiada ona jedynie kodujące DNA. Najczęściej buduje się biblioteki w ten sposób, że jednemu wektorowi odpowiada jeden, cały gen. Dodatkowo brak intronów pozwana na wykorzystanie takiego cDNA do namnożenia funkcjonalnego białka, bez konieczności sztucznego przeprowadzania splicingu.