Back to Question Center
0

Semalt: Cum să rezolvăm provocările privind datele de pe Web?

1 answers:

A devenit o practică obișnuită pentru întreprinderi de a achiziționa date pentru aplicații de afaceri. Companiile caută acum tehnici mai rapide, mai bune și mai eficiente pentru a extrage date în mod regulat. Din păcate, răzuirea web-ului este extrem de tehnică și necesită un timp destul de lung pentru a stăpâni. Dinamica web este principala cauză a dificultății. De asemenea, un număr destul de mare de site-uri web sunt site-uri dinamice și sunt extrem de greu de ras - мягкая мебель потютьков фото.

Provocările în extracția web se datorează faptului că fiecare site este unic, deoarece este codificat diferit de toate celelalte site-uri Web. Deci, este practic imposibil să scrieți un singur program de ștergere a datelor care să poată extrage date de pe mai multe site-uri web. Cu alte cuvinte, aveți nevoie de o echipă de programatori experimentați pentru a codifica aplicația dvs. de ștergere web pentru fiecare site țintă. Codarea aplicației dvs. pentru fiecare site nu este doar obositoare, ci și costisitoare, în special pentru organizațiile care necesită periodic extragerea datelor de la sute de site-uri. Așa cum este, răzuirea web-ului este deja o sarcină dificilă. Dificultatea este agravată dacă site-ul țintă este dinamic.

Unele metode utilizate pentru a cuprinde dificultățile de extragere a datelor de pe site-urile dinamice au fost prezentate mai jos.

1. Configurarea proxy-urilor

Răspunsul anumitor site-uri Web depinde de locația geografică, sistemul de operare, browserul și dispozitivul utilizat pentru a le accesa. Cu alte cuvinte, pe aceste site-uri web, datele care vor fi accesibile vizitatorilor din Asia vor fi diferiți de conținutul accesibil vizitatorilor din America. Acest tip de caracteristică nu numai că face confuzie cu crawlerele web, ci și le face ușor accesarea cu crawlere pentru ei, deoarece trebuie să găsească o versiune exactă a accesării cu crawlere și această instrucțiune nu este, de obicei, în codurile lor.

În mod obișnuit, sortarea problemei necesită o lucrare manuală pentru a ști câte versiuni un anumit site web are și, de asemenea, pentru a configura proxy-urile pentru a culege date dintr-o anumită versiune. În plus, pentru site-urile care sunt specifice locației, racheta de date va trebui să fie implementată pe un server care se află în aceeași locație cu versiunea site-ului țintă

2. Browser Automation

Aceasta este potrivită pentru site-urile cu coduri dinamice foarte complexe. Se face prin redarea întregului conținut al paginii utilizând un browser. Această tehnică este cunoscută sub numele de automatizarea browserului. Seleniul poate fi folosit pentru acest proces deoarece are capacitatea de a conduce browserul din orice limbaj de programare.

Seleniul este utilizat în principal pentru testare, dar funcționează perfect pentru extragerea datelor din paginile web dinamice. Conținutul paginii este oferit în primul rând de browser deoarece acesta se ocupă de provocările codului JavaScript de inginerie inversă pentru a prelua conținutul unei pagini.

Atunci când conținutul este redat, acesta este salvat local, iar punctele de date specificate sunt extrase mai târziu. Singura problemă cu această metodă este că este predispusă la numeroase erori.

3. Manipularea solicitărilor de post

Unele site-uri web necesită o anumită intrare a utilizatorilor înainte de a afișa datele solicitate. De exemplu, dacă aveți nevoie de informații despre restaurante într-o anumită locație geografică, unele site-uri web pot cere codul poștal al locației necesare înainte de a avea acces la lista de restaurante cerută. Acest lucru este, de obicei, dificil pentru crawlere, deoarece necesită introducere de către utilizator. Cu toate acestea, pentru a avea grijă de probleme, cererile de post pot fi create folosind parametrii potriviți pentru instrumentul de răzuire pentru a ajunge la pagina țintă.

4. Fabricarea URL-ul JSON

Unele pagini web necesită apeluri AJAX pentru încărcarea și actualizarea conținutului lor. Aceste pagini sunt greu de ras, deoarece declanșatorii fișierului JSON nu pot fi urmăriți cu ușurință. Prin urmare, este necesară testarea manuală și inspectarea pentru a identifica parametrii corespunzători. Soluția este fabricarea adresei JSON necesare cu parametrii corespunzători.

În concluzie, paginile web dinamice sunt foarte complicate, astfel încât acestea necesită un nivel ridicat de expertiză, experiență și infrastructură sofisticată. Cu toate acestea, unele companii de recuperare a paginilor web se pot ocupa de aceasta, astfel încât este posibil să aveți nevoie să angajați o companie terță parte de recuperare a datelor.

December 22, 2017