Google Maps Scraper (Met Reviews!)

14 januari 2024
 - 
 - 

Dit webscraping-project begon met een klant die een nieuwe bedrijvengids start. Aangezien de bedrijvengids nieuw is, en nog geen gebruikers heeft, wil hij een snelle manier om de site te vullen met kwalitatieve bedrijfsgegevens en klantreviews.

Google Maps Scraping

Al snel kwamen we met Google Maps als kwalitatieve gegevensbron. Dus api-koppelen en binnenhalen maar? Helaas... Hoewel Google Maps een API heeft voor het binnenhalen van bedrijfgegevens is deze erg beperkt. Je kunt enkel een paar details als naam, address en gemiddelde ratings binnenhalen.

Scraping tot de redding! We bouwen voor de klant met een betrouwbare webscraper voor het verzamelen van alle informatie op Google maps. Dit omvat:

  • Standaardinformatie als naam, address, openingstijden.
  • Foto's van het bedrijf: Streetview, Maps en foto's gemaakt door gebruikers.
  • Reviews over het bedrijf: Inclusief text, gebruikersnaam en eventuele afbeeldingen.

Antiscraping-omzeilen

Google houdt hun gebruikersdata natuurlijk liever voor zichzelf. Dit houdt in dat ze een aantal beveiligingen in hebben gebouwd tegen geautomatiseerde dataverzameling. Gelukkig hebben we een aantal slimme trucjes gevonden om dit te omzeilen. Met onder andere Captcha-solving en Roterende IP-adressen.

Techniek

We bouwden deze webscraper in Python, met een speciale versie van Selenium Webdriver, BeautifulSoup en Pandas. Deze aangepaste webscraper heeft speciale "flags" waardoor het lijkt op een reguliere chrome driver. Ook gebruiken we roterende IP-adressen om zo ons server-ip niet te tonen aan de webserver.

Geautomatiseerd Captcha's oplossen

Mocht er toch een Captcha optreden? Geen probleem, we koppelen de sessie dan door naar een bedrijf gespecialiseerd in Captcha's oplossen.

In essentie hebben ze een pool flexibele krachten in lagelonenlanden die handmatig de captcha's oplossen met een remote-sessie. Aangezien we enkel de captcha informatie doorgeven in de remote-sessie, voorkom je eventuele beveiligingsrisico's.

Hulp nodig?

Resultaat is een nette database met alle bedrijfsgegevens en reviews. Zodat deze informatie gemakkelijk kan worden geïntegreerd in de klant hun bedrijvengids.

Een soortgelijk project, of andere informatie verzamelen vanaf het internet? Plan een kennismaking, en vertel ons over je project!