Motivation et objet de la thèse
Cette thèse ne traite ni des épidémies ni du marché de l’emploi. Pourtant elle n’est pas sans rapport avec l’article de blog posté par Karin Kimborough le 20 mars 2020. Alors qu’à la suite de la Chine, l’Europe se confinait pour tenter d’enrayer la propagation de l’épidémie de Covid-19 et que gouvernement et observateurs se demandaient quel pourrait être l’impact de cet arrêt brutal de l’activité sur l’économie.
En observant les embauches déclarées sur leur plateforme, les équipes du premier réseau social professionnel estimaient que la quarantaine généralisée mise en place en Chine puis en Italie, premier pays européen touché par la pandémie, avait réduit le nombre d’embauches de plus de 40% et prédisaient le même sort au marché de l’emploi américain alors que le nombre de cas commençait à s’y multiplier.
Face au besoin de comprendre les implications de cette crise inédite, notamment pour éclairer des décideurs devant prendre des décisions dans l’urgence, ils n’étaient pas seuls à utiliser des données non conventionnelles. L’Institut National de la Statistique et des Études Économiques (INSEE), dans sa note de conjoncture de mars 2020, faisait pour la première fois l’usage de données dites de « haute fréquence » pour chiffrer la chute de l’activité. Ce passage de questionnaires à l’efficacité et l’exactitude éprouvée à des indices indirects et bruités comme la consommation électrique ou les statistiques de paiement par carte bancaire est dans la droite ligne du passage du sur-mesure (customemade) au prêt-à-porter (readymade) dans la recherche en sciences sociales que décrit Matthew Salganik dans son livre Bit by Bit, Social Research in the Digital Age (Salganik 2017).
La capacité de ces données non conventionnelles à capter ce qui échappe aux indicateurs classiques s’avère utile au-delà du suivi et de la prévision économique en période de crise. Elles rendent également possible l’étude empirique de problématiques structurelles dont les manifestations restaient invisibles à l’économétricien, dans le monde analogique. C’est une telle possibilité qui est explorée dans cette thèse. À travers l’utilisation de données issues de la plateforme spécialisée meilleursagents.com, elle vise à améliorer la compréhension des mécanismes de rencontre entre acheteurs et vendeurs, et de fixation des prix sur le marché de l’immobilier résidentiel.
Avec plus de 7 500 milliards d’euros, selon les comptes patrimoniaux 2019 de l’INSEE, les logements et les terrains bâtis représentent plus de la moitié du patrimoine brut des ménages français. Pour la majorité des ménages propriétaires, la résidence principale en est souvent de loin l’actif le plus important. L’intérêt d’une analyse fine du fonctionnement de ce marché et des processus qui aboutissent à la formation du prix apparait ainsi clairement. Au-delà des seulsménages, les parties prenantes à ces questions sont nombreuses. En tant qu’objet d’imposition au moment des mutations ou, selon les pays, comme assiette de la taxe foncière, les pouvoirs publics ne peuvent qu’être intéressés par les questions qui entourent la découverte du prix des biens immobiliers. De plus, par son intrication avec le marché du travail, la compréhension du fonctionnement du marché du logement est critique pour tout gouvernement qui voudrait optimiser l’appariement entre employeurs et employés. D’autre part, le montant d’une transaction immobilière représente plusieurs années de revenus, elle donc fait souvent l’objet d’un crédit dont le financeur a tout intérêt à être en mesure d’appréhender les mécanismes en jeu. Le lien entre la crise financière globale de 2008 et le marché immobilier américain en est, en la matière, un exemple caricatural. Enfin, les différents acteurs de l’industrie qui s’est développée pour accompagner les transactions immobilières profiteraient bien évidemment d’une meilleure compréhension académique de l’objet même de leur travail. C’est en premier lieu vrai pour les intermédiaires comme les agents immobiliers, mais aussi les entreprises, notamment numériques, qui vendent outils et services à ces derniers.
Ce n’est donc pas un manque d’intérêt, mais bien un manque de données, qui est la cause du développement limité de la littérature empirique traitant des mécanismes microéconomiques présidant à une vente immobilière. Jusqu’à présent, l’essentiel des études économétriques sur le marché du logement se basait sur les registres fiscaux ou notariaux, qui ne renseignent que sur les transactions finales et ne disent rien des mécanismes ayant abouti à ces transactions. Dans le meilleur des cas, les auteurs ayant accès aux historiques des annonces passées par les vendeurs pour promouvoir leur bien en vente obtenaient ainsi une vision partielle du processus, mais demeuraient aveugles à l’activité des acheteurs. Cette situation se trouve en partie abolie par l’arrivée et l’importance croissante de plateformes numériques intervenant au cours de ces transactions. Comme il est d’usage pour les entreprises du net, ces plateformes apportent un soin particulier à la collecte des traces que laissent derrière eux les utilisateurs de leurs services. Par ailleurs, en tant qu’intermédiaire sur un marché multifaces, reliant acheteurs, vendeurs et agents immobiliers, elles ont vocation à intervenir à chaque étape des processus amenant à la transaction. Ces deux facteurs en font des lieux privilégiés d’observation permettant d’accéder à une vision holistique des mécanismes à l’œuvre dans le marché immobilier résidentiel. Les apports empiriques qu’entend développer cette thèse sont essentiellement bâtis sur l’avantage qui découle de l’accès à de telles données inédites.
Les données numériques dans la recherche en science sociale
La particularité de cette thèse réside donc dans les données qu’elle mobilise. Pour l’essentiel, la littérature empirique en économie et en finance immobilière s’appuie sur des données de transactions ou d’annonces collectées par des institutions publiques, comme le fisc (base des Demandes des Valeurs Foncières), les notaires (Base d’Informations Économiques Notariales), ou des acteurs du marché comme les agents immobiliers (base Multi Listing Services aux États-Unis). Sont également utilisées des enquêtes menées auprès des particuliers comme l’Enquête Logement de l’INSEE ou les déclarations de patrimoine des ménages, particulièrement dans les pays où la fiscalité foncière est basée sur la valeur vénale des biens immobiliers. Les trois études présentées ici exploitent un autre type de données : les traces laissées par les utilisateurs d’une plateforme immobilière en ligne, le site meilleursagents.com. En cela ces travaux participent au mouvement commun à l’ensemble des sciences sociales d’utilisation des données numériques à des fins de recherches académiques.
Ce changement de paradigme dans la recherche en sciences sociales est le fruit d’un changement sociétal et anthropologique majeur lié au rôle important et toujours grandissant des technologies de l’information et de la communication depuis la fin du XXe siècle. Une des très nombreuses conséquences de ce passage vers une société de l’information (Webster 2002) est la croissance exponentielle de la quantité d’information produite et stockée à l’origine de ce que l’on a appelé les Big Data, ou données massives (voir Hilbert et Lopez, 2011, pour une mesure de cette croissance). Par leur omniprésence, les ordinateurs, smartphones et divers capteurs connectés documentent la vie des êtres humains dans des proportions inégalées. Même si on laisse de côté les traces numériques inconscientes que nous semons (positions GPS, informations de paiement par carte bancaire, données d’utilisations des sites et applications, entre autres), la production volontaire de contenu à travers le web participatif reste vertigineuse. On se restreindra ici à un seul exemple, le réseau social Twitter estime que 500 millions de tweets sont écrits et envoyés chaque jour sur sa plateforme. À raison de 33 caractères en moyenne , c’est plus de 1,6 milliard de signes qui sont écrits chaque jour, soit l’équivalent de 1 700 fois À la Recherche du Temps Perdu (qui compte 9 609 000 signes, ou 1,5 million de mots, répartis sur 7 tomes). Sans compter que le roman de Marcel Proust ne contient ni image ni vidéo.
Toujours dans le même ouvrage Salganik identifie dix caractéristiques des données numériques. Trois sont à ces yeux des avantages pour leur utilisation par des chercheurs et sept des inconvénients qui poussent à les manipuler avec précaution. Pour pleinement comprendre les enjeux liés à l’utilisation qui en est faite dans cette thèse, il est important que le lecteur ait cette caractérisation à l’esprit. Nous nous proposons donc de la résumer ici, en l’illustrant autant que possible par des exemples tirés de travaux présentés ici. Pour plus de détails et d’exemples, le lecteur voulant approfondir le sujet est renvoyé à l’ouvrage original. Ces données sont, selon lui :
● Massives
● Enregistrées en continu
● Inertes
● Inaccessibles
● Incomplètes
● Non représentatives
● Dérivantes
● Perturbées algorithmiquement
● Sales
● Sensibles
Les plateformes en ligne, reflets numériques de l’économie
En chimie, un catalyseur est un élément qui déclenche ou accélère une réaction. C’est par ce terme que David Evans et Richard Schmalensee (2007) décrivent ces entreprises du web qui, implémentant un modèle économique de plateforme, ont pris une position dominante dans de nombreuses industries : publicité (Google), distribution (Amazon), tourisme (Airbnb), transport (Uber), média (Facebook), pour ne citer que les plus emblématiques. La notion de plateforme n’est pas nouvelle en économie. Elle a été pour la première fois formalisée dans un article fondateur par Tirole et Rochet (2003). Ils les définissent comme des organisations permettant à utilisateurs et fournisseurs d’interagir sur des marchés bi- ou multifaces présentant des externalités de réseau croisées positives. Grâce à sa capacité de mettre en relation un très grand nombre d’individus à un coût marginal négligeable, Internet a permis l’émergence de ce type d’entreprises. Les données générées par les acteurs de ces marchés jouent un rôle primordial dans l’organisation et la conception des plateformes web. Un grand soin est donc apporté à leur collecte. Dans une analyse néomarxiste de cette nouvelle économie, Nick Srnicek (2017) qualifie même ces dernières d’ « appareils d’extraction de la donnée utilisateur ». Du point de vue du chercheur en économie, elles sont une occasion sans précédent d’observer in situ le comportement granulaire des agents économiques. Peter Coles, ancien professeur d’économie à Harvard et aujourd’hui chef économiste chez Airbnb, qualifie ces entreprises de « magasin de bonbon pour économiste » .
|
Table des matières
1. Introduction
I. Motivation et objet de la thèse
II. Les données numériques dans la recherche en science sociale
III. Les plateformes en ligne, reflets numériques de l’économie
IV. Quel apport pour l’étude du marché immobilier résidentiel
V. Présentation de la thèse
2. Estimating the housing market matching function through Internet traffic analysis
I. Introduction
II. Literature
III. Dataset
IV. Simple Matching Function
V. Robustness Tests
VI. Search Intensity of the Buyers
VII. Market Participants’ Characteristics
VIII. Conclusion
Appendix
3. The home buying problem: evidence from the Internet
I. Introduction
II. Theoretical Model
III. Data Gathering
IV. Characteristics of the Search
V. Empirical Analysis and Results
VI. Robustness Checks
VII. Conclusion
Appendix
4. Homesellers and homebuyers self-reported estimations
I. Introduction
II. Data
III. Explaining the Error
IV. Loss-Aversion
V. Search Stage
VI. Conclusion
Appendix
5. Conclusion
Bibliographie