Les oxydes à fortes permittivités et leur intégration dans la microélectronique

Télécharger le fichier pdf d’un mémoire de fin d’études

Al2O3

A priori, l’alumine n’apporte pas un gain significatif par sa permittivité que l’on évalue à 10. Mais si l’on se souvient que la plupart des oxydes candidats que nous avons indiqués présente également un intérêt pour la fabrication de mémoires [Kingon], l’oxyde d’aluminium paraît dans ce cas un excellent choix. En outre, on peut le considérer apte à remplacer SiO2 à très court terme dans les toute prochaines génération de MOSFETs, dans l’attente d’éventuelles solutions plus durables. Tout d’abord, outre des décalages de bandes parfaitement adaptés [Robertson2] [I-2-a], l’alumine est stable sur le silicium jusqu’à haute température: il n’y aura pas de problème de réaction à l’interface ni lors du dépôt, ni lors des différents traitements CMOS. Cela rend aussi l’alumine compatible avec une électrode poly-Si. Mais cette stabilité est supposée à l’équilibre thermodynamique et ne garantit pas pour autant qu’il n’y aura pas formation d’une interface non-souhaitée durant le procédé de dépôt qui, par essence, a lieu hors équilibre. A ce propos, on a observé la formation d’une silicate interfaciale en déposant de l’alumine sur silicium par CVD, le précurseur étant le triéthyldialuminium [Klein] (figure 18).
Or, il est possible de faire croître de l’alumine par ALD (les deux précurseurs étant le triméthylaluminium et l’eau) sur du silicium non-oxydé (traité HF) sans former de silice interfaciale [Gusev1-2], ce qui rend la technique particulièrement intéressante. La figure 19 prouve qu’il est donc possible non seulement de déposer de l’alumine sur du silicium sans formation de silice à l’interface, mais aussi d’utiliser ensuite une grille en silicium polycristallin classique.
Ces qualités singulières compensent la faible permittivité de l’alumine, du moins à court terme. Et c’est pourquoi on peut considérer cet oxyde comme futur remplaçant potentiel du SiO2 dans l’attente d’une plus grande expertise dans la croissance d’oxydes à plus fortes permittivités. Un transistor, de longueur de grille 80 nm, utilisant Al2O3 et une électrode poly-Si a d’ailleurs été réalisé dans des conditions standards de procédés CMOS (parmi lesquels un recuit thermique rapide d’activation de dopants dépassant 1000 °C) [Buchanan]. On a mesuré un courant de fuite 100 fois plus faible que sur un équivalent SiO2 (EOT = 1.3 nm). Même si le fonctionnement était stable et fiable, la mobilité des porteurs a été mesurée à 100 cm2V-1, soit deux fois moins que celle donnée par la courbe de mobilité universelle. Une explication à cela nécessitera une étude approfondie de la croissance ALD de Al2O3.
La diffusion des dopants de l’électrode durant les recuits d’activation peut poser problème. Par exemple le bore peut traverser l’alumine et diffuser jusque dans le substrat de silicium et induire un décalage significatif de caractéristique C-V [Park1]. Le phosphore diffuse également à travers l’alumine, sans pour autant atteindre le substrat, en laissant des charges fixes dans le diélectrique [Lee1]. Même s’il existe divers moyens de guérison de ces défauts, la compréhension des phénomènes qui en sont à l’origine serait d’une grande utilité.

Procédé « Atomic Layer Deposition », dépôt de monocouches atomiques

Nous allons maintenant décrire de façon plus approfondie la méthode de croissance qui semble la plus appropriée pour une exploitation industrielle prochaine des trois matériaux que nous avons sélectionnés. En effet, leurs propriétés dépendent étroitement de leur mode de fabrication et l’ « Atomic Layer Deposition » (ALD) apparaît comme la technique la plus prometteuse de ce point de vue tout en satisfaisant aux exigences propres à l’industrie microélectronique. Le nom de cette technique laisse croire que le matériau serait déposé à la monocouche atomique près mais nous verrons que cette vision est assez utopiste. Ce sont justement les problèmes rencontrés par les technologues utilisant l’ALD qui justifient le travail présenté dans les chapitres suivants: comprendre les mécanismes de croissance mis en jeu dans l’ALD afin d’optimiser ce procédé. Rappelons tout d’abord que cette méthode doit permettre à terme de déposer des couches ultra minces et uniformes d’oxydes à fortes permittivité, en particulier ceux que nous avons choisis d’étudier, de préférence sous leurs formes amorphes (ce qui sous-entend à des températures typiquement inférieures à 400 °C) en limitant la recroissance de silice interfaciale. Cette méthode doit en outre fournir une reproductibilité, une compatibilité et un rendement suffisants.
L’ALD a été mise au point et brevetée [Suntola1-3] dès les années 1970 par Tumo Suntola et son équipe [Suntola4-6]. D’abord appelée « Atomic Layer Epitaxy » puis « Atomic Layer CVD TM », cette méthode est longtemps restée méconnue et peu utilisée car généralement moins rapide que les autres CVD. Ce sont précisément les oxydes « high-k » qui ont stimulé l’intérêt qu’on lui porte actuellement [Demmin]: il est en effet possible de déposer par ALD des couches de bonne qualité à des températures relativement basses (300 °C) par rapport aux températures usuelles de CVD. De plus, l’ALD peut s’affranchir des précurseurs carbonés propres à la MOCVD et ainsi éviter une contamination organique de l’oxyde. Précisons toutefois que ceci n’est pas vrai pour le dépôt ALD d’alumine utilisant comme précurseur métallique le triméthylaluminium. La récente popularité de l’ALD a conduit comme pour les autres techniques de croissance à plusieurs améliorations et variantes dont on peut citer la PEALD, ALD assistée par plasma [Park2] [Leskelä] [Lim].
L’ALD a été initialement utilisée pour déposer des couches mince de ZnS ou de Al2O3 dans l’élaboration de dispositifs électroluminescents [Suntola4]. Des structures à base de composés II-V, II-VI et III-IV ont également été fabriqués par ALD [Nishizawa] [Leskelä2]. Mentionnons qu’il existe aussi de nombreuses applications de l’ALD en optique [Riihelä] et optoélectronique [Niinistö]. Depuis une dizaine d’années, l’ALD est pressentie comme une technique d’avenir pour la microélectronique et les nanotechnologies, en particulier pour les diélectriques de grilles de transistors ou de mémoires capacitives, mais aussi pour les interconnexions [Leskelä]. Cette grande variété de matériaux et donc d’applications justifie l’intérêt porté à cette méthode.
L’idée fondatrice de l’ALD est de faire appel à plusieurs précurseurs séparément, chacun apportant un des éléments voulus. La figure 20 présente l’exemple d’une croissance ALD idéale d’oxyde de zirconium. Cette vision simpliste suffit pour expliquer le principe du procédé ALD.
Tout d’abord, le substrat utilisé doit avoir été correctement préparé: dans notre cas, on utilise Si(100) avec un oxyde superficiel ultra mince présentant des fonctions hydroxyles. Celles-ci serviront de sites réactionnels.
Le procédé ALD en tant que tel comporte quatre phases. Dans un premier temps, on injecte le précurseur métallique, ici ZrCl4, qui réagit avec les hydroxyles, idéalement jusqu’à saturation du substrat (on peut pour cela attendre aussi longtemps que l’on veut). Ensuite, une phase de purge par gaz inerte élimine l’excès de précurseur que contient l’enceinte ainsi que les sous-produits gazeux (ici HCl). On obtient ainsi une monocouche moléculaire. La troisième phase amène le précurseur d’oxygène, ici H2O, qui a pour rôle d’hydrolyser les terminaisons chlores: ainsi on refonctionnalise la surface en hydroxyles tout en apportant l’élément oxygène du futur matériau fabriqué. Comme pour la première phase, on attend que la surface soit saturée en groupements OH. Enfin une dernière purge élimine l’excès d’eau et les sous-produits gazeux. Les purges servent en outre à séparer les précurseurs pour éviter les réactions en phase vapeur (type CVD).
A ce stade, on a déposé une monocouche d’oxyde. Puisque cette couche est elle-même fonctionnalisée, on peut donc lancer un nouveau cycle de dépôt (précurseur M, purge, précurseur O, purge) qui déposera de la même façon une seconde monocouche. Comme son nom l’indique, l’ « Atomic Layer Deposition » permet donc -en principe- de déposer un matériau monocouche par monocouche.
Cette croissance idéale a le mérite d’illustrer simplement la méthode mais n’est bien-sûr pas réaliste: les mécanismes microscopiques de croissance sont très mal connus et leur meilleure connaissance permettrait d’expliquer les problèmes rencontrés par les expérimentateurs et d’optimiser le procédé réel. C’est la raison d’être de ce travail.

Une théorie quantique, différentes approches

Les méthodes quantiques reposent sur la théorie la plus raffinée pour la description de la matière à l’échelle atomique, voire subatomique. Le formalisme introduit la fonction d’onde, être mathématique contenant toutes les informations relatives au système étudié. On peut en déduire toutes les grandeurs physiques souhaitées en utilisant les opérateurs observables adaptés. Encore faut-il connaître cette fonction d’onde. Autrement dit, il faut savoir la calculer. A ce titre, l’opérateur hamiltonien joue un rôle singulier: c’est en résolvant l’équation aux valeurs propres de l’énergie que l’on trouve la fonction d’onde dans une base d’états donnée. L’état physique donné par cette équation, souvent appelée « équation de Schrödinger indépendante du temps », est stationnaire par définition. C’est en utilisant l’équation de Schrödinger (dépendante du temps) que l’on peut décrire l’évolution temporelle d’un état non-stationnaire.
Tout ceci paraît simple mais la précision apportée par la mécanique quantique se paie par des complications formelles: le seul système réel que l’on peut traiter par la mécanique quantique de façon analytique et sans approximation est l’atome d’hydrogène. Au-delà, modèles et résolutions numériques sont très souvent indispensables.
Développée dans les années 30, la méthode Hartree-Fock est un algorithme itératif autocohérent permettant de résoudre les problèmes à plusieurs électrons dans un potentiel coulombien créé par des noyaux atomiques considérés fixes, c’est-à-dire dans le cadre de l’approximation de Born-Oppenheimer. L’approximation supplémentaire consiste en un choix de base d’états, qui dépend du système étudié: si pour un atome seul les orbitales atomiques de l’atome d’hydrogène peuvent convenir, il sera plus judicieux de choisir par exemple des ondes planes ou des gaussiennes pour un cristal. Une fois construit l’état initial multiélectronique dans cette base, on choisit un électron que l’on considère comme étant dans un potentiel créé par tous les autres et on lui applique l’équation de Schrödinger. La même procédure est répétée autant de fois que nécessaire pour chaque électron jusqu’à ce que, pas à pas, le système converge vers un état auto cohérent. Des problèmes de convergence peuvent se poser mais cela sort du cadre de cet exposé, de même que les nombreux raffinements et variantes de la méthode Hartree-Fock. On peut toutefois mentionner que si la méthode Hartree-Fock ne tient pas compte de la corrélation entre électrons, les méthodes d’interaction de configuration tentent de rendre compte de cet effet. Toutes ces méthodes sont appelées « ab initio » en ce sens qu’elle reposent toutes sur la recherche d’une solution purement quantique: la fonction d’onde.
Même si des systèmes complexes peuvent en principe être traités de façon ab initio, la lourdeur des calculs rend ces techniques très consommatrices de temps de calcul au point qu’on ne peut raisonnablement les appliquer qu’à des systèmes comptant seulement quelques atomes (petites molécules, petits agrégats, petites portions de cristaux). Or nous souhaiterions ici réaliser des calculs quantiques mettant en jeu par exemple une molécule de précurseur interagissant avec un substrat silicium: cela peut impliquer plusieurs dizaines voire centaines d’atomes. Ceci amène à penser que l’on pourrait sacrifier une partie de la précision au bénéfice d’une taille de système plus importante. En outre cette perte est très hypothétique face à la nécessité d’utiliser des bases finies dans le cadre de théories plus exactes.

Théorie de la Fonctionnelle de la Densité (DFT)

Cette autre méthode, plus récente, repose justement sur une approximation plus abrupte: remplacer la fonction d’onde multiélectronique par la densité électronique. L’idée fondatrice de la théorie de la fonctionnelle de la densité consiste à considérer que les propriétés du système étudié, et en particulier son énergie totale dans l’état fondamental, ne dépendent que de cette densité, par le biais d’une fonctionnelle. Première simplification à la fois conceptuelle et pratique, la densité dépend de seulement 3 variables spatiales alors que la fonction d’onde des N électrons du système dépend de 3N variables spatiales: la complexité est reportée sur la fonctionnelle de la densité, ramenant ainsi au continu un grand nombre de variables. Le théorème de Hohenberg-Kohn [Hohenberg] donne une légitimité théorique à cette méthode en démontrant l’existence d’un lien entre la densité électronique et l’énergie totale, dans l’état fondamental du système. Toutefois, seule l’existence de cette fonctionnelle est démontrée et c’est précisément son évaluation qui nécessitera par la suite des approximations. Par exemple, l’approximation de densité locale (LDA) fut la première proposée. Le plus souvent, c’est désormais dans le cadre de la méthode Kohn-Sham [Kohn], que l’on introduit les approximations. Le problème multiparticulaire est rendu résoluble par la vision d’électrons n’interagissant pas entre eux et plongés dans un potentiel effectif incluant le potentiel externe (noyaux), l’interaction coulombienne entre électrons ainsi qu’un terme d’échange-corrélation. Cette dernière fonctionnelle, représentant les interactions multiparticulaires, est a priori inconnue sauf dans le cas d’un gaz uniforme d’électrons. C’est précisément sur elle que portent les approximations. Citons l’approximation de densité locale incluant le spin (LSDA) qui est une amélioration de LDA et l’approximation du gradient généralisé (GGA) où l’on tient compte du gradient de la densité dans l’énergie d’échange-corrélation. LDA/LSDA et GGA sont en fait des modèles de bases, familles de fonctionnelles aujourd’hui très nombreuses. Le choix d’une fonctionnelle est orienté par le système étudié: nombre et nature des atomes, géométrie, symétries, invariances. C’est un exercice délicat et il n’existe pas de méthode systématique d’amélioration des résultats. Il s’ensuit une impossibilité d’évaluer les erreurs de calcul sans recourir à une comparaison avec d’autres méthodes ou avec l’expérience. De même, il convient en DFT comme dans les méthodes de type Hartree-Fock de faire préalablement un choix judicieux de base d’états.
L’allègement calculatoire apporté par la DFT fut la cause de son succès depuis les années 1970 en physique du solide où les systèmes étudiés comportent souvent un nombre d’atomes interdisant le recours aux méthodes ab initio précédemment citées. Par contre, en chimie quantique, il fallut attendre les années 1990 [Becke] [Lee4] pour que des approximations plus raffinées rendent la DFT suffisamment précise face aux méthodes ab initio.

Supercellules et fonctionnelles utilisées

Pour ce qui nous intéresse ici, la DFT apparaît comme une méthode de choix pour mener des calculs portant sur des systèmes mettant en jeu non seulement un solide (le substrat) mais aussi des molécules (précurseurs). Aussi peut-on dire que l’étude des mécanismes de croissance d’un matériau se situe à l’interface chimie quantique – physique du solide.
Il faut donc avant tout choisir un système de base, en particulier une portion de substrat. Elle ne doit pas compter un nombre exagéré d’atomes qui alourdirait inutilement le calcul. Par contre une supercellule trop petite peut introduire des artefacts de calcul ou ignorer par exemple un chemin réactionnel pertinent. Tout dépend en fait de ce que l’on souhaite mettre en scène: a priori, l’étude d’un simple accrochage d’une molécule de précurseur nécessitera une portion de substrat plus petite (Figure 22) que si on veut explorer le pontage de cette même molécule (Figure 23).
Dans le premier cas, on utilise une fraction (Si9O5H12)HOH de silicium monocristallin , oxydé en surface et présentant un hydroxyle. Les liaisons pendantes sont artificiellement remplacées par des hydrogènes afin d’éviter des transferts de charge irréalistes vers les bords de la cellule. Ce système est ensuite relaxé, en maintenant fixes les hydrogènes saturants et les deux couches inférieures de silicium, afin d’obtenir une configuration superficielle réaliste pour l’étude future [Jeloaica1]. Immobiliser certains atomes induit des contraintes dans le système qui représentent plus ou moins bien les contraintes réelles dans le substrat oxydé superficiellement.
Le choix de la fonctionnelle et de la base se fait par la suite, en accord avec le substrat utilisé et le but de l’étude. Ici, afin de tenir compte au mieux des effets sous-jacents à une réaction chimique entre une molécule et un substrat solide, il a été choisi une fonctionnelle hybride avec correction de gradient Becke-Lee-Yang-Parr (B3-LYP) [Becke]. Les choix de base et pseudopotentiels sont donnés dans [Jeloaica1].
Dans le deuxième cas, on a représenté une portion correspondant à 4 dimères [Jeloaica2]. Ce système permettra d’envisager par exemple le pontage d’une molécule entre deux dimères, ce qui était impossible avec la cellule précédente, trop petite. Par contre, le calcul sera bien-sûr plus long.
d)Mécanismes réactionnels élémentaires et énergies d’activation
Parmi toutes les applications possibles de la DFT, la détermination de profils réactionnels peut être largement utilisée dans le cadre d’une approche multiéchelle. En effet, on souhaite ici connaître les mécanismes microscopiques de croissance, par exemple la chimisorption d’un précurseur HfCl4 sur un substrat silicium (100) hydrolysé. Une telle étude peut être menée par DFT à condition de garder à l’esprit les limitations intrinsèques à ce modèle: les systèmes sont toujours considérés à 0 K et toujours obtenus dans leurs états fondamentaux respectifs. Concernant la température, on postule qu’un calcul à l’échelle atomique réalisé à 0 K restera pertinent lorsqu’on en utilisera le résultat dans une simulation à échelle supérieure, dans des conditions thermodynamiques différentes, en particulier celles du procédé ALD: il faudra tenir compte de cette hypothèse dans l’interprétation des résultats futurs. Par ailleurs, puisque les systèmes sont toujours considérés dans leurs états fondamentaux, la DFT ne peut a priori pas donner de renseignements sur les propriétés cinétiques d’une réaction chimique. En effet, celles-ci sont liées à un état de transition qui par définition n’est pas un état fondamental: si on peut calculer par DFT les énergies de l’état initial et de l’état final d’une réaction, on ne peut pas calculer celle de l’état de transition. Qui plus est, cet état n’est jamais connu d’avance et il n’existe aucun moyen systématique d’en déterminer la nature.
Cette lacune peut être contournée par une méthode dite de « Relaxation de liaison contrainte » [Jeloaica1] [Esteve]. Cette procédure consiste à agir artificiellement sur un ou plusieurs degrés de liberté du système: la longueur d’une liaison chimique, un angle, un angle de torsion… Une telle contrainte revient à exciter un mode vibrationnel, si possible judicieusement choisi. Par exemple, on exerce une tension sur une liaison que l’on souhaite rompre au cours de la réaction chimique explorée en l’allongeant par rapport à son état d’équilibre. Tout en maintenant cette contrainte, une minimisation de l’énergie du système au regard de tous les autres degrés de liberté est ensuite réalisée: l’énergie obtenue est bien entendue plus élevée que celle de l’état initial. En répétant l’opération pas à pas, on s’éloigne donc de l’état fondamental jusqu’à ce que la liaison casse. Finalement, la contrainte est levée et l’énergie du système minimisée, conduisant ainsi à l’état final de la réaction. Un état de transition peut être vu comme un col dans l’espace des phases: à ce point, toutes les dérivées secondes de l’énergie par rapport aux degrés de liberté sont positives sauf celle relative à la contrainte qui est négative: on peut donc l’identifier de façon univoque par le calcul. Dans notre exemple simple, l’état de transition correspond en première approximation au moment où la liaison rompt.
Ainsi, il est possible de calculer par DFT non seulement les énergies des états initial et final d’un mécanisme réactionnel élémentaire mais aussi l’énergie de l’état de transition. Autrement dit, la DFT peut fournir le bilan d’énergie d’une réaction chimique et surtout l’énergie d’activation qui en pilote la cinétique.
Il faut toutefois relativiser ceci. L’état de transition n’est pas nécessairement unique: plusieurs cols peuvent exister et il faut trouver le plus bas, celui qui aura une importance cinétique prépondérante. C’est pourquoi le choix de la contrainte est décisif puisqu’il produit un état excité qui n’est pas forcément l’état de transition le plus pertinent. Plus gênant: il se peut que l’état obtenu ne soit tout simplement pas un état de transition et dans ce cas la démarche devient stérile. En tout cas, la sensibilité au choix de contrainte et la démarche pas à pas, nécessitant de nombreuses minimisations, sont les points faibles de cette méthode qui requiert donc une certaine pratique et beaucoup d’intuition.
Toujours est-il qu’elle a fait ces preuves comme l’atteste le profil des premiers mécanismes élémentaires de croissance de HfO2 sur Si/SiO2(100) donné sur la figure 24.
Pour ce calcul, la plus petite des deux supercellules précédemment évoquées a été jugée suffisante. Dans un premier temps, une molécule de HfCl4 est spontanément physisorbée sur le substrat en libérant 0,48 eV. Cette même énergie peut aussi être vue comme l’énergie d’activation du mécanisme inverse de désorption. S’il n’y a pas désorption, il peut y avoir ensuite dissociation de HCl avec une barrière de 0,88 eV conduisant à un état moins stable où la molécule HCl reste physisorbée sur le pont siloxane du substrat. Un mécanisme inverse de recombinaison, avec une énergie d’activation de 0,88-0,48+0,22=0,62 eV peut se produire, sinon HCl peut aussi se désorber avec une barrière de 0,12 eV. Ce dernier mécanisme est déterminant car il tend à déplacer l’équilibre vers la droite par l’élimination de HCl en phase gazeuse, rendant le retour impossible. Sans cela, la chimisorption de HfCl4 serait globalement défavorisée, étant donnée la différence entre les barrières de dissociation de HCl et de recombinaison, donnant l’avantage à cette dernière.

Bilan

Les développements reposant sur un formalisme quantique sont les plus précis que l’on connaisse actuellement. Malheureusement, cette précision nécessite une puissance de calcul parfois irréaliste et c’est pourquoi diverses approches altenatives peuvent être envisagées. Il est en effet possible de réduire volontairement une précision excessive afin d’alléger les calculs. Le choix de la méthode relève donc d’un compromis entre précision et efficacité calculatoire. Les méthodes DFT semblent réaliser ce compromis pour l’étude de la croissance d’oxydes à fortes permittivités où il faut prendre en compte un substrat étendu tout en décrivant correctement les liaisons chimiques à rompre ou à former. Le choix de la supercellule utilisée dépend du mécanisme envisagé: une petite cellule ne permettra pas de rendre compte du pontage d’une molécule sur le substrat mais allègera l’étude d’un chimisorption simple. Par contre, pour des configurations complexes mettant en jeu de nombreux degrés de liberté, la DFT s’avérera vite impuissante à cause de durées de calcul prohibitives.
Les méthodes quantiques en général peuvent avoir de nombreuses applications dans l’étude des matériaux « high-k »: propriétés diélectriques [Zhao1-4] [Vanderbilt], défauts lacunaires et interstitiels [Foster1-3], diffusion d’oxygène dans l’oxyde [Foster4], états d’interface et piégeage de charges [Gavartin1], effets de phonons [Gavartin2]… mais ce qui nous intéresse particulièrement ici sont les mécanismes réactionnels élémentaires de croissance. En effet, il constitueront la matière première des simulations Monte-Carlo cinétiques [III] où leurs énergies d’activation joueront un rôle central. Même s’il est peu probable que les méthodes quantiques parviennent à décrire correctement des mécanismes complexes, on peut raisonnablement s’attendre à ce que la DFT puisse décrire les premiers mécanismes de croissance avec exactitude.
Mentionnons enfin que les mécanismes dont l’étude est accessible par DFT (au mieux une centaine d’atomes) correspondent à des durées réelles de l’ordre de la picoseconde, la durée de calcul pouvant atteindre des semaines sur un ordinateur standard, cette démarche nécessitant de nombreuses interventions humaines.

Méthodes mésoscopiques

Les propriétés électriques, thermodynamiques, et plus généralement macroscopiques d’un matériau n’ont de sens qu’à partir d’une taille de système suffisante, et sur des durées en permettant les mesures. Ceci est une des définitions de l’échelle mésoscopique. Mais pour des raisons pratiques, les méthodes quantiques ont un champ d’application restreint à l’échelle microscopique et aux faibles durées. C’est pourquoi des techniques heuristiques, conjuguant considérations à l’échelle atomique et atteinte de propriétés macroscopiques, doivent être mises à contribution. De plus, dans le cadre de l’étude d’un procédé de croissance – intrinsèquement hors équilibre – les techniques permettant l’étude de l’évolution d’un système au cours du temps seront des outils particulièrement intéressants.

Dynamique moléculaire

Les techniques de dynamique moléculaire sont très utilisées depuis les années 1970 en physique mais aussi en chimie et biochimie où elles servent à déterminer les structures de molécules complexes comme les protéines. Elles reposent sur la résolution numérique de l’équation de la dynamique classique (deuxième loi de Newton) appliquée à un système moléculaire. Ainsi, la dynamique moléculaire permet d’accéder à des propriétés évoluant au cours du temps, contrairement à la majorité des méthodes quantiques qui sont restreintes à des états stationnaires. La résolution des équations du mouvement est rendue possible par la donnée d’un potentiel représentant les interactions entre les particules constituant le système étudié [Rapaport].
Ce potentiel peut être construit à partir d’un modèle quantique ou classique. Dans le premier cas, on obtient un niveau de précision plus important mais on rencontre des difficultés calculatoires comparables à celles des méthodes quantiques, limitant la taille du système étudié mais aussi l’échelle de temps des phénomènes explorés. Le second cas, utilisant un champ de forces classique, semble donc plus adapté si l’on s’intéresse à un système plus complexe et évoluant sur des durées plus importantes. Ceci est d’autant plus vrai si l’on considère que la DFT peut s’acquitter de la tâche relevant des mécanismes microscopiques avec une meilleure efficacité, laissant ainsi à la dynamique moléculaire classique le champ des simulations atomistiques à plus grande échelle. Mais le potentiel semi-empirique à utiliser dépend du système et de ce que l’on souhaite y observer. Son choix est délicat et peut mener à des conclusions irréalistes, rendant ainsi indispensable la confrontation des résultats obtenus avec ceux provenant d’autres méthodes, expérimentales en particulier.
Dans le domaine qui nous intéresse, la dynamique moléculaire peut être utilisée pour résoudre des problèmes inaccessibles aux méthodes quantiques: nombre d’atomes trop important, étude en fonction du temps, phénomènes dépassant la picoseconde… Ainsi, sans atteindre la précision des méthodes ab initio ou DFT, on peut par exemple s’intéresser à la formation d’interfaces [Pasquarello], à la diffusion d’oxygène [Sakib-Khan], aux transitions de phases [Fabris] ou encore à ses propriétés thermodynamiques [McGaughey].
La résolution numérique d’équations implique une discrétisation arbitraire du temps, choisie elle aussi selon un compromis précision/échelle parfois difficile à trouver. Typiquement, pour un temps de calcul comparable, les ordres de grandeur de taille de système et de durée du phénomène simulé sont supérieurs à ce que l’on peut atteindre par DFT : environ 100 000 atomes évoluant pendant quelques nanosecondes. Sachant que le temps de calcul augmente comme n.log(n), n étant le nombre de particules, les systèmes étendus que l’on pourrait vouloir traiter par dynamique moléculaire sont réservés aux meilleurs supercalculateurs (ceux-ci peuvent gérer plusieurs millions d’atomes).

Méthodes heuristiques stochastiques: généralités sur les techniques Monte-Carlo

Les méthodes Monte-Carlo, nommées d’après un haut lieu monégasque des jeux de hasard, sont utilisées dans nombres de domaines (des mathématiques aux finances) pour résoudre des problèmes très variés en utilisant des tirages aléatoires. Ce sont des techniques heuristiques en ce sens qu’elles explorent les différents états accessibles par le système étudié. Elles peuvent ainsi déterminer de façon stochastique ses diverses propriétés.
Souvent, ces nombres aléatoires sont plus exactement pseudo aléatoires car donnés par une machine intrinsèquement déterministe, un ordinateur. De tels nombres appartiennent à une série bien déterminée mais qui, si elle est correctement générée, « paraît » aléatoire. Sans entrer dans le détail, on peut évoquer l’influence que sa qualité (entre autres uniformité et taille) peut avoir sur les simulations y faisant appel. On peut voir ce « hasard artificiel » comme un modèle acceptable de l’évolution chaotique d’un système complexe. Un aspect intéressant des simulations reposant sur ces suites pseudo aléatoires est leur reproductibilité relative. En effet, sur une même machine, si après une première simulation on en relance une seconde, avec les même paramètres d’entrée, on obtient exactement le même résultat final. Car précisément la procédure est déterministe. On peut ainsi faire des tests en relançant une simulation et en observant les différences induites par les seuls changements des paramètres d’entrée, sans qu’elles ne soient dues à un comportement rigoureusement aléatoire. En revanche, un infime changement de conditions initiales peut conduire à un résultat très différent, ce qui est le propre d’un comportement chaotique.
D’un point de vue algorithmique, il est intéressant de noter que, comparativement à d’autres méthodes numériques, l’efficacité d’un calcul Monte-Carlo augmente quand la dimension du problème augmente: pour une étude à l’échelle mésoscopique, ceci donne un avantage indéniable aux techniques Monte-Carlo face aux méthodes de dynamique moléculaire.
On peut considérer l’expérience de l’aiguille de Buffon (1707-1788) comme l’ancêtre des techniques Monte Carlo [Buffon]: il a pu déterminer le nombre à l’aide d’une simple aiguille et d’un parquet. Ce dernier constitue un réseau de lignes droites équidistantes deux à deux: notons D cette espacement. L’aiguille, très fine, a une longueur L inférieure à D. L’expérience consiste à laisser tomber un grand nombre de fois l’aiguille sur le parquet et à compter le nombre de fois où l’aiguille chevauche une des lignes: c’est une approche statistique, le caractère chaotique de la chute de l’aiguille rendant l’expérience parfaitement aléatoire. Par ailleurs, un calcul simple donne la probabilité pour que l’aiguille coupe une ligne: P=2 L D.
Selon un principe bien connu, si l’on répète l’expérience un grand nombre de fois, le résultat statistique doit tendre vers la prévision probabiliste et en constitue donc une évaluation. Connaissant donc P, D et D, on peut ainsi estimer la valeur numérique de . La précision de ce résultat est directement liée au nombre d’expériences réalisées: à l’exclusion des erreurs systématiques (par exemple des fluctuations de L liées à la qualité du plancher), on peut donc à la limite avoir une précision infinie si le nombre d’expériences tend vers l’infini. Ceci démontre que, pour peu que l’on parvienne à trouver une méthode astucieuse, il est tout à fait possible d’évaluer une grandeur avec une excellente précision sans faire appel à un développement déductif reposant sur des lois déterministes plus ou moins bien connues. Historiquement, il s’agit là de la première méthode stochastique.
Un cas d’école plus connu est l’évaluation du même nombre en choisissant aléatoirement un point à l’intérieur d’un carré de côté a et à compter le nombre de points se situant à l’intérieur du cercle de diamètre a inscrit dans ce carré. Statistiquement, la fraction des points effectivement situés sur le disque doit tendre vers la probabilité calculée pour qu’un point se retrouve sur ce disque. Elle n’est autre que le rapport entre l’aire du disque et celle du carré soit /4.
Bien sûr, ces méthodes dévoilent toute leur puissance lorsqu’elle sont exécutées par des ordinateurs permettant de réaliser un très grand nombre de tirages pseudo aléatoires. A titre d’exemple, la figure 25 présente l’estimation de par la méthode de Buffon simulée par ordinateur.

Choix méthodologique

Monte-Carlo cinétique en temps continu

Avant de décrire l’algorithme en tant que tel, revenons succinctement sur la méthode choisie et le but visé. Nous souhaitons concevoir un outil prédictif pour la croissance d’oxydes à fortes permittivités, aussi générique que possible, rendant compte des aspects cinétiques et de leurs dépendances aux paramètres thermodynamiques. Basé sur les contributions à l’échelle atomique des méthodes quantiques, il doit rester capable de gérer jusqu’à plusieurs millions d’atomes afin de tendre vers l’échelle macroscopique pour se livrer à une confrontation avec des données expérimentales à cette échelle.
Le simulateur reposera donc sur une méthode Monte-Carlo: par des tirages aléatoires, il réalise une exploration de l’espace des phases d’un système. En utilisant la puissance brute d’un ordinateur dans une démarche heuristique et stochastique, on peut obtenir des informations diverses sans recourir à l’expérience réelle ou à un développement purement théorique, parfois hors de portée.
Le qualificatif « cinétique » signifie que cette prospection est volontairement pilotée par les aspects cinétiques, concrètement les barrières d’activations de mécanismes élémentaires. Cette variante des méthodes Monte-Carlo nous a semblé particulièrement adaptée à l’étude de la croissance d’un matériau, système ouvert et hors équilibre.
« En temps continu » vient préciser que l’acceptance choisie est une probabilité d’occurrence d’événement par unité de temps, construite d’après la loi d’Arrhenius pondérée par une fréquence de tentative. Chaque pas Monte-Carlo prend alors la signification d’une durée réelle et variable: à chaque pas, un et un seul événement se produit au bout d’une durée qui lui est spécifique. On évite ainsi une discrétisation arbitraire du temps. Ceci implique que l’on ne peut manquer aucun événement, si tant est qu’il est envisageable, c’est-à-dire correspondant à un mécanisme explicitement implémenté dans le code.

Intégration au sein d’une approche multi échelles

Les mécanismes sont caractérisés par leurs énergies d’activation respectives. Plutôt que de les déterminer en cours de simulation, « à la volée », de manière systématique mais très approximative, nous avons choisi d’en déléguer le calcul aux méthodes DFT / ab initio afin d’avoir une précision bien supérieure pour chaque mécanisme particulier. En revanche, ceci nous contraint à prévoir explicitement tous les mécanismes que nous jugerons nécessaires, ou plus exactement, statistiquement importants. Les barrières des mécanismes les plus complexes, inaccessibles aux méthodes quantiques pourront être déterminées par étalonnage des simulations sur des données expérimentales.
L’algorithme Monte-Carlo aura donc pour première mission la mise en scène à échelle mésoscopique des premiers mécanismes réactionnels élémentaires, étudiés par méthode quantique, afin de reproduire ce qui est observé expérimentalement. En retour, il pourra suggérer l’étude quantique de nouveaux mécanismes, préssentis comme statistiquement importants, ou encore prédire l’incidence des conditions thermodynamiques sur la croissance d’une couche mince.

ALGORITHME MONTE-CARLO CINÉTIQUE BASÉ SUR RÉSEAU

Le simulateur mésoscopique, ainsi inscrit dans une approche multi échelles, se voit pourvu de deux contributions directes: les méthodes quantiques à l’échelle microscopique et l’expérimentation à l’échelle macroscopique.
D’un point de vue stratégique, le fait de porter des efforts simultanément à différents niveaux crée une synergie entre les différentes approches, pouvant conduire après quelques cycles d’échanges à un outil multi échelles particulièrement puissant.

Choix d’échelle

Le simulateur Monte-Carlo doit atteindre l’échelle mésoscopique pour interagir avec les contributions expérimentales telles que le taux de recouvrement, la cinétique de croissance, la morphologie des couches, les différentes rugosités… De plus, nous souhaitons établir un lien étroit avec les conditions thermodynamiques et les durées typiques du procédé « Atomic Layer Deposition » (ALD).
Un algorithme Monte-Carlo cinétique en temps continu reposant sur des mécanismes réactionnels élémentaires judicieusement choisis nous garantit l’accès à une échelle de temps suffisante. En outre, l’acceptance choisie prend une signification temporelle, établissant un lien direct avec le temps réel expérimental.
Par contre, une discrétisation spatiale est indispensable pour atteindre une taille suffisante. Elle doit toutefois rester compatible avec les données à l’échelle atomiques que sont les mécanismes élémentaires. Or, le caractère cristallin du substrat (Si ou SiO2) et des oxydes étudiés, qu’ils soient amorphes, monocristallins ou polycristallins, peut inspirer la méthode de discrétisation. Ceci est corroboré par le fait que les atomes ou groupes d’atomes, cristallins ou non, ont tendance à évoluer sur un substrat solide par sauts d’une position privilégiée à une autre. Ainsi, plutôt que de décrire la configuration du système par les coordonnées spatiales continues de chaque atome, il paraît opportun de faire appel à des coordonnées spatiales discrètes, des indices, dans un réseau capable de représenter approximativement la configuration atomistique du système.

Modélisation de la configuration atomistique

Nous allons maintenant décrire la construction d’un modèle chargé de représenter la configuration atomistique d’un système Si/SiO2/HfO2. Comme il a été mentionné au [I-4], les oxydes de zirconium et d’hafnium ont des propriétés très voisines. Leurs cristallographies en particulier sont très semblables. C’est pourquoi le modèle cristallin, élaboré ici essentiellement sur l’exemple de HfO2, sera ensuite utilisé indifféremment pour les simulations Si/SiO2/ZrO2 et Si/SiO2/HfO2. Bien-sûr cette analogie s’arrête à ce modèle de configuration et ne s’applique pas aux valeurs précises des énergies d’activation qui restent propres à l’oxyde considéré. Au delà des aspects cristallins, nous introduirons des outils capables de prendre en compte les états moléculaires non cristallins, précurseurs, substituants, contaminants… La gestion des voisins sera aussi abordée: elle sera utile par la suite pour interroger efficacement la configuration atomistique. Une attention particulière sera enfin accordée à la modélisation du substrat et à sa connexion avec le modèle cristallin introduit.

Étude cristallographique

Une étude cristallographique préalable est indispensable à la construction de notre modèle de configuration atomistique. Elle peut paraître aisée, voire superflue, dans un cas simple comme la simulation d’une homoépitaxie, où une espèce atomique est déposée pour former un monocristal. Mais dans notre cas, le système est hétérogène: oxyde « high-k » sur silicium avec une interface ultra fine de silice. De plus, les espèces de base sont des précurseurs moléculaires dont les mécanismes de décomposition peuvent s’avérer complexe, nombreux, mal connus. Il faut donc mettre au point un système de repérage capable de représenter simultanément différentes structures cristallines contenant elles-même différents éléments. En outre, des raffinements seront nécessaires pour rendre compte de plusieurs subtilités telles les états moléculaires, les substituants, les contaminants, par opposition aux états cristallins.
Tout d’abord, il convient de connaître la cristallographie de l’oxyde que l’on souhaite déposer. En première approximation, on peut baser notre démarche sur le matériau massif. Comme il a été rapporté aux [I-4-a] (ZrO2) et [I-4-b] (HfO2), les oxydes de zirconium et de hafnium présentent chacun trois phases cristallographiques stables sous conditions normales: cubique, tétragonale et monoclinique (Figure 30).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION GÉNÉRALE
I. CADRE DE L’ÉTUDE
1)Problématique générale
a)Technologie silicium
b)Miniaturisation concertée: « scaling »
c)Problèmes: courant de fuite et contrôle de l’épaisseur d’oxyde grille
d)Une solution: les oxydes à fortes permittivités
2)Les oxydes à fortes permittivités et leur intégration dans la microélectronique
a)Permittivité et décalages de bandes
b)Stabilité thermodynamique sur le silicium et qualité de l’interface
c)Morphologie de l’oxyde
d)Faisabilité industrielle: choix de l’électrode de grille, compatibilité, fiabilité
e)Récapitulatif
3)Méthodes de croissances
a)Épitaxie par jet moléculaire
b)Méthodes de dépôt par vapeur physique
c)Méthodes de dépôt par vapeur chimique
d)Comparatif
4)Choix des oxydes étudiés et de la méthode de croissance associée
a)ZrO2
b)HfO2
c)Al2O3
d)Procédé « Atomic Layer Deposition », dépôt de monocouches atomiques
e)Bilan
5)Conclusion
II. MÉTHODOLOGIE GÉNÉRALE
1)Méthodes quantiques
a)Une théorie quantique, différentes approches
b)Théorie de la Fonctionnelle de la Densité (DFT)
c)Supercellules et fonctionnelles utilisées
d)Mécanismes réactionnels élémentaires et énergies d’activation
e)Bilan
2)Méthodes mésoscopiques
a)Dynamique moléculaire
b)Méthodes heuristiques stochastiques: généralités sur les techniques Monte-Carlo
c)Monte-Carlo Metropolis
d)Monte-Carlo cinétique
e)Bilan
3)Simulations macroscopiques
a)Généralités
b)Contributions
4)Méthodes de caractérisation et données expérimentales disponibles
a)Méthodes optiques
b)Microscopies
c)Analyses par rayons X
d)Analyses par faisceaux d’ions
e)Récapitulatif
5)Stratégie multi échelles
III. ALGORITHME MONTE-CARLO CINÉTIQUE BASÉ SUR RÉSEAU
1)Choix méthodologique
a)Monte-Carlo cinétique en temps continu
b)Intégration au sein d’une approche multi échelles
c)Choix d’échelle
2)Modélisation de la configuration atomistique
a)Étude cristallographique
b)Cellule élémentaire bidimensionnelle
c)Traitement de la configuration atomistique
d)Gestion du voisinage
e)Modélisation du substrat
f)Bilan
3)Dynamique temporelle
a)Mécanismes et événements: définitions
b)Acceptance en temps continu
c)Temps d’occurrences et calendrier d’événements
d)Bilan: cycle Monte-Carlo, cycle ALD
4)Optimisations algorithmiques et autres fonctionnalités
a)Filtrage « à la demande » et assistance au développement
b)Évitement des « allers-retours »
c)Évaluation des performances du logiciel
d)Restriction stérique liée au précurseur métallique utilisé
e)Bilan
5)Mécanismes réactionnels élémentaires intégrés
a)Adsorption d’un précurseur métallique
b)Désorption d’un précurseur métallique
c)Chimisorption d’un précurseur métallique par départ d’un ligand
d)Recombinaison d’un ligand sur un précurseur métallique
e)Désorption définitive d’un ligand de précurseur métallique
f)Adsorption d’un précurseur oxydant
g)Désorption d’un précurseur oxydant
h)Hydrolyse d’un groupement métallique
i)Nomenclature et variances des mécanismes de densification
j)Densification simple inter couche brin-agrégat
k)Densification simple intra couche brin-agrégat
l)Densification double intra couche brin-brin
m)Densification double par pontage sur agrégat
n)Densification triple par pontage sur brin
o)Densification quadruple par pontage mutuel
p)Ouverture d’un pont siloxane
q)Bilan
6)Cas de l’alumine: modélisation de la configuration atomistique
a)Étude cristallographique
b)Cellule élémentaire bidimensionnelle
c)Traitement de la configuration atomistique
d)Gestion du voisinage
e)Modélisation du substrat
f)Bilan
7)Cas de l’alumine: mécanismes réactionnels élémentaires intégrés
a)Adsorption d’un précurseur métallique
b)Désorption d’un précurseur métallique
c)Chimisorption d’un précurseur métallique par départ d’un ligand
d)Adsorption d’un précurseur oxydant
e)Désorption d’un précurseur oxydant
f)Hydrolyse d’un groupement métallique
g)Pontage covalent sur brin
h)Bilan
8)Architecture logicielle
a)Vue d’ensemble
b)Fichiers d’entrée: paramètres, énergies d’activation et configuration initiale
c)Fichiers de sortie: journaux, représentations graphiques et histoire de l’évolution du système
9)Conclusion
IV. EXPLOITATION, VALIDATION, RÉSULTATS
1)Module d’analyse
a)Principe de fonctionnement
b)Navigation dans l’historique des événements
c)Création de fichiers « hors simulation »
d)Fonctions d’analyse
e)Exemple d’utilisation avancée
2)Tests préliminaires
a)Influence de la fréquence de tentative
b)Option de restriction stérique du précurseur métallique
c)Évaluation des différentes méthodes de filtrage
d)Évitement des « allers-retours »
e)Bilan
3)Premiers instants de croissance
a)Préparation du substrat: influence sur le taux de couverture
b)Étalonnage des énergies de premières densifications
c)Couverture en fonction de la température de dépôt
d)Saturation de surface
e)Bilan
4)Cinétique de croissance
a)Régime transitoire
b)Régime permanent
c)Bilan
5)Synthèses des résultats: acquis et perspectives
CONCLUSION GÉNÉRALE
BIBLIOGRAPHIE