Enciclopedia/Diccionario de Psicología y Neurociencias:
ıllı Aprendizaje por refuerzo wiki: info, libros pdf y vídeos
- Detalles
- Categoría: PSICOLOGIA (WIKINFO)
Aprendizaje por refuerzo
El modelo básico de aprendizaje por refuerzo consiste en: Las reglas son con frecuencia estocásticas. La observación implica típicamente la recompensa inmediata al escalar asociado con la última transición. En escenarios, el agente asimismo supone que observa el estado actual del medioambiente, en tal caso se habla de plena observabilidad, al paso que en el caso contrario se habla de observabilidad parcial. En ocasiones, el conjunto de acciones libres para el agente está limitado (por servirnos de un ejemplo, no se puede gastar más dinero del que se tiene). Un agente de refuerzo de aprendizaje interacciona con su ambiente en pasos de tiempo reservados. En todos y cada tiempo de t. El agente recibe una observación ot, Que por norma general incluye la recompensa rt. Se escoge entonces una acción at Del conjunto de acciones, que se manda más tarde al medioambiente. El ambiente se mueve a un nuevo estado st+1 y la recompensa rt+1 asociada con la transición (st,at,st+1) se determina. La meta de un agente de aprendizaje por refuerzo es recoger tanta recompensa como resulte posible. El agente puede seleccionar cualquier acción dependiendo de la historia e inclusive puede aleatorizar su selección de acciones. Cuando el desempeño del agente se equipara al de un agente que actúa de forma inmejorable desde el comienzo, la diferencia entre estos da sitio a la noción de arrepentimiento. Apreciar que para poder actuar cerca de forma inmejorable, el agente debe razonar sobre las consecuencias en un largo plazo de sus acciones: Con la intención de aumentar al máximo mis ingresos futuros sería mejor ir a la escuela ahora, pese a la recompensa monetaria inmediata asociada a esto podría ser negativa. Por consiguiente, el aprendizaje por refuerzo es en especial conveniente para los inconvenientes que incluyen un argumento en un largo plazo en frente de uno en un corto plazo. Se ha aplicado de forma exitosa a diferentes inconvenientes, entre ellos el control de robots, telecomunicaciones, backgammon y damas. 2 componentes hacen aprendizaje por refuerzo de gran alcance: El empleo de muestras para optimar el desempeño y el empleo de la función de aproximación para hacer en frente de ambientes de importante tamaño. Merced a estos 2 componentes clave, el aprendizaje por refuerzo se puede usar en ambientes de un tamaño notable en una cualquiera de las siguientes situaciones: Los 2 primeros de estos inconvenientes podrían ser considerados inconvenientes de planificación (desde alguna forma si el modelo está libre), al tiempo que el último podría ser considerado como un inconveniente de aprendizaje tradicional. No obstante, bajo una metodología de aprendizaje por refuerzo tanto de los inconvenientes de planificación se transforman en inconvenientes de aprendizaje automático. El inconveniente de aprendizaje de refuerzo como se describe requiere mecanismos de exploración inteligente. Elegir al azar acciones, sin hacer referencia a una distribución de probabilidad estimada, que se conoce para dar sitio a un desempeño muy pobre. El caso de (pequeños) MDPs finitos está parcialmente bien entendido por el momento. No obstante, debido a la carencia de algoritmos que escalen bien con el número de estados, en la práctica, la gente recurre a métodos de exploración simples. Uno de semejantes métodos es ?-greedy, cuando el agente escoge la acción que se cree tiene el mejor efecto en un largo plazo con una probabilidad 1-?, Y se escoge una acción uniformemente al azar, en caso contrario. Acá,0<?<1 es un factor de ajuste, que en ocasiones se cambia, así sea conforme con un horario fijo (con lo que el agente explorar menos como pasa el tiempo), o bien de forma adaptativa basada en ciertas heurísticas (Tokic y Palma, dos mil once). Aunque el tema de la exploración se tiene presente, e inclusive si el estado era perceptible (que aceptamos desde este momento), el inconveniente prosigue siendo saber qué acciones son buenas basadas en la experiencia pasada. Para facilitar, supongamos durante un momento que el inconveniente estudiado es episódico, un episodio que acaba cuando se alcanza un estado terminal. Supongamos, además de esto, que no importa el curso de las acciones que toma el agente, la terminación es ineludible. Bajo determinadas condiciones de regularidad auxiliar está entonces bien definida la expectativa de la recompensa total para cualquier política y cualquier distribución inicial sobre los estados. En este sentido, una política se refiere a una asignación de determinada distribución de probabilidad sobre las acciones a todas y cada una de las historias posibles. Dada una distribución inicial fija µ, Que por consiguiente podemos asignar el retorno aguardado ?p a la política p:?p=E\pi ], donde la variable azarosa R indica el retorno y se define por:R=?t=0N-1rt+1, donde rt+1 es la recompensa recibida tras la t-ésima transición, el estado inicial se efectúa un muestreo al azar de µ y las acciones son elegidos por la política p.Acá, N indica el tiempo azaroso cuando se alcanza un estado terminal, o sea, el instante en que el episodio acaba. En el caso de inconvenientes no episódicos el retorno de forma frecuente se descuenta,:R=?t=08?trt+1, dando sitio a la aguardado criterio de recompensa para un descuento total. 0=?=1 es el llamado factor de descuento. Desde el retorno sin descontar es un caso singular de la devolución de descuento, desde este momento aceptaremos el descuento. Si bien esto semeja bastante inocente, el descuento es en verdad un inconveniente si uno se preocupa por el desempeño on line. Esto es debido a que el descuento hace que el tiempo inicial de los pasos más esenciales. Pues un agente de aprendizaje probablemente cometa fallos a lo largo de los primeros pasos tras sus comienzos "vida", ningún algoritmo de aprendizaje desinformado puede conseguir un desempeño prácticamente inmejorable en el descuento, aun si la clase de ambientes está limitada a la de PDM finitos. (Esto no significa no obstante que, dado el tiempo preciso, un agente de aprendizaje no puede comprender de qué manera actuar prácticamente de forma perfecta, si el tiempo se ha reiniciado.) El inconveniente entonces es precisar un algoritmo que puede ser utilizado para localizar una póliza con el máximo desempeño aguardado. De la teoría de la PDM se sabe que, sin pérdida de generalidad, la busca puede ser limitada al conjunto de las llamadas políticas estacionarias. Una política lleva por nombre estacionaria si la acción de distribución que devuelve solo depende del último estado visitado (que es una parte de la historia de la observación del agente, por nuestro supuesto simplificador). En verdad, la busca se puede limitar todavía más a las políticas estacionarias deterministas. Una política estacionaria determinista es aquella que escoge de forma determinista acciones basadas en el estado actual. Desde cualquiera de estas políticas puede ser identificadas con una correspondencia entre el conjunto de estados en el conjunto de acciones, estas políticas se pueden identificar con esta clase de asignaciones, sin pérdida de generalidad. El enfoque a la fuerza bárbara implica las 2 etapas siguientes: Un inconveniente con esto es que el número de políticas puede ser exageradamente grande, o bien aun infinito. Otra es que la varianza de los rendimientos podría ser grande, en tal caso se requiere un elevado número de muestras para querer con precisión el retorno de cada política. Estos inconvenientes se pueden calmar empleamos alguna estructura y dejar que las muestras sean generadas desde una política para influir en las estimaciones efectuadas por otro. Los 2 enfoques primordiales para lograrlo son función de la estimación del valor y la busca de políticas directas. Las funciones de valor procuran hallar una política que maximice el retorno al sostener un conjunto de estimaciones de los rendimientos aguardados por alguna política (por norma general, así sea la "corriente" o bien la perfecta). Estos métodos se fundamentan en la teoría de los PDM, donde optimalidad se define en un sentido que es más fuerte que los anteriores: Una política lleva por nombre inmejorable si se consigue un mejor desempeño aguardado en cualquier estado inicial (esto es, las distribuciones iniciales no juegan ningún papel en esta definición). De nuevo, siempre y en todo momento se puede hallar una política inmejorable entre las políticas estacionarias. Para delimitar la optimalidad de una forma formal, delimitar el valor de una política p por: Vp(s)=Es,\pi ], donde R significa el regreso al azar asociado con las próximas p desde el estado inicial s. Se define V*(s) como el valor máximo posible de Vp(s), en donde p se le deja cambiar: V*(s)=suppVp(s). Una política que alcanza estos valores perfectos en todos y cada estado tiene por nombre inmejorable. Es obvio que una política inmejorable en este sentido fuerte asimismo es inmejorable en el sentido de que maximiza el desempeño aguardado ?p, desde ?p=Endefined, en donde S es un estado de la muestra al azar de la distribución µ. Si bien los valores de estado son suficientes para delimitar el perfecto, que probará ser útil para delimitar la acción-valores. Dado un estado s, Una acción a y una política de p, La acción-valor del par (s,a) bajo p se define por:Qp(s,a)=Es,a,\pi ],\, donde, ahora, R significa el retorno azaroso asociado con la primera toma de acción a en el estado de s y siguiendo p,, desde entonces. Es muy conocido desde la teoría de los PDM que si alguien nos da Q para una política perfecta, siempre y en toda circunstancia podemos decantarse por acciones inmejorables sencillamente escogiendo la acción con el valor más alto en todos y cada estado. La función de acción-valor de una política perfecta lleva por nombre la función inmejorable acción-valor y se representa por Q*. Suponiendo pleno conocimiento de la MDP, hay 2 enfoques básicos para calcular la función perfecta acción del valor, valor de iteración y la política de reiteración. Los dos algoritmos calcular una secuencia de funciones Qk (k=0,1,2,…,) Que confluyen a Q*. Los Procedimiento de Montecarlo más simples se pueden utilizar en un algoritmo que imita políticas de iteración.La política de iteración consta de 2 etapas: la evaluación y mejora. Los Procedimiento de Montecarlo se usan en la etapa de evaluación. En este paso, dado, la política determinista estacionaria p, el propósito es calcular los valores de la función Qp(s,a) (O bien una buena aproximación a ellas) para todos y cada uno de los pares estado-acción (s,a). Supongamos (por simplicidad) que el MDP es finito y que hay una tabla de acciones por estados en la memoria. Además de esto, se supone que el inconveniente es episódico y tras cada episodio uno nuevo empieza desde un estado inicial azaroso. Entonces, la estimación del valor de un par estado-acción determinada (s,a)se puede calcular sencillamente el promedio de los rendimientos de la muestra que se produjeron desde (s,a)Dado el tiempo preciso, este procedimiento puede de esta manera edificar una estimación precisa Q de la función de la acción-valor Qp. Acá acaba la descripción de la etapa de evaluación de políticas. En la etapa de mejora de las políticas, como se hace en el algoritmo de iteración, la próxima política se consigue a través de el cálculo de una política greedy respecto a Q: Dado un estado s, la nueva política devuelve una acción que maximiza Q(s,·). En la práctica frecuentemente se evita el cómputo y el almacenaje de la nueva política, mas emplea la evaluación gandula para postergar el cómputo de las acciones que maximizan cuando verdaderamente sea preciso. Este procedimiento puede conllevar ciertos inconvenientes como los siguientes: El primer inconveniente se puede corregir sencillamente, dejando que el procedimiento para mudar la política (en todos, o bien en ciertos estados) antes que los valores se establezcan. Por buenísimo que parezca, esto puede ser peligroso, en tanto que esto podría impedir la convergencia. No obstante, la mayor parte de los algoritmos actuales incorporan esta idea, dando sitio a la clase de algoritmo de iteración política extendida. Observamos de pasada que el actor crítico métodos pertenecen a esta categoría. El segundo inconveniente se puede corregir en el algoritmo, dejando trayectorias para contribuir a cualquier par estado-acción en ellos. Esto asimismo puede asistir, hasta determinado punto con el tercer inconveniente, si bien una solución mejor cuando los rendimientos tienen alta varianza es usar diferencia temporal de Sutton (TD) métodos que se fundamentan en la recursiva ecuación de Bellman. Tenga presente que el cálculo en métodos TD puede ser incrementales (cuando tras cada transición de la memoria se cambia y la transición se desecha), o bien por lotes (cuando se recogen las transiciones y después las estimaciones se calculan una vez sobre la base de un elevado número de transiciones). El métodos por lotes, un genial ejemplo de lo que es el procedimiento de mínimos cuadrados diferencia temporal debido al Bradtke and Barto(mil novecientos noventa y seis), puede emplear la información de las muestras mejor, al paso que los métodos incrementales son la única opción cuando los métodos de proceso por lotes se transforman en imposible debido a su alta computacional o bien la dificultad de la memoria. Además de esto, existen métodos que tratan de aunar los beneficios de los 2 enfoques. Con la intención de abordar la última cuestión citada en el apartado precedente, se emplean métodos de aproximación de funciones. En la aproximación función lineal se una parte de una asignación ? que asigna un vector de dimensión finita a cada par estado-acción. Entonces, los valores de acción de un par estado-acción (s,a) se consiguen a través de la combinación lineal de los componentes ?(s,a) con ciertos pesos?::Q(s,a)=?i=1d?i?i(s,a). La aproximación lineal de la función no es la única opción. Más últimamente, los métodos basados en las ideas de estadística no paramétrica se han explorado (que se pueden ver para edificar sus peculiaridades). Hasta el momento, la discusión se restringe a la manera de iteración política se puede emplear como base de los algoritmos de aprendizaje de refuerzo diseño. Del mismo modo esencial, el valor de iteración asimismo se puede emplear como punto de inicio, dando sitio al algoritmo Q-aprendizaje(Watkins mil novecientos ochenta y nueve) y sus muchas variaciones. El inconveniente con los métodos que usan los valores de acción es que posiblemente precisen estimaciones muy precisas de los valores de acción de la competencia, que pueden ser bastante difíciles de conseguir cuando los rendimientos son estruendosos. Si bien este inconveniente se atenúa en determinada medida por métodos de diferencias temporales y si se usa el llamado procedimiento de aproximación de funciones compatibles, queda mucho trabajo por hacer para acrecentar la generalidad y la eficacia. Otro inconveniente concreto de los métodos de diferencia temporal viene de su dependencia de la ecuación de Bellman recursiva. La mayor parte de los métodos de diferencias temporales han llamado de esta manera a ? factor (0=?=1) que deja a interpolar de forma continua entre los métodos de Monte-Carlo (que no se fundamentan en las ecuaciones de Bellman) y los métodos de diferencias temporales básicas (que se fundamentan únicamente en las ecuaciones de Bellman), que pueden en consecuencia ser eficiente para mitigar este inconveniente. Un procedimiento alternativo para localizar una buena política es buscar de forma directa en (algún subconjunto) del espacio de la política, en tal caso el inconveniente se transforma en una instancia de optimizaciónestocástica.Los 2 enfoques libres se fundamentan en el gradiente y métodos de gradiente libre. Métodos basados en gradiente (que dan sitio a los llamados métodos de política gradiente) empiezan con una asignación de un (factor) espacio de dimensión finita al espacio de políticas: dado el vector de factores ?, dado p? indicar la política asociada a ?. Acotar la función de desempeño por: ?(?)=?p?. Bajo condiciones suaves esta función va a ser diferenciable como una función del vector de factores ?. Si el gradiente de ? era conocido, se podría emplear gradiente de ascenso. Desde una expresión analítica para el gradiente no está libre, uno debe confiar en una estimación estruendosa. Tal estimación puede construirse de muchas formas, dando sitio a algoritmos como el procedimiento Williams' Reinforce. Una enorme clase de métodos evita confiar en la información de gradiente. Estos incluyen el recocido simulado, busca de entropía cruzada o bien métodos de computación evolutiva. Muchos métodos de gradiente libre pueden lograr (en la teoría y en el tope) de un inmejorable global. En un número de casos que en verdad han probado un desempeño notable. El inconveniente con los métodos de busca es que pueden confluir poco a poco si la información basada en el que actúan es estruendosa. Por servirnos de un ejemplo, esto sucede cuando está en inconvenientes episódicos las trayectorias son largas y la varianza de los retornos es grande. Como se ha argumentado ya antes, los métodos basados en el valor de funciones que se fundamentan en diferencias temporales podrían asistir en un caso así. En los últimos tiempos, se han propuesto múltiples algoritmos actor y crítico siguiendo esta idea y han probado un buen desempeño en distintos inconvenientes. La teoría de las pequeñas MDP, finitos es bastante madura. Tanto el comportamiento asintótico y finito-muestra de la mayor parte de los algoritmos es bien entendido. Como se mentó anteriormente, se conocen algoritmos con demostrablemente buen desempeño online. La teoría de la enorme MDP precisa más trabajo. Exploración eficaz es en una gran parte íntegra (salvo para el caso de inconvenientes de delincuentes). Si bien los límites de desempeño en tiempo finito aparecieron muchos algoritmos en los últimos tiempos, se espera que estos límites mejores puesto que son bastante flojos y por tanto se precisa más trabajo para entender mejor los beneficios relativas, como las restricciones de estos algoritmos. Para algoritmos incrementales inconvenientes de convergencia asintótica se han resuelto. Últimamente, nuevos algoritmos incrementales, temporales-con base en diferencias han aparecido que confluyen en un conjunto considerablemente más extenso de condiciones que ya antes era posible.Criterio de optimalidad
Acercamiento al valor de la función
Método de Montecarlo
Métodos de diferencias temporales
Búsqueda política directa