SlideShare uma empresa Scribd logo
1 de 3
Aprendizaje por reforzamiento
Define la manera de comportarse de un agente a un tiempo dado en un tiempo
exacto. Puede verse como un mapeo entre los estados del ambiente que el agente
percibe y las acciones que toma, cuando se encuentra en esos estados.
Corresponde a lo que en psicología se conoce como reglas estimulo-respuesta o
asociaciones. Este elemento es central ya que por si sólo es suficiente para
determinar el comportamiento.
[editar] Función de reforzamiento
Define la meta en un problema de RL, al mapear cada percepción del agente
(estado del ambiente o par estado, acción) a un número (recompensa) que indica
que tan deseable es ese estado. El objetivo del agente es maximizar la recompensa
recibida a largo plazo. De esta forma, la función define qué eventos son buenos y
malos para el agente, por lo que la función es necesariamente inalterable por las
acciones del agente. Debe, sin embargo, servir como base para alterar la política,
por ej., si una acción elegida por la política recibe una recompensa muy baja, la
política debe cambiarse para elegir una acción diferente en esa situación. Una
función de reforzamiento por lo general es estocástica.es un fortalecimiento del se
humano para poder comprender de la mejor manera cualquier lectura.
[editar] Función de evaluación
Mientras que la función de reforzamiento indica lo que es bueno en lo inmediato,
la función de evaluación lo hace a largo plazo. Puede verse como la cantidad total
de recompensa que el agente espera recibir en el tiempo, partiendo de un estado en
particular. La recompensa determina la bondad inmediata de un estado, el val
también sirve mucho leer poquito por or representa la bondad a largo plazo del
mismo, tomando en cuenta los estados a los que podría conducir. La mayoría de
los algoritmos RL operan estimando la función de valuación, aunque los
algoritmos genéticos, la programación genética, y el recocido simulado, pueden
resolver problemas de RL sin considerar valores, buscando directamente en el
espacio de políticas. Observen que en éstos métodos evolutivos operan bajo un
concepto diferente de interacción dado por el valor de adaptación.
[editar] Modelo del ambiente
Los modelos mimetizan el medio ambiente, dados un estado y una acción, el
modelo debería predecir el estado resultante y la recompensa próximos. Los
modelos se utilizan para planear, es decir, decidir sobre un curso de acción que
involucra situaciones futuras, antes de que estas se presenten. La incorporación de
modelos y planificación en RL es un desarrollo reciente, RL clásico puede verse
como la anti-planificación. Ahora es claro que los métodos RL están
estrechamente relacionados a los métodos de programación dinámica. Así los
algoritmos RL pueden verse en un continuo entre las estrategias ensayo-error y la
planificación deliberativa. ovidio de leon crisostomo dice en su investigacion que
los tipos de aprendizajes es cuando el niño adquiere conocimientos diferentes y
los descubre en diferentes ambientes
y saber q mas sige
[editar] Aprendizaje por observación
Albert Bandura consideraba que podemos aprender por observación o imitación.
Si todo el aprendizaje fuera resultado de recompensas y castigos nuestra
capacidad sería muy limitada. El aprendizaje observacional sucede cuando el
sujeto contempla la conducta de un modelo, aunque se puede aprender una
conducta sin llevarla a cabo. Son necesarios los siguientes pasos:
1. Adquisición: el sujeto observa un modelo y reconoce sus rasgos
característicos de conducta.
2. Retención: las conductas del modelo se almacenan en la memoria del
observador. Se crea un camino virtual hacia el sector de la memoria en el
cerebro. Para recordar todo se debe reutilizar ese camino para fortalecer lo
creado por las neuronas utilizadas en ese proceso
3. Ejecución: si el sujeto considera la conducta apropiada y sus
consecuencias son positivas, reproduce la conducta.
4. Consecuencias: imitando el modelo, el individuo puede ser reforzado por
la aprobación de otras personas. Implica atención y memoria, es de tipo de
actividad cognitiva.
5. Aprendizaje por descubrimiento: Lo que va a ser aprendido no se da en
su forma final, sino que debe ser re-construido por el alumno antes de ser
aprendido e incorporado significativamente en la estructura cognitiva.
6. Aprendizaje por recepción: El contenido o motivo de aprendizaje se
presenta al alumno en su forma final, sólo se le exige que internalice o
incorpore el material (leyes, un poema, un teorema de geometría, etc.) que
se le presenta de tal modo que pueda recuperarlo o reproducirlo en un
momento posterior.
Aprendizaje por reforzamiento

Mais conteúdo relacionado

Mais procurados

Condicionamiento operante
Condicionamiento operanteCondicionamiento operante
Condicionamiento operanteCarolina
 
C.I.P.P.S.V. Maestria Online: Orientacion de la Conducta. Asignatura:Conducta...
C.I.P.P.S.V. Maestria Online: Orientacion de la Conducta. Asignatura:Conducta...C.I.P.P.S.V. Maestria Online: Orientacion de la Conducta. Asignatura:Conducta...
C.I.P.P.S.V. Maestria Online: Orientacion de la Conducta. Asignatura:Conducta...maestriavivian
 
Condicionamiento operante
Condicionamiento operanteCondicionamiento operante
Condicionamiento operanteEdith Torres
 
Principios y aplicaciones de condicionamiento operante
Principios y aplicaciones de condicionamiento operantePrincipios y aplicaciones de condicionamiento operante
Principios y aplicaciones de condicionamiento operanteSthephanie Elizabeth
 
CONDICIONAMIENTO OPERANTE
CONDICIONAMIENTO OPERANTECONDICIONAMIENTO OPERANTE
CONDICIONAMIENTO OPERANTERene Espinoza
 
Condic. operante
Condic. operanteCondic. operante
Condic. operantejwilfre
 
Técnicas de modificación de conducta
Técnicas de modificación de conductaTécnicas de modificación de conducta
Técnicas de modificación de conductaEnrique Emberley
 
condicionamiento operante psicologia
condicionamiento operante psicologia condicionamiento operante psicologia
condicionamiento operante psicologia Stephania Islas
 
Presentacion ponencia perspectiva conductista (2) (3) (4) (1)
Presentacion ponencia perspectiva conductista (2) (3) (4) (1)Presentacion ponencia perspectiva conductista (2) (3) (4) (1)
Presentacion ponencia perspectiva conductista (2) (3) (4) (1)Republica of Colombia School
 
Aprendizaje 06 ceprevi
Aprendizaje 06 cepreviAprendizaje 06 ceprevi
Aprendizaje 06 cepreviHorus Flores
 
5. tecnicas basadas en el condicionamiento operante
5. tecnicas basadas en el condicionamiento operante5. tecnicas basadas en el condicionamiento operante
5. tecnicas basadas en el condicionamiento operanteLaura O. Eguia Magaña
 
Condicionamiento operante
Condicionamiento operanteCondicionamiento operante
Condicionamiento operanteOZIELA RESENDIZ
 
Condicionamiento operante según B.F Skinner
Condicionamiento operante según B.F Skinner Condicionamiento operante según B.F Skinner
Condicionamiento operante según B.F Skinner Daniela Gutiérrez G
 
Psicología del Aprendizaje. UD2: Condicionamiento operante
Psicología del Aprendizaje. UD2: Condicionamiento operantePsicología del Aprendizaje. UD2: Condicionamiento operante
Psicología del Aprendizaje. UD2: Condicionamiento operanteManuel Sebastián
 
Condicionamiento operante
Condicionamiento operanteCondicionamiento operante
Condicionamiento operanteannylen
 

Mais procurados (20)

Condicionamiento operante
Condicionamiento operanteCondicionamiento operante
Condicionamiento operante
 
C.I.P.P.S.V. Maestria Online: Orientacion de la Conducta. Asignatura:Conducta...
C.I.P.P.S.V. Maestria Online: Orientacion de la Conducta. Asignatura:Conducta...C.I.P.P.S.V. Maestria Online: Orientacion de la Conducta. Asignatura:Conducta...
C.I.P.P.S.V. Maestria Online: Orientacion de la Conducta. Asignatura:Conducta...
 
Condicionamiento operante
Condicionamiento operanteCondicionamiento operante
Condicionamiento operante
 
Aportaciones de skinner
Aportaciones de skinnerAportaciones de skinner
Aportaciones de skinner
 
Principios y aplicaciones de condicionamiento operante
Principios y aplicaciones de condicionamiento operantePrincipios y aplicaciones de condicionamiento operante
Principios y aplicaciones de condicionamiento operante
 
CONDICIONAMIENTO OPERANTE
CONDICIONAMIENTO OPERANTECONDICIONAMIENTO OPERANTE
CONDICIONAMIENTO OPERANTE
 
Condic. operante
Condic. operanteCondic. operante
Condic. operante
 
Técnicas de modificación de conducta
Técnicas de modificación de conductaTécnicas de modificación de conducta
Técnicas de modificación de conducta
 
condicionamiento operante psicologia
condicionamiento operante psicologia condicionamiento operante psicologia
condicionamiento operante psicologia
 
3. el reforzamiento positivo
3. el reforzamiento positivo3. el reforzamiento positivo
3. el reforzamiento positivo
 
Teoria Condicionamiento Operante
Teoria Condicionamiento OperanteTeoria Condicionamiento Operante
Teoria Condicionamiento Operante
 
Presentacion ponencia perspectiva conductista (2) (3) (4) (1)
Presentacion ponencia perspectiva conductista (2) (3) (4) (1)Presentacion ponencia perspectiva conductista (2) (3) (4) (1)
Presentacion ponencia perspectiva conductista (2) (3) (4) (1)
 
Psicologia de la educación
Psicologia de la educaciónPsicologia de la educación
Psicologia de la educación
 
Aprendizaje 06 ceprevi
Aprendizaje 06 cepreviAprendizaje 06 ceprevi
Aprendizaje 06 ceprevi
 
5. tecnicas basadas en el condicionamiento operante
5. tecnicas basadas en el condicionamiento operante5. tecnicas basadas en el condicionamiento operante
5. tecnicas basadas en el condicionamiento operante
 
Condicionamiento operante
Condicionamiento operanteCondicionamiento operante
Condicionamiento operante
 
Tecnicas conductuales
Tecnicas conductuales Tecnicas conductuales
Tecnicas conductuales
 
Condicionamiento operante según B.F Skinner
Condicionamiento operante según B.F Skinner Condicionamiento operante según B.F Skinner
Condicionamiento operante según B.F Skinner
 
Psicología del Aprendizaje. UD2: Condicionamiento operante
Psicología del Aprendizaje. UD2: Condicionamiento operantePsicología del Aprendizaje. UD2: Condicionamiento operante
Psicología del Aprendizaje. UD2: Condicionamiento operante
 
Condicionamiento operante
Condicionamiento operanteCondicionamiento operante
Condicionamiento operante
 

Semelhante a Aprendizaje por reforzamiento

Aprendizaje Por Refuerzo Marvin
Aprendizaje Por Refuerzo MarvinAprendizaje Por Refuerzo Marvin
Aprendizaje Por Refuerzo MarvinALONSO UCHIHA
 
Presentación1 - Agentes racionales.pptx
Presentación1 - Agentes racionales.pptxPresentación1 - Agentes racionales.pptx
Presentación1 - Agentes racionales.pptxJuanAntonioDeoleoCru
 
Ejempla plan mod conducta
Ejempla plan mod conductaEjempla plan mod conducta
Ejempla plan mod conductaYadira Mangual
 
Modelo coductista
Modelo coductistaModelo coductista
Modelo coductistaDayanaJordn
 
Teoría de skinner y bandura
Teoría de skinner y banduraTeoría de skinner y bandura
Teoría de skinner y banduraangelorevil10
 
4. definir como se_inicia_la_investigacion
4. definir como se_inicia_la_investigacion4. definir como se_inicia_la_investigacion
4. definir como se_inicia_la_investigacionPregrado - Postgrado
 
Modificacion de la conducta pae 3
Modificacion de la conducta pae 3Modificacion de la conducta pae 3
Modificacion de la conducta pae 3AlePerez71
 
Agentes inteligentes
Agentes inteligentesAgentes inteligentes
Agentes inteligentesIsrael Rey
 
El modelo de modificación de la conducta
El modelo de modificación de la conductaEl modelo de modificación de la conducta
El modelo de modificación de la conductaJhonatanSigcha
 
MANEJO DE LA CONDUCTA MT9.pptx
MANEJO DE LA CONDUCTA MT9.pptxMANEJO DE LA CONDUCTA MT9.pptx
MANEJO DE LA CONDUCTA MT9.pptxMARLENETAPIA8
 
Guía Módulo 6. Comportamientos desafiantes.pdf
Guía Módulo 6. Comportamientos desafiantes.pdfGuía Módulo 6. Comportamientos desafiantes.pdf
Guía Módulo 6. Comportamientos desafiantes.pdfcontactoequipohorizo
 
Plan De ModificacióN De Conducta
Plan De ModificacióN De ConductaPlan De ModificacióN De Conducta
Plan De ModificacióN De ConductaDavid Gómez
 
Modelos de Modificación de conducta.
Modelos de Modificación de conducta.Modelos de Modificación de conducta.
Modelos de Modificación de conducta.LissetOjeda1
 

Semelhante a Aprendizaje por reforzamiento (20)

Aprendizaje Por Refuerzo Marvin
Aprendizaje Por Refuerzo MarvinAprendizaje Por Refuerzo Marvin
Aprendizaje Por Refuerzo Marvin
 
Art
ArtArt
Art
 
Presentación1 - Agentes racionales.pptx
Presentación1 - Agentes racionales.pptxPresentación1 - Agentes racionales.pptx
Presentación1 - Agentes racionales.pptx
 
Conductismo
ConductismoConductismo
Conductismo
 
Ejempla plan mod conducta
Ejempla plan mod conductaEjempla plan mod conducta
Ejempla plan mod conducta
 
Modelo coductista
Modelo coductistaModelo coductista
Modelo coductista
 
Teoría de skinner y bandura
Teoría de skinner y banduraTeoría de skinner y bandura
Teoría de skinner y bandura
 
4. definir como se_inicia_la_investigacion
4. definir como se_inicia_la_investigacion4. definir como se_inicia_la_investigacion
4. definir como se_inicia_la_investigacion
 
Agentes Racionales.pptx
Agentes Racionales.pptxAgentes Racionales.pptx
Agentes Racionales.pptx
 
Modificacion de la conducta pae 3
Modificacion de la conducta pae 3Modificacion de la conducta pae 3
Modificacion de la conducta pae 3
 
Agentes inteligentes
Agentes inteligentesAgentes inteligentes
Agentes inteligentes
 
El modelo de modificación de la conducta
El modelo de modificación de la conductaEl modelo de modificación de la conducta
El modelo de modificación de la conducta
 
Brisa puruncajas
Brisa puruncajasBrisa puruncajas
Brisa puruncajas
 
MANEJO DE LA CONDUCTA MT9.pptx
MANEJO DE LA CONDUCTA MT9.pptxMANEJO DE LA CONDUCTA MT9.pptx
MANEJO DE LA CONDUCTA MT9.pptx
 
BOLETÍN PSICOEDUCATIVO
BOLETÍN PSICOEDUCATIVOBOLETÍN PSICOEDUCATIVO
BOLETÍN PSICOEDUCATIVO
 
Guía Módulo 6. Comportamientos desafiantes.pdf
Guía Módulo 6. Comportamientos desafiantes.pdfGuía Módulo 6. Comportamientos desafiantes.pdf
Guía Módulo 6. Comportamientos desafiantes.pdf
 
Presentación10 (1)
Presentación10 (1)Presentación10 (1)
Presentación10 (1)
 
Plan De ModificacióN De Conducta
Plan De ModificacióN De ConductaPlan De ModificacióN De Conducta
Plan De ModificacióN De Conducta
 
Investigación acción
Investigación acciónInvestigación acción
Investigación acción
 
Modelos de Modificación de conducta.
Modelos de Modificación de conducta.Modelos de Modificación de conducta.
Modelos de Modificación de conducta.
 

Último

calendario de tandeos macrosectores xalapa mayo 2024.pdf
calendario de tandeos macrosectores xalapa mayo 2024.pdfcalendario de tandeos macrosectores xalapa mayo 2024.pdf
calendario de tandeos macrosectores xalapa mayo 2024.pdfredaccionxalapa
 
Red de Fraude de Markus Schad Müller en Fondos de Inversión.pdf
Red de Fraude de Markus Schad Müller en Fondos de Inversión.pdfRed de Fraude de Markus Schad Müller en Fondos de Inversión.pdf
Red de Fraude de Markus Schad Müller en Fondos de Inversión.pdfAlerta Marbella
 
Comoeuropasubdesarrolloaafricawakter.es.pdf
Comoeuropasubdesarrolloaafricawakter.es.pdfComoeuropasubdesarrolloaafricawakter.es.pdf
Comoeuropasubdesarrolloaafricawakter.es.pdfLorenzo Lemes
 
PRECIOS_M_XIMOS_VIGENTES_DEL_28_DE_ABRIL_AL_4_DE_MAYO_DE_2024.pdf
PRECIOS_M_XIMOS_VIGENTES_DEL_28_DE_ABRIL_AL_4_DE_MAYO_DE_2024.pdfPRECIOS_M_XIMOS_VIGENTES_DEL_28_DE_ABRIL_AL_4_DE_MAYO_DE_2024.pdf
PRECIOS_M_XIMOS_VIGENTES_DEL_28_DE_ABRIL_AL_4_DE_MAYO_DE_2024.pdfredaccionxalapa
 
Informe Estudio de Opinión en Zapopan Jalisco - ABRIL
Informe Estudio de Opinión en Zapopan Jalisco - ABRILInforme Estudio de Opinión en Zapopan Jalisco - ABRIL
Informe Estudio de Opinión en Zapopan Jalisco - ABRILmerca6
 
PRECIOS_M_XIMOS_VIGENTES_DEL_5_AL_11_DE_MAYO_DE_2024.pdf
PRECIOS_M_XIMOS_VIGENTES_DEL_5_AL_11_DE_MAYO_DE_2024.pdfPRECIOS_M_XIMOS_VIGENTES_DEL_5_AL_11_DE_MAYO_DE_2024.pdf
PRECIOS_M_XIMOS_VIGENTES_DEL_5_AL_11_DE_MAYO_DE_2024.pdfredaccionxalapa
 
Carta de Sabrina Shorff enviada al juez Kevin Castel
Carta de Sabrina Shorff enviada al juez Kevin CastelCarta de Sabrina Shorff enviada al juez Kevin Castel
Carta de Sabrina Shorff enviada al juez Kevin CastelAndySalgado7
 
Horarios empresa electrica quito 25 de abril de 2024
Horarios empresa electrica quito 25 de abril de 2024Horarios empresa electrica quito 25 de abril de 2024
Horarios empresa electrica quito 25 de abril de 2024ssuseref6ae6
 
El abogado de los Arrieta se queja ante la embajada de España por la presenci...
El abogado de los Arrieta se queja ante la embajada de España por la presenci...El abogado de los Arrieta se queja ante la embajada de España por la presenci...
El abogado de los Arrieta se queja ante la embajada de España por la presenci...20minutos
 
Boletín semanal informativo 17. Abril 2024
Boletín semanal informativo 17. Abril 2024Boletín semanal informativo 17. Abril 2024
Boletín semanal informativo 17. Abril 2024Nueva Canarias-BC
 
Relación del derecho con las ciencias políticas.pptx
Relación del derecho con las ciencias políticas.pptxRelación del derecho con las ciencias políticas.pptx
Relación del derecho con las ciencias políticas.pptxBrunoLaqui
 
LO QUE NUNCA DEBARIA HABER PASADO PACTO CiU PSC (Roque).pptx
LO QUE NUNCA DEBARIA HABER PASADO PACTO CiU PSC (Roque).pptxLO QUE NUNCA DEBARIA HABER PASADO PACTO CiU PSC (Roque).pptx
LO QUE NUNCA DEBARIA HABER PASADO PACTO CiU PSC (Roque).pptxroque fernandez navarro
 
2024-05-02-Carta-145-aniversario-PSOE.pdf
2024-05-02-Carta-145-aniversario-PSOE.pdf2024-05-02-Carta-145-aniversario-PSOE.pdf
2024-05-02-Carta-145-aniversario-PSOE.pdf20minutos
 

Último (15)

calendario de tandeos macrosectores xalapa mayo 2024.pdf
calendario de tandeos macrosectores xalapa mayo 2024.pdfcalendario de tandeos macrosectores xalapa mayo 2024.pdf
calendario de tandeos macrosectores xalapa mayo 2024.pdf
 
Red de Fraude de Markus Schad Müller en Fondos de Inversión.pdf
Red de Fraude de Markus Schad Müller en Fondos de Inversión.pdfRed de Fraude de Markus Schad Müller en Fondos de Inversión.pdf
Red de Fraude de Markus Schad Müller en Fondos de Inversión.pdf
 
LA CRÓNICA COMARCA DE ANTEQUERA _ Nº 1078
LA CRÓNICA COMARCA DE ANTEQUERA _ Nº 1078LA CRÓNICA COMARCA DE ANTEQUERA _ Nº 1078
LA CRÓNICA COMARCA DE ANTEQUERA _ Nº 1078
 
Comoeuropasubdesarrolloaafricawakter.es.pdf
Comoeuropasubdesarrolloaafricawakter.es.pdfComoeuropasubdesarrolloaafricawakter.es.pdf
Comoeuropasubdesarrolloaafricawakter.es.pdf
 
LA CRÓNICA COMARCA DE ANTEQUERA _ Nº 1079
LA CRÓNICA COMARCA DE ANTEQUERA _ Nº 1079LA CRÓNICA COMARCA DE ANTEQUERA _ Nº 1079
LA CRÓNICA COMARCA DE ANTEQUERA _ Nº 1079
 
PRECIOS_M_XIMOS_VIGENTES_DEL_28_DE_ABRIL_AL_4_DE_MAYO_DE_2024.pdf
PRECIOS_M_XIMOS_VIGENTES_DEL_28_DE_ABRIL_AL_4_DE_MAYO_DE_2024.pdfPRECIOS_M_XIMOS_VIGENTES_DEL_28_DE_ABRIL_AL_4_DE_MAYO_DE_2024.pdf
PRECIOS_M_XIMOS_VIGENTES_DEL_28_DE_ABRIL_AL_4_DE_MAYO_DE_2024.pdf
 
Informe Estudio de Opinión en Zapopan Jalisco - ABRIL
Informe Estudio de Opinión en Zapopan Jalisco - ABRILInforme Estudio de Opinión en Zapopan Jalisco - ABRIL
Informe Estudio de Opinión en Zapopan Jalisco - ABRIL
 
PRECIOS_M_XIMOS_VIGENTES_DEL_5_AL_11_DE_MAYO_DE_2024.pdf
PRECIOS_M_XIMOS_VIGENTES_DEL_5_AL_11_DE_MAYO_DE_2024.pdfPRECIOS_M_XIMOS_VIGENTES_DEL_5_AL_11_DE_MAYO_DE_2024.pdf
PRECIOS_M_XIMOS_VIGENTES_DEL_5_AL_11_DE_MAYO_DE_2024.pdf
 
Carta de Sabrina Shorff enviada al juez Kevin Castel
Carta de Sabrina Shorff enviada al juez Kevin CastelCarta de Sabrina Shorff enviada al juez Kevin Castel
Carta de Sabrina Shorff enviada al juez Kevin Castel
 
Horarios empresa electrica quito 25 de abril de 2024
Horarios empresa electrica quito 25 de abril de 2024Horarios empresa electrica quito 25 de abril de 2024
Horarios empresa electrica quito 25 de abril de 2024
 
El abogado de los Arrieta se queja ante la embajada de España por la presenci...
El abogado de los Arrieta se queja ante la embajada de España por la presenci...El abogado de los Arrieta se queja ante la embajada de España por la presenci...
El abogado de los Arrieta se queja ante la embajada de España por la presenci...
 
Boletín semanal informativo 17. Abril 2024
Boletín semanal informativo 17. Abril 2024Boletín semanal informativo 17. Abril 2024
Boletín semanal informativo 17. Abril 2024
 
Relación del derecho con las ciencias políticas.pptx
Relación del derecho con las ciencias políticas.pptxRelación del derecho con las ciencias políticas.pptx
Relación del derecho con las ciencias políticas.pptx
 
LO QUE NUNCA DEBARIA HABER PASADO PACTO CiU PSC (Roque).pptx
LO QUE NUNCA DEBARIA HABER PASADO PACTO CiU PSC (Roque).pptxLO QUE NUNCA DEBARIA HABER PASADO PACTO CiU PSC (Roque).pptx
LO QUE NUNCA DEBARIA HABER PASADO PACTO CiU PSC (Roque).pptx
 
2024-05-02-Carta-145-aniversario-PSOE.pdf
2024-05-02-Carta-145-aniversario-PSOE.pdf2024-05-02-Carta-145-aniversario-PSOE.pdf
2024-05-02-Carta-145-aniversario-PSOE.pdf
 

Aprendizaje por reforzamiento

  • 1. Aprendizaje por reforzamiento Define la manera de comportarse de un agente a un tiempo dado en un tiempo exacto. Puede verse como un mapeo entre los estados del ambiente que el agente percibe y las acciones que toma, cuando se encuentra en esos estados. Corresponde a lo que en psicología se conoce como reglas estimulo-respuesta o asociaciones. Este elemento es central ya que por si sólo es suficiente para determinar el comportamiento. [editar] Función de reforzamiento Define la meta en un problema de RL, al mapear cada percepción del agente (estado del ambiente o par estado, acción) a un número (recompensa) que indica que tan deseable es ese estado. El objetivo del agente es maximizar la recompensa recibida a largo plazo. De esta forma, la función define qué eventos son buenos y malos para el agente, por lo que la función es necesariamente inalterable por las acciones del agente. Debe, sin embargo, servir como base para alterar la política, por ej., si una acción elegida por la política recibe una recompensa muy baja, la política debe cambiarse para elegir una acción diferente en esa situación. Una función de reforzamiento por lo general es estocástica.es un fortalecimiento del se humano para poder comprender de la mejor manera cualquier lectura. [editar] Función de evaluación Mientras que la función de reforzamiento indica lo que es bueno en lo inmediato, la función de evaluación lo hace a largo plazo. Puede verse como la cantidad total de recompensa que el agente espera recibir en el tiempo, partiendo de un estado en particular. La recompensa determina la bondad inmediata de un estado, el val también sirve mucho leer poquito por or representa la bondad a largo plazo del mismo, tomando en cuenta los estados a los que podría conducir. La mayoría de los algoritmos RL operan estimando la función de valuación, aunque los algoritmos genéticos, la programación genética, y el recocido simulado, pueden resolver problemas de RL sin considerar valores, buscando directamente en el espacio de políticas. Observen que en éstos métodos evolutivos operan bajo un concepto diferente de interacción dado por el valor de adaptación. [editar] Modelo del ambiente Los modelos mimetizan el medio ambiente, dados un estado y una acción, el modelo debería predecir el estado resultante y la recompensa próximos. Los modelos se utilizan para planear, es decir, decidir sobre un curso de acción que involucra situaciones futuras, antes de que estas se presenten. La incorporación de modelos y planificación en RL es un desarrollo reciente, RL clásico puede verse como la anti-planificación. Ahora es claro que los métodos RL están estrechamente relacionados a los métodos de programación dinámica. Así los algoritmos RL pueden verse en un continuo entre las estrategias ensayo-error y la planificación deliberativa. ovidio de leon crisostomo dice en su investigacion que
  • 2. los tipos de aprendizajes es cuando el niño adquiere conocimientos diferentes y los descubre en diferentes ambientes y saber q mas sige [editar] Aprendizaje por observación Albert Bandura consideraba que podemos aprender por observación o imitación. Si todo el aprendizaje fuera resultado de recompensas y castigos nuestra capacidad sería muy limitada. El aprendizaje observacional sucede cuando el sujeto contempla la conducta de un modelo, aunque se puede aprender una conducta sin llevarla a cabo. Son necesarios los siguientes pasos: 1. Adquisición: el sujeto observa un modelo y reconoce sus rasgos característicos de conducta. 2. Retención: las conductas del modelo se almacenan en la memoria del observador. Se crea un camino virtual hacia el sector de la memoria en el cerebro. Para recordar todo se debe reutilizar ese camino para fortalecer lo creado por las neuronas utilizadas en ese proceso 3. Ejecución: si el sujeto considera la conducta apropiada y sus consecuencias son positivas, reproduce la conducta. 4. Consecuencias: imitando el modelo, el individuo puede ser reforzado por la aprobación de otras personas. Implica atención y memoria, es de tipo de actividad cognitiva. 5. Aprendizaje por descubrimiento: Lo que va a ser aprendido no se da en su forma final, sino que debe ser re-construido por el alumno antes de ser aprendido e incorporado significativamente en la estructura cognitiva. 6. Aprendizaje por recepción: El contenido o motivo de aprendizaje se presenta al alumno en su forma final, sólo se le exige que internalice o incorpore el material (leyes, un poema, un teorema de geometría, etc.) que se le presenta de tal modo que pueda recuperarlo o reproducirlo en un momento posterior.