investigación de los Avances tecnológicos del siglo XXI
La Evolución del sistema que está cambiando el mundo HPC (High Performance Computing)
1. NVIDIA®Quadro y TeslaSoluciones para Profesionales Análisis de Beneficios Steve Harpster Solutions Architect sharpster@nvidia.com XXIV Congreso de Telecomunicaciones Octubre, 2009 XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
2. NVIDIA Hoy Líder de mundo en tecnologías visuales y cómputode GPU $4.1mil millones en ingresos FY08 Masque 5,400 empleados U$1.6 mil millonesinvestigación y desarrollo en los 3 años pasados XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
3. Tesla® Descubra y cómputo GeForce® Experiencia Quadro® Creación de contenidosdigitales XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
4. Familias de GPU NVIDIA Consumidores: Entretenimiento Profesionales: HPC Profesionales Diseño & Creación: Soluciones Industriales NVIDIA Quadro NVS 2D Profesional Servidor Corporativo Quadro SDI Quadro G-Sync Quadro Plex Middleware NVIDIA Quadro FX 3D Técnico Central XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
5. NVIDIA Professional Market Solutions Movil/PC Portatil PC de Escritorio Power Desk Side Blades de Escritorio Remoto Servidores Gráficos Remotos NVIDIA SLI NVIDIA HD SDI NVDIA G-Sync XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
6. Canalización (Pipeline) de vídeo Digital con QuadroQuadro Digital Video pipeline Transmisión y vídeo digital Producción de película, postproducción y acabado de cine Mercados de nuevos medios XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
7. Estudio virtual de Transmisión (Broadcast) “Confiamos en las soluciones video digital de NVIDIA Quadropara entregar formatos del SD y de HD en una sola solución barata… dando a nuestros clientes los gráficos en tiempo real más rápidos con calidad.” -- Paul Lacombe, President, Brainstorm XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009 Images Courtesy of Brainstorm & Accuweather Images Courtesy of Brainstorm & NBC Universal
8. Live Broadcast- Transmisión en vivo “NVIDIA Quadro entregan la plataforma con la más de alta calidad y más confiable de la industria para producir efectos virtuales en tiempo real en transmisiones en vivo.” -- Marv White, CTO SportVision XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009 Images Courtesy of SportVision, NBC & IOC
12. Drivers de un único proveedorSISTEMA Memoria CPU Quadro GPU Cálculo y Gráficos Quadro SDI Salida Quadro SDI Captura SDI Video API/Driver Unificado Gráficos(OGL & D3D): Captura, Proceso, SalidaSDI Video Computando (OGL, D3D, C, Open CL): procese la imagen XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
13. Quadro Digital Video Pipeline in Broadcast SYSTEM Memoria CPU HD-SDI HD-SDI Transfiere DVI TransfierePCIe Images Courtesy of SportVision & MLB XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
14. Quadro SDI CapturaCaptura de vídeo SDI directamente a Quadro GPU Rutamásrápidopara la vídeocaptura a la memoria de Quadro GPU Captura todos los formatos de vídeo SDI SMPTE La única solución para la captura de hasta 4 señales SDI 4 Single Link, 2 Dual Link, 2 3G-SDI Single Link, 1 3G-SDI Dual Link Conector de BNC Compatible con Quadro FX 5800, 4800, and 3800 XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
15. Quadro SDI Output (Salida)Gráficos-a-VídeodirectamentedesdeQuadro Compatible con formatos SD,HD,2K SDI SMPTE 2 conectores de BNC (75 Ohm) 2 Single link, 1 Dual link Compatible con Quadro FX 5800, 4800, and 3800 XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
16. Servicios de “streaming vídeo” de Internet en vivo XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
17. GPU NVIDIA Quadro FX 5800 240 núcleos 933 GFLOPS CPU Intel Core i7 965 4 núcleos 102 GFLOPS Mejorrendimientopuro con la GPU que la CPU. GPU CPU 2002 2003 2004 2006 2007 2008 2005 2009 2010 XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
18. Codificadores son la puerta de enlace a servicios nuevos de MultiMedia SISTEMA Memoria CPU h.264 HD-SDI Mejorrendimientopuro con la GPU que la CPU Transfiere PCIe XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
19. SolucionesProfesionales NVIDIA 80% de Participación Global en el mercado de GráficosProfesionales La GPU Profesional de Elecciónpara: CAD/CAM 80% DCC 90% WS de Finanzas 85% VisualizaciónPetrolera 60% Simulación Visual 75% Aprende de Quadro& AutoCAD y Adobe - www.nvidia.com/builtforpros XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
20. Liderazgo en Certificación ISV de Workstations Quadro FX XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
21. Familia Unificada de Quadro WS DT Ultra Alto Nivel QuadroFX 5800 FX 4800 FX 5800 ( 4GB) + SDI/Genlock/Framelock + 2x DVI, 1x DP Alto Nivel QuadroFX 4800 FX 3800 FX 4800 + (1.5GB) + SDI/Genlock/Framelock + 2x DP, 1x DVI NVIDIA Quadro FX 3800 Rango-Medio FX 1900 FX 3800 + 3pin Stereo Connector + SLI + 1.3X Performance NVIDIA Quadro FX 1800 FX 580 FX 1800 + 2x Frame Buffer ( to 512MB) + HD Video Connector (FX 1700 only) + 1.3x Performance Entrada NVIDIA Quadro FX 580 FX 380 FX 580 + 2x DP + Dual Dual Link DVI + 1.3x Performance NVIDIA Quadro FX 380 FX 380 256 MB Frame Buffer Dual Dual Link DVI XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009 *ESP as of 2/12/08 from www.Pricegrabber.com
22. Productos NVIDIA Tesla Serie 10 XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
23.
24. La parte secuencial del aplicaciones funciona en la CPU y la parte computa muy intenso, funciona en el GPU.
25. De la perspectiva del usuario, el uso funciona más rápidamente porque está utilizando el rendimiento mas alto del GPU para alzar funcionamiento.
26. CUDA es una arquitectura de cómputo paralelo para fines generales que aprovecha el motor de cómputo paralelo de las unidades de procesamiento gráfico (GPU) para resolver muchos de los problemas de cómputo más complejos en una fracción del tiempo requerido por la CPU. Cores = núcleos XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
27. El procesador Tesla Serie 10 1,400 millones de transistores 1 TeraFLOP de poder de procesamiento 240 núcleos Procesador CUDA de NVIDIA de segunda generación XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
28. . Las aplicaciones en lasáreas de electromagnetismo y electrodinámicautilizando GPU compatibles con CUDA se hanimplementadoampliamente en clientescomo Motorola, Kodak, Nokia, etc. Porejemplo, comomuestran los gráficos, la aceleración de FDTD basada en la GPU se escala con el número de GPU XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
29. l. Hay varios proyectos en marcha encaminados a acelerar códigos de química cuántica utilizando GPUs con CUDA, lo que incluye trabajos con Gaussian y GAMESS. Los gráficos siguientes muestran los resultados más representativos, seguidos de enlaces con aplicaciones y publicaciones técnicas relativas al uso de CUDA en química computacional. XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
30. En la actualidad se está trabajando para utilizar código CUDA en aplicaciones de valoración de derivados, análisis de riesgos y trading algorítmico. A continuación presentamos los resultados de este trabajo junto con algunos gráficos representativos sobre generadores de números aleatorios y simulaciones Montecarlo. XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
31. Reconocimiento de imagen, procesamiento de señales y minería de datos (Data Mining) son aplicaciones perfectas para el cálculo de GPU. “Hemos conseguido una aceleración de 75X con CUDA y Tesla sobre un 2,83 GHz Intel Core2” Procesamiento de señales XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
32. Hay varios proyectos en marcha encaminados a acelerar códigos de química cuántica utilizando GPUs con CUDA, lo que incluye trabajos con Gaussian y GAMESS. Los gráficos siguientes muestran los resultados más representativos, seguidos de enlaces con aplicaciones y publicaciones técnicas relativas al uso de CUDA en química computacional. Las aplicaciones de mecánica de fluidos para el cálculo de modelos climatológicos y oceánicos, como el modelo WRF (WeatherResearch and Forecasting), y las simulaciones de maremotos han experimentado avances extraordinarios que permiten acelerar su ejecución y sus niveles de precisión. XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
33. Incrementos en Rendimiento de 20x hasta 150x! 146X 36X 50X 18X 100X Transcodificación de Video Elemental Tech Imágenes Médicas U of Utah Dinámica Molecular U of Illinois, Urbana Cómputo MATLAB AccelerEyes Astrofísica RIKEN 149X 47X 20X 130X 30X Simulación financiera Oxford Álgebra Linear Universidad Jaime 3D Ultrasonido Techniscan Química Cuantica U of Illinois, Urbana Secuencia Genetica U of Maryland XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
34. Procesador de Cómputo Tesla C1060 XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
35. Conectando Tesla S1070 a Servidor Anfitrión Cables PCIe Gen2 Tarjetas de InterfázPCIe en servidor Servidor anfitrión Cable PCIe Gen2 (0.5m largo) Tesla S1070 Tarjeta de Interfáz de servidor PCIe Gen2 XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
36. 5000+ Clientes/ ISVs XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
38. Arquitectura ‘Fermi’ El alma de un Supercomputer en un cuerpo de un GPU 3 mil millonestransistores Sobre 2x los corazones (núcleos) (512 totales) Funcionamiento 8x mas con doble precision ECC L1 and L2 Caches Anchura de banda de la memoria ~2x (GDDR5) Hasta 1 Terabyte memoria de GPU Núcleos (Kernels) concurrentes de la memoria de GPU, C++ DRAM I/F DRAM I/F DRAM I/F HOST I/F L2 DRAM I/F Giga Thread DRAM I/F DRAM I/F XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
39. Mas grande y mas rápido GDDR5 interfaz de la memoria 2x másrápidaque GDDR3 Hasta 1 Terabyte memoria de GPU Funcionará en conjuntos de datos grandes DRAM I/F DRAM I/F HOST I/F DRAM I/F L2 Giga Thread DRAM I/F DRAM I/F DRAM I/F XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
40. GigaThreadTM Hardware Thread Scheduler (HTS) Manejajerárquicomillares de hilossimultáneamenteactivos 10x mas rapido en conmutación de contexto Ejecuciónconcurrente del núcleo HTS XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
41. GigaThread Hardware Thread Scheduler Kernel 1 Kernel 1 Kernel 2 Ker4 Kernel 2 Kernel 3 Kernel 2 nel Kernel 2 Kernel 5 Time Kernel 3 Ejecuciónparalela del núcleo (kernels) Kernel 4 Kernel 5 Ejecución serial del núcleo (kernels) XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009
42. CUDA Parallel Computing Architecture GPU Computing Applications Direct Compute Java and Python Fortran C C++ OpenCLtm NVIDIA GPU with the CUDA Parallel Computing Architecture XXIV Congreso de Telecomunicaciones, Cartagena de Indias, Octubre 2009 OpenCL is trademark of Apple Inc. used under license to the Khronos Group Inc.
Hola, mi llamo Steve y trabajocomo un inginerpor NVIDIA>Hoy, Deseo hoy discutir las ventajas y las oportunidades con los gráficos de Quadro en la Argentina.
NVIDIA se encuentra en Santa Clara CA. Nuestra empresa es el Líder de mundo en tecnologías visuales y computo En 2008, ganamos 4.1 mil millones en ingresos Tenemos mas que 5,400 empleados Y Invertimos 1.6 mil milones en investigación y desarollo
Es posible que usted conoce GeForce. También tenemos otra marca llamada Tesla que hablare sobre más adelante.GeForce es una tarjeta muy buena para usar con los juegos video, para usar con hospitalidad de las multimedias y corregiendo Videos.
Vemos mucho crecimiento de ventas para elQuadroen muchas áreas. Movil,Blades, ServiforesGraficos remotos.Las fotos arriba representan industrias del crecimiento. SDI en la televisión, Gsync en cuartos de la simulación, la visualización del petroleo y del gas y la visualización médica.Theres a thought that a workstation has to be a stationary desktop. The concept of what a workstation is evolving.Seeing tremendous growth the mobile workstation business. We are adding even more powerful GPUs and memory configurations that are just as energy efficient as prior generations. Blades are becoming more of a factor for hosting and remoting key professional applications to thin clientsPower desktop equals our QuadroPlex graphics solutions. Standalone model that is independently cooled and powered, that allows a professional user to take advantage of multiple high power graphics cards.Critical adders like gysnc and for synchronizing mulitplegpus to drive large high resolution displays and SDI for graphics to video out driving the virtual sets during the olympics as well as the broadcast coverage of the lastest elections here in the United States
Quiero centrarme en la canalización de vídeo digital en este momento.Tenemos tres segmentos de este mercado que son un muy buen partido para nuestros productosVídeo y televisión digitalEl Pipeline de Vídeo Digital Quadro es esencial para los profesionales de vídeo que trabajan en programas que cuentan con efectos o escenarios virtuales, transmisiones deportivas, pronóstico del tiempo y noticias. El Pipeline de Vídeo Digital Quadro integrado permite la captura de grabación de vídeo SD-, HD-, 3G-SDI en tiempo real, directamente en la GPU, efectos visuales compuestos o procesamiento de vídeo usando la arquitectura de computación paralela CUDA y luego el envío del resultado final a la TV en vivo. Producción, post producción y acabado de cineQuadro SDI Capture permite la captura de vídeo SDI en hasta 12 bits de color directamente en la GPU para la captura de contenido fuente de la cámara, escáneres cinematográficos, grabadoras de datos digitales (DDR) y grabadoras de cintas de vídeo (VTR). Además, la solución de salida SDI permite la visualización previa exacta en tiempo real en proyectores o monitores SDI. Mercados de nuevos mediosAl ofrecer el camino más rápido para la captura y codificación de vídeo de calidad para transmisiones, el Pipeline de Vídeo Digital Quadro ofrece la plataforma ideal para los mercados de nuevos medios, por ejemplo, la codificación basada en la GPU para la transmisión de vídeo por internet.
Algunos de nuestros clientes tienen que decir acerca de su producto Quadro. En los estudios de broadcast se usan nuestro solution. Los clientes incluyen: BBC, CNBC, AccuWeather, NASDAQ y muchos afiliados internacionales. Y jugaron un parte importante en la entrega de atractivas cobertura de elección de NBC y CNN en las últimas elecciones.
10. transmisión en vivoSportsVision pondrá a los efectos virtuales en la transmisión en vivo con la solución de NVIDIA Quadro.SportVision has league relationships with NFL, MLB, NBA, NASCAR, IRL, NHL, PGA TOUR, LPGA Tour, NCAA, WTA, MLS and other sporting events on-air and online. The company has captured eight Emmy Awards for its products, including three for their signature broadcast enhancements, the virtual yellow 1st and Ten™ line and K Zone™, three for its pioneering advanced media work with NASCAR, and one for Outstanding Achievement in New Media Technology. Major customers include ESPN, NBC, CBS, Turner as well as many regional broadcastsers such as FSN. And as I said earlier, our customers are saying we are the most reliable graphics and fastest solution on the market
12. La solución Quadro es la única solución en la industria con una ruta de acceso rápido a la memoria GPU para la composición de vídeoEsto reduce la latenciaEsto será baja utilización de la CPUPermite a nuestros distribuidores ofrecer una solución de un vendedores único para todos tarjetas adicionales necesarios para una solución por canalización de vídeo digitalAt NAB on April 20th, we’ll be introducing the industries first fully integrated GPU based solution for adding virtual effects to video.The benefits are clear to any customer in this space and there is a lot of buzz surrounding this.The Quadro solution is the only solution in the industry with a fast path to GPU memory for video compositing.This reduces latencyLowers CPU utilizationAllows our resellers to offer a single vendor solution for all add-in cards required for a true digital video pipelineTo give a sense to everyone about how important it is for us to address this latency issue, I was talking to one of our key integrators who does a lot of virtual set effects in broadcast – Brainstorm America – Brainstorm did the virtual effects used election coverage for NBC. They were telling me that they’ve lost business in the past because the talent refused to work with their product since the delay between when they spoke and when they saw themselves moving their mouth on a broadcast monitor was too much of a delay.
13. Hablaré como funcionar en un ejemplo real del sistema de publicidad virtual del SportVision de béisbol. Tienen una aplicación que se ejecuta en el sistema host que está diseñado para insertar anuncios durante un juego de béisbol vivo. Diseñar los anuncios gráficos y durante la emisión del evento en directo el gráfico se carga en memoria de GPU . Vídeo HD se captura cada fotograma tiene este anuncio compuesta en el vídeo. Esto mejorado piensos, a continuación, es enviado a la siguiente solución de vídeo de SDI en la canalización de la producción. To illustrate how video gets transferred through & composited in this pipeline let’s look at a real-world example from SportVision’s virtual advertising system for baseball.They have an application running on the host system which is designed to virtually insert ads on the backstop in live baseball games. They design the ad graphics & MLB sell this add unit to an end customer. During the broadcast of the live event graphic is loaded into GPU memory and as HD video is captured each frame has this advertising element composited into the video feed. This enhanced feed is then sent out to the next SDI video solution in the pipeline of the production.These kind of 2D and 3D effects are being used in all kinds of broadcast scenarios. But they’re especially prominent in creating virtual effects for News, Weather and Sports.
The first component in the Digital Video Pipeline is the Quadro SDI Capture Card. This is the only solution for capture video directly to GPU memory.NOTE: We won’t be shipping this product for revenue until August, but we are working on the details of how we offer key targeted customers access to a beta program by the end of May, what information we expect of partners & how to participate. We’ll be rolling out the details of our beta program before NAB.
Our SDI output card remains the same card we’re shipping today. With this card connected directly to our graphics cards partners can deliver 2 HD-SDI outputs.
All major broadcasters are investing in infrastructure to encode live events – sports, concerts, news, etc. into video formats that can be consumed on the web. In these workflows they are willing to pay for solutions that can reduce latency. If you look at a service like mlb.com’smlb TV service they produce over 100 shows per week & have to deliver that content on the internet as fast as possible to be competitive with broadcast television outlets. This outlet also gives consumers the ability to view any game and even out of market games unlike tradition broadcast distribution.With the GPU outpacing the CPU in raw compute performance the GPU is the natural engine for encoding live video feeds.
. la otra tecnología que está ayudando a la DVP es paralela de procesamiento de la GPU nvidia. El número de núcleos disponibles en un procesador de gráficos es mucho más que una CPU. Esto permite un mejor rendimiento en las aplicaciones que puede utilizar procesamiento en paralelo en su códigoThe other leap in the new line up is the number of NVIDIA CUDA Parallel Computing Processors configured on each of our graphics solution. The 10th generation Quadro line up starts with 16 cores with the FX 380, 4 times the number of cores on an Intel Core i7 965, growing to 240 processing cores with FX 5800 which is 60x the number of cores Intel cores. Processing power is orders of magnitude higher on the GPU than on the CPU. Developers are using CUDA programming language to move to move the applications that lend themselves to parallel computing over to the GPU.CPU – serialGPU – parallel, higher floating point performance
Por esta razón, codificación puede hacer mucho más rápido y permite el contenido para ser utilizados por los nuevos servicios multimedia como el internetService providers typically have 1 stream or the program feed being delivered to their hosting site via satellite. This feed is sent as uncompressed video for backup and for encoding for consumption in other outlets. The internet outlet is growing in usage & revenue. The way this encoding is done today is that is one program feed is being encoded per host today – due to CPU performance limitations. With our GPU based encoding solutions we believe we can increase the density of streams encoded per host machine by transferring this workload off the CPU and on the GPU. However, to create the ecosystem we need to convince key ISV partners in this space to move to GPU based encoding, but with the added pressure from broadcasters we believe we can get this to be adopted.
Leadership in Certification ISV of Workstations Quadro FXEjemplos de los negociasquetenemosCertificacionporQuadro
Computación con el GPU utiliza un GPU (unidad de proceso de los gráficos) para computo científico y ingeniería generales. El modelo para calculo de GPU esta utilizando una CPU y un GPU junto en un modelo que computa heterogéneo. La parte secuencial del uso, funciona en la CPU y la parte computo intenso funciona en el GPU. De la perspectiva del usuario, el uso funciona más rápidamente porque está utilizando el alto rendimiento del GPU para alzar funcionamiento.Computacion de GPU es permitido con un Software llamada CUDA. CUDA permite la arquitectura paralela de los GPUs. La arquitectura de CUDA con GPU consiste 240 nucleos del procesador que funcionan juntos para processar los datos el uso.Los usos necesitan computación en paralel, no serie.
. El TESLA procesador de 10 series. El procesador es de la segunda generaciónTiene 240 nucleos, y 1 teraflop de poder de procesamiento (energía de proceso.)
Maneja jerárquico millares de hilos simultáneamente activos 10x más rápido en conmutación de contexto Ejecución concurrente del núcleo One of the most important technologies of the Fermi architecture is its two-level, distributed thread scheduler. At the chip level, a global work distribution engine schedules thread blocks to various SMs, while at the SM level, each warp scheduler distributes warps of 32 threads to its execution units. The first generation GigaThread engine introduced in G80 managed up to 12,288 threads in realtime. The Fermi architecture improves on this foundation by providing not only greater thread throughput (24,576), but dramatically faster context switching, concurrent kernel execution, and improved thread block scheduling.
Fermi supports concurrent kernel execution, where different kernels of the same application context can execute on the GPU at the same time. Concurrent kernel execution allows programs that execute a number of small kernels to utilize the whole GPU. For example, a PhysX program may invoke a fluids solver and a rigid body solver which, if executed sequentially, would use only half of the available thread processors. On the Fermi architecture, different kernels of the same CUDA context can execute concurrently, allowing maximum utilization of GPU resources. Kernels from different application contexts (e.g. a game with graphics + PhysX) can still run sequentially with great efficiency thanks to the improved context switching performance.