首頁 資訊 設(shè)計師文章資訊 性能矚目:Tensor RT-LLM,使大語言模型在搭載 RTX 的Windows平臺上運行速度提高4倍

性能矚目:Tensor RT-LLM,使大語言模型在搭載 RTX 的Windows平臺上運行速度提高4倍

作者:設(shè)計圈
2023-10-18 發(fā)布      

內(nèi)容簡介

+++

生成式 AI(GenerativeAI)是個人計算史上最重要的趨勢之一,推動游戲、創(chuàng)作、視頻編輯、日常工作、開發(fā)等的發(fā)展。

GeForceRTX 和 NVIDIARTXGPU配備名為TensorCores的專用AI處理器,將生成式 AI (GenerativeAI)的強大功能原生引入超過1億臺WindowsPC和工作站。

如今,TensorRT-LLM for Windows 使PC生成式AI(GenerativeAI)速度提高4倍,Tensor RT-LLM for Windows是一個開源庫,可加速最新AI大語言模型(如Llama2和CodeLlama)的推理性能。此前,TensorRT-LLM for Datacenter 已在上個月發(fā)布。

NVIDIA還發(fā)布幫助開發(fā)者加速LLM 的工具,包括使用TensorRT-LLM優(yōu)化自定義模型的腳本、TensorRT優(yōu)化的開源模型,以及一個展示LLM響應(yīng)速度和質(zhì)量的開發(fā)者參考項目。

TensorRT 加速現(xiàn)已應(yīng)用于 Automatic 1111 發(fā)布的熱門應(yīng)用 Stable Diffusion WebUI。它將生成式 AI(GenerativeAI)擴散模型的速度提升2倍,比此前最快的速度還快。

此外,作為今天發(fā)布的 GameReady 驅(qū)動的一部分,RTX VSR 視頻超分辨率(VideoSuperResolution)v1.5版現(xiàn)已發(fā)布,11月初發(fā)布的 NVIDIAStudio驅(qū)動 也將支持該技術(shù)。

Tensor RTLLM增效

LLM正在提高生產(chǎn)力——聊天、總結(jié)文檔和網(wǎng)頁內(nèi)容、起草電子郵件和博客,并且是由AI和其他軟件所組成的全新工作流的核心,可以自動分析數(shù)據(jù)并生成大量內(nèi)容。

Tensor RT-LLM 是 NVIDIA 用于加速LLM推理的庫,使開發(fā)者和最終用戶可以享受運行 LLM 的更多優(yōu)勢。現(xiàn)在,LLM 在搭載 RTX 的 WindowsPC 上的運行速度可提高4倍。

在更大的批量大小下,這種加速可顯著改善更復(fù)雜的LLM使用體驗,如寫作和編碼助手,可同時輸出多個唯一的自動完成結(jié)果,從而加速性能并改進(jìn)質(zhì)量,讓用戶可以有最好的選擇。

TensorRT-LLM 加速還有利于將LLM功能與其他技術(shù)相結(jié)合,例如在檢索增強生成(RAG)中,LLM與向量庫或向量數(shù)據(jù)庫組合。RAG使LLM能根據(jù)特定的數(shù)據(jù)集(如用戶的電子郵件或網(wǎng)站文章)提供更有針對性的答案。

在實際應(yīng)用中,當(dāng)我們向LLaMa2基礎(chǔ)模型提出"《心靈殺手2》(AlanWake2) 集成了 NVIDIA 的哪些技術(shù)?"這一問題時,它給出"游戲尚未公布"這一毫無幫助的回答。

相反,使用RAG 將GeForce 新聞添加到向量庫中,并連接到相同的Llama2模型,不僅得到正確答案——NVIDIADLSS3.5、NVIDIAReflex和全景光線追蹤,而且在TensorRT-LLM加速的助力下響應(yīng)速度更快。這種速度與能力的結(jié)合為用戶提供更智能的解決方案。

Tensor RT-LLM 即將能從 NVIDIA開發(fā)者網(wǎng)站下載。

Tensor RT優(yōu)化的開源模型和以GeForce 新聞為示例項目的RAGDemo 可從ngc.nvidia.com和GitHub.com/NVIDIA下載。

自動加速

Diffusion模型(如 StableDiffusion)用于想象和創(chuàng)造令人驚嘆的新穎藝術(shù)作品。圖像生成是一個迭代過程,可能需要數(shù)百次循環(huán)才能獲得完美輸出。如果在性能不足的 PC 上進(jìn)行,這種循環(huán)可能會增加數(shù)小時的等待時間。

TensorRT旨在通過神經(jīng)網(wǎng)絡(luò)層融合、精度校準(zhǔn)、內(nèi)核自動選擇和其他功能加速AI模型,從而顯著提高推理效率和速度。這使它成為實時應(yīng)用和資源密集型任務(wù)不可或缺的工具。

現(xiàn)在,TensorRT使 StableDiffusion 生成速度翻倍。

兼容最熱門的 Automatic1111WebUI,借助 TensorRT 加速的 StableDiffusion 可以幫助用戶加快迭代速度,減少PC等待時間,更快生成最終圖像。在GeForceRTX4090上,它的運行速度是使用蘋果M2Ultra的Mac頂配版的7倍。該擴展即日起可供下載。

基于 StableDiffusion 流程的TensorRTDemo 為開發(fā)者提供了如何為Tensor RT加速準(zhǔn)備擴散模型并部署加速的參考實現(xiàn)。這是一個起點,它可以為對此感興趣的開發(fā)者加速 Diffusion 流程,并為應(yīng)用帶來快如閃電的推理能力。

超級視頻體驗

AI 正在改善所有用戶的諸多日常PC體驗。流媒體視頻是PC上最受歡迎的活動之一,其來源幾乎無所不包,如YouTube、Twitch、PrimeVideo、Disney+等。得益于 AI 和RTX,它的圖像質(zhì)量又有全新提升。

RTXVSR視頻超分辨率在 AI 像素處理方面的重大突破,通過減少或消除壓縮視頻造成的失真,提高直播視頻內(nèi)容的質(zhì)量。此外,它還能銳化邊緣和細(xì)節(jié)。

現(xiàn)在,RTXVSR 視頻超分辨率v1.5版通過更新模型進(jìn)一步提升視頻畫面質(zhì)量,消除以原始分辨率播放內(nèi)容的偽影,并增加對采用 NVIDIA Turing 架構(gòu)的RTX 20 系列GPU的支持,包括:專業(yè)圖形卡和GeForceRTX20系列GPU。

重新訓(xùn)練VSRAI模型有助于它學(xué)會準(zhǔn)確識別微妙細(xì)節(jié)和壓縮失真之間的區(qū)別。因此,經(jīng)過AI增強的圖像在放大過程中能更準(zhǔn)確地保留細(xì)節(jié)。細(xì)節(jié)更加清晰可見,整體圖像看起來更加銳利清晰。v1.5版的全新功能是消除以屏幕原始分辨率播放視頻時的失真。最初的版本僅在視頻分辨率被提升時增強視頻效果?,F(xiàn)在,例如在1080p分辨率顯示器上串流1080p視頻會更流暢,因為嚴(yán)重的失真會顯著改善。

RTXVSR現(xiàn)在能消除以原始分辨率播放視頻時的失真

即日起,所有RTX用戶可在最新的GameReady 驅(qū)動中獲取 RTXVSR 視頻超分辨率v1.5 版使用,下月初發(fā)布的NVIDIAStudio驅(qū)動也將支持該技術(shù)。

RTXVSR 視頻超分辨率是NVIDIA軟件、工具、庫和SDK(如上文提到的軟件、工具、庫和SDK,以及DLSS、Omniverse、AIWorkbench等軟件)的一部分,這些軟件、工具、庫和SDK為消費者帶來超過400款A(yù)I加速的應(yīng)用和游戲。

AI時代即將到來。RTX正為其發(fā)展的每一步增加動力。

關(guān)于NVIDIA
自1993年成立以來,NVIDIA (NASDAQ: NVDA) 一直是加速計算領(lǐng)域的先驅(qū)。NVIDIA 1999年發(fā)明的 GPU 驅(qū)動了 PC 游戲市場的增長,并重新定義了現(xiàn)代計算機圖形,開啟了現(xiàn)代AI時代,正在推動跨市場的工業(yè)數(shù)字化。NVIDIA 現(xiàn)在是一家全棧計算公司,其數(shù)據(jù)中心規(guī)模的解決方案正在重塑整個行業(yè)。更多信息,請訪問https://nvidianews.nvidia.com/。

# # #

媒體咨詢:

Jade Li

NVIDIA GeForce, Studio PR

郵箱:jadli@nvidia.com

收藏

0人已收藏

全部評論 0

    更多評論