Na área de prognóstico e gestão da saúde, as técnicas baseadas em machine learning e deep learning têm tido uma grande evolução dentro dos últimos dez anos, obtendo resultados promissores tanto para diagnostico como prognóstico de falhas. Apesar de serem promissoras, há uma resistência por parte da indústria para a implementação deste tipo de técnicas em grande escala. Parte dessa resistência tem relação com o fato de as redes neurais funcionarem como caixas pretas. Isso significa que, uma vez treinado, há grandes dificuldades para entender como é que o modelo chega aos resultados. Como as redes neurais estão compostas por várias camadas de operações não lineares, fazer uma interpretação dos resultados em função das variáveis de entrada é quase impossível na maioria dos casos. No contexto de prognóstico e gestão da saúde, é importante saber como as variáveis monitoradas se relacionam com o resultado, poder detectar vieses, para gerar confiança com o usuário, e inclusive para ajudar na definição de ações de prevenção e mitigação. Neste contexto, este artigo apresenta uma técnica de seleção de variáveis para redes neurais profundas, na qual cada variável de entrada é multiplicada por um valor de importância entre 0 e 1. Esses valores são ajustados em conjunto com o restante da rede durante a fase de treinamento. Após treinamento, o modelo é capaz de entregar não só os valores relacionados com o desempenho da rede, mas também o valor de importância de cada variável de entrada para a geração do resultado apresentado. A técnica é aplicada em um caso de uma planta de remoção de CO2 do gás natural produzido em uma unidade de produção offshore. O objetivo é utilizar as variáveis monitoradas do processo para quantificar a quantidade de CO2 após o processo de remoção. A técnica é comparada com outras duas técnicas presentes na literatura. Os resultados mostram que a utilização da técnica proposta não afeta o desempenho da rede, que é capaz de fazer um rankeamento das variáveis disponíveis de acordo com a sua importância, e que atinge níveis de desempenho maiores do que outras técnicas quando é utilizado o mesmo número de variáveis.