Um ponderado

Scientific Reports volume 13, Artigo número: 14061 (2023) Citar este artigo

1507 Acessos

1 Altmétrico

Detalhes das métricas

Na atual cultura digital orientada por dados, há uma demanda crítica por soluções otimizadas que essencialmente reduzam as despesas operacionais e, ao mesmo tempo, tentem aumentar a produtividade. A quantidade de memória e o tempo de processamento que podem ser usados para processar enormes volumes de dados estão sujeitos a uma série de limitações. Isto seria, sem dúvida, um problema maior se um conjunto de dados contivesse informações redundantes e desinteressantes. Por exemplo, muitos conjuntos de dados contêm uma série de recursos não informativos que enganam principalmente um determinado algoritmo de classificação. Para resolver isso, os pesquisadores têm desenvolvido uma variedade de técnicas de seleção de recursos (FS) que visam eliminar informações desnecessárias dos conjuntos de dados brutos antes de colocá-los na frente de um algoritmo de aprendizado de máquina (ML). Algoritmos de otimização meta-heurística são frequentemente uma escolha sólida para resolver problemas NP-difíceis como FS. Neste estudo, apresentamos uma técnica de wrapper FS baseada no algoritmo de busca pardal (SSA), um tipo de meta-heurística. SSA é um método de inteligência de enxame (SI) que se destaca por sua rápida convergência e maior estabilidade. O SSA tem algumas desvantagens, como menor diversidade de enxames e fraca capacidade de exploração em iterações tardias, como a maioria dos algoritmos SI. Assim, usando dez mapas caóticos, tentamos melhorar a SSA de três maneiras: (i) a geração inicial do enxame; (ii) a substituição de duas variáveis aleatórias no SSA; e (iii) prender os pardais que cruzam a área de busca. Como resultado, obtemos CSSA, uma forma caótica de SSA. Comparações extensas mostram que o CSSA é superior em termos de diversidade de enxame e velocidade de convergência na resolução de várias funções representativas do conjunto de benchmarks do Congresso de Computação Evolutiva (CEC) do Instituto de Engenheiros Elétricos e Eletrônicos (IEEE). Além disso, a análise experimental do CSSA em dezoito conjuntos de dados de ML interdisciplinares e multiescala do repositório de dados da Universidade da Califórnia Irvine (UCI), bem como três conjuntos de dados de microarray de alta dimensão, demonstra que o CSSA supera doze algoritmos de última geração em uma tarefa de classificação baseada na disciplina FS. Finalmente, uma análise estatística post-hoc com nível de significância de 5% baseada no teste de classificação sinalizada de Wilcoxon, no teste de classificação de Friedman e no teste de Nemenyi confirma a significância do CSSA em termos de aptidão geral, precisão de classificação, tamanho do recurso selecionado, tempo computacional, traço de convergência e estabilidade.

O século XXI tornou-se a era dos dados, com a análise e utilização de dados visíveis em todos os aspectos da vida, e estes dados são frequentemente de carácter altamente dimensional1,2,3,4,5. No entanto, é inevitável que esses dados contenham um número substancial de características redundantes e irrelevantes, aumentando a sobrecarga computacional e o risco de overfitting quando manipulados por algoritmos tradicionais de aprendizado de máquina (ML)6,7,8. Como resultado, para fazer melhor uso dos dados, procedimentos eficientes, como a seleção de recursos (FS), devem ser desenvolvidos para lidar com os recursos inúteis9,10,11. Wrappers, filtros e técnicas FS incorporadas são comumente usadas para diferenciá-los com base em sua avaliação para subconjuntos de recursos12. As abordagens baseadas em wrapper dependem de algoritmos de ML predefinidos para obter maior precisão de classificação, mas são muito caras para calcular porque os algoritmos de ML devem ser executados inúmeras vezes13. Pelo contrário, ao avaliar subconjuntos de recursos, as abordagens baseadas em filtros não usam nenhum algoritmo de ML, o que reduz o custo de computação, mas pode reduzir a precisão da classificação14. As técnicas incorporadas incorporam FS no aprendizado do modelo, levando em consideração a influência do modelo algorítmico e, ao mesmo tempo, reduzindo o peso computacional; entretanto, esses métodos apresentam baixa capacidade de generalização e complexidade computacional significativa15.

N/2\) indicates that scroungers need to fly elsewhere to get food; otherwise, scroungers get food form around producers./p>f({\mathbf{g}}_{best}^{t})\) indicates that the sparrow is at risk of predation and needs to change its location according to the current best individual, whereas when \(f({\textbf{x}}_i^{t})=f({\mathbf{g}}_{best}^{t})\), a sparrow needs to strategically move closer to other safe individuals to improve its safety index./p>

blog